Un punto único de falla ( SPOF ) es una parte de un sistema que, si falla , impedirá que todo el sistema funcione . [1] Los SPOF son indeseables en cualquier sistema que tenga como objetivo una alta disponibilidad o confiabilidad , ya sea una práctica comercial, una aplicación de software u otro sistema industrial.
Los sistemas se pueden hacer más robustos añadiendo redundancia en todos los SPOF potenciales. La redundancia se puede lograr en varios niveles.
La evaluación de un posible fallo de sistema implica la identificación de los componentes críticos de un sistema complejo que provocarían un fallo total del sistema en caso de avería. Los sistemas altamente fiables no deberían depender de ninguno de esos componentes individuales.
Por ejemplo, el propietario de una pequeña empresa de cuidado de árboles puede tener solo una trituradora de madera . Si la trituradora se rompe, es posible que no pueda completar su trabajo actual y tenga que cancelar trabajos futuros hasta que pueda obtener un reemplazo. El propietario de la empresa de cuidado de árboles puede tener repuestos listos para la reparación de la trituradora de madera, en caso de que falle. En un nivel superior, puede tener una segunda trituradora de madera que puede llevar al lugar de trabajo. Finalmente, en el nivel más alto, puede tener suficiente equipo disponible para reemplazar por completo todo en el lugar de trabajo en caso de múltiples fallas.
Un sistema informático tolerante a fallos se puede lograr a nivel de componentes internos, a nivel de sistema (múltiples máquinas) o a nivel de sitio (replicación).
Normalmente, se implementaría un balanceador de carga para garantizar la alta disponibilidad de un clúster de servidores a nivel de sistema. En un clúster de servidores de alta disponibilidad, cada servidor individual puede lograr redundancia de componentes internos al tener múltiples fuentes de alimentación, discos duros y otros componentes. La redundancia a nivel de sistema se puede obtener al tener servidores de repuesto esperando para asumir el trabajo de otro servidor si falla.
Dado que un centro de datos suele ser un centro de soporte para otras operaciones, como la lógica empresarial, representa un potencial SPOF en sí mismo. Por lo tanto, a nivel de sitio, todo el clúster puede replicarse en otra ubicación, desde donde se puede acceder a él en caso de que la ubicación principal no esté disponible. Esto generalmente se aborda como parte de un programa de recuperación ante desastres de TI .
Paul Baran y Donald Davies desarrollaron la conmutación de paquetes , un elemento clave de las "redes de comunicaciones con capacidad de supervivencia". Dichas redes (incluidas ARPANET e Internet ) están diseñadas para que no exista ningún punto único de fallo. La existencia de múltiples rutas entre dos puntos cualesquiera de la red permite que esos puntos sigan comunicándose entre sí y que los paquetes "eviten" los daños , incluso después de cualquier fallo de una ruta determinada o de un nodo intermedio.
En ingeniería de software , un cuello de botella se produce cuando la capacidad de una aplicación o un sistema informático está limitada por un solo componente. El cuello de botella tiene el menor rendimiento de todas las partes de la ruta de transacción.
El rastreo de cuellos de botella (a veces conocidos como puntos calientes , secciones del código que se ejecutan con mayor frecuencia, es decir, tienen el mayor recuento de ejecuciones) se denomina análisis de rendimiento . La reducción generalmente se logra con la ayuda de herramientas especializadas, conocidas como analizadores de rendimiento o perfiladores. El objetivo es hacer que esas secciones particulares del código funcionen lo más rápido posible para mejorar la eficiencia algorítmica general .
Una vulnerabilidad o vulnerabilidad de seguridad en un solo componente puede comprometer un sistema entero.
El concepto de un único punto de fallo también se ha aplicado a campos ajenos a la ingeniería, las computadoras y las redes, como la gestión de la cadena de suministro corporativa [2] y la gestión del transporte. [3]
Las estructuras de diseño que crean puntos únicos de falla incluyen cuellos de botella y circuitos en serie (en contraste con los circuitos en paralelo ).
En el transporte, algunos ejemplos recientes notables de la aplicación reciente del concepto incluyen el puente del río Nipigon en Canadá, donde una falla parcial del puente en enero de 2016 cortó por completo el tráfico por carretera entre el este y el oeste de Canadá durante varios días porque está ubicado a lo largo de una parte de la autopista Transcanadiense donde no hay una ruta de desvío alternativa para que los vehículos la tomen; [4] y el puente ferroviario del río Norwalk en Norwalk , Connecticut , un puente giratorio antiguo que a veces se atasca al abrirse o cerrarse, lo que interrumpe el tráfico ferroviario en la línea del Corredor Noreste . [3]
El concepto de punto único de fallo también se ha aplicado al ámbito de la inteligencia. Edward Snowden habló de los peligros de ser lo que describió como "el único punto de fallo", es decir, el único depósito de información. [5]
Se requeriría que un componente de un sistema de soporte vital que constituyera un único punto de falla fuera extremadamente confiable.