Fallo en cascada

Una animación que demuestra cómo una sola falla puede provocar otras fallas en toda la red.

Un fallo en cascada es un fallo en un sistema de partes interconectadas en el que el fallo de una o pocas partes conduce al fallo de otras partes, creciendo progresivamente como resultado de la retroalimentación positiva . Esto puede ocurrir cuando falla una sola parte, lo que aumenta la probabilidad de que fallen otras partes del sistema. ^[1]^[2] Este tipo de fallo puede ocurrir en muchos tipos de sistemas, incluidos la transmisión de energía, las redes informáticas, las finanzas, los sistemas de transporte, los organismos, el cuerpo humano y los ecosistemas.

Los fallos en cascada pueden ocurrir cuando falla una parte del sistema. Cuando esto sucede, otras partes deben compensar el componente que falló. Esto, a su vez, sobrecarga estos nodos, lo que hace que fallen también, lo que provoca que otros nodos fallen uno tras otro.

En transmisión de potencia

Los fallos en cascada son comunes en las redes eléctricas cuando uno de los elementos falla (total o parcialmente) y desplaza su carga a los elementos cercanos del sistema. Estos elementos cercanos son entonces empujados más allá de su capacidad, por lo que se sobrecargan y desplazan su carga a otros elementos. Los fallos en cascada son un efecto común que se observa en los sistemas de alta tensión , donde un único punto de fallo (SPF) en un sistema totalmente cargado o ligeramente sobrecargado da como resultado un pico repentino en todos los nodos del sistema. Esta sobrecorriente puede inducir el fallo de los nodos ya sobrecargados, lo que desencadena más sobrecargas y, por lo tanto, hace que todo el sistema se caiga en muy poco tiempo.

Este proceso de falla se propaga en cascada a través de los elementos del sistema como una onda en un estanque y continúa hasta que prácticamente todos los elementos del sistema se ven afectados y/o el sistema se desconecta funcionalmente de la fuente de su carga. Por ejemplo, bajo ciertas condiciones, una gran red eléctrica puede colapsar después de la falla de un solo transformador.

El monitoreo del funcionamiento de un sistema en tiempo real y la desconexión juiciosa de partes pueden ayudar a detener una cascada. Otra técnica común es calcular un margen de seguridad para el sistema mediante una simulación por computadora de posibles fallas, para establecer niveles de operación seguros por debajo de los cuales no se predice que ninguno de los escenarios calculados cause una falla en cascada, e identificar las partes de la red que tienen más probabilidades de causar fallas en cascada. ^[3]

Uno de los principales problemas para prevenir fallas en la red eléctrica es que la velocidad de la señal de control no es mayor que la velocidad de la sobrecarga de potencia que se propaga, es decir, como tanto la señal de control como la potencia eléctrica se mueven a la misma velocidad, no es posible aislar la falla enviando un aviso con anticipación para aislar el elemento.

Ejemplos

Una falla en cascada provocó los siguientes cortes de energía :

Apagón en el noreste de Estados Unidos en 1965
Apagón en el sur de Brasil en 1999
Apagón en el noreste de Estados Unidos en 2003
Apagón en Italia en 2003
Apagón en Londres en 2003
Apagón europeo en 2006
Apagón en el norte de la India en 2012
Apagón en Australia del Sur en 2016
Apagón en el sureste de Sudamérica en 2019
Apagón nacional en Kenia 2022
Apagón nacional en Kenia 2023

En redes de computadoras

Los fallos en cascada también pueden ocurrir en redes informáticas (como Internet ) en las que el tráfico de red se ve gravemente afectado o detenido hacia o entre secciones más grandes de la red, debido a hardware o software defectuosos o desconectados. En este contexto, el fallo en cascada se conoce con el término fallo en cascada . Un fallo en cascada puede afectar a grandes grupos de personas y sistemas.

La causa de un fallo en cascada suele ser la sobrecarga de un único enrutador o nodo crucial, lo que provoca que el nodo deje de funcionar, aunque sea brevemente. También puede deberse a que se desactive un nodo para realizar tareas de mantenimiento o actualizaciones. En cualquier caso, el tráfico se enruta hacia o a través de otra ruta (alternativa). Como resultado, esta ruta alternativa se sobrecarga, lo que provoca que se caiga, y así sucesivamente. También afectará a los sistemas que dependen del nodo para su funcionamiento habitual.

Síntomas

Los síntomas de una falla en cascada incluyen: pérdida de paquetes y alta latencia de red , no solo en sistemas individuales, sino en secciones completas de una red o Internet. La alta latencia y la pérdida de paquetes son causadas por los nodos que no funcionan debido al colapso de la congestión , lo que hace que sigan presentes en la red pero sin mucha o ninguna comunicación útil que pase a través de ellos. Como resultado, las rutas aún pueden considerarse válidas, sin que realmente proporcionen comunicación.

Si se interrumpen suficientes rutas debido a un fallo en cascada, una sección completa de la red o de Internet puede volverse inaccesible. Aunque no es deseable, esto puede ayudar a acelerar la recuperación de esta falla, ya que las conexiones se agotarán y otros nodos dejarán de intentar establecer conexiones con las secciones que se cortaron, lo que reducirá la carga en los nodos involucrados.

Una situación común durante una falla en cascada es una falla de desplazamiento , en la que las secciones se caen, lo que hace que la siguiente sección falle, después de lo cual la primera sección vuelve a subir. Esta onda puede realizar varias pasadas a través de las mismas secciones o nodos de conexión antes de que se restablezca la estabilidad.

Historia

Los fallos en cascada son un fenómeno relativamente reciente, debido al aumento masivo del tráfico y la alta interconectividad entre sistemas y redes. El término fue aplicado por primera vez en este contexto a fines de la década de 1990 por un profesional de TI holandés y poco a poco se ha convertido en un término relativamente común para este tipo de fallo a gran escala. ^{[ cita requerida ]}

Ejemplo

Los fallos de red suelen comenzar cuando falla un único nodo de red. Inicialmente, el tráfico que normalmente pasaría por el nodo se detiene. Los sistemas y los usuarios reciben errores sobre la imposibilidad de llegar a los hosts. Por lo general, los sistemas redundantes de un ISP responden muy rápidamente y eligen otra ruta a través de una red troncal diferente. La ruta de enrutamiento a través de esta ruta alternativa es más larga, con más saltos y, posteriormente, pasa por más sistemas que normalmente no procesan la cantidad de tráfico que se ofrece de repente.

Esto puede provocar que uno o más sistemas a lo largo de la ruta alternativa dejen de funcionar, creando así problemas similares.

En este caso, también se ven afectados los sistemas relacionados. Por ejemplo, la resolución de DNS puede fallar y lo que normalmente provocaría que los sistemas se interconectaran, puede interrumpir conexiones que ni siquiera están directamente relacionadas con los sistemas que dejaron de funcionar. Esto, a su vez, puede provocar que nodos aparentemente no relacionados desarrollen problemas, lo que puede provocar otro fallo en cascada por sí solo.

En diciembre de 2012, se produjo una pérdida parcial (40%) del servicio Gmail a nivel mundial durante 18 minutos. Esta pérdida de servicio fue causada por una actualización rutinaria del software de equilibrio de carga que contenía una lógica defectuosa; en este caso, el error fue causado por una lógica que utilizaba un "todos" inadecuado en lugar del "algunos" más apropiado. ^[4] El error en cascada se solucionó actualizando completamente un solo nodo de la red en lugar de actualizar parcialmente todos los nodos a la vez.

Falla estructural en cascada

Ciertas estructuras portantes con componentes estructurales discretos pueden estar sujetas al "efecto cremallera", en el que la falla de un solo miembro estructural aumenta la carga sobre los miembros adyacentes. En el caso del colapso de la pasarela del Hyatt Regency , una pasarela suspendida (que ya estaba sobrecargada debido a un error en la construcción) falló cuando falló una sola varilla de suspensión vertical, sobrecargando las varillas vecinas que fallaron secuencialmente (es decir, como una cremallera ). Un puente que puede tener una falla de este tipo se llama crítico por fractura, y numerosos colapsos de puentes han sido causados por la falla de una sola parte. Las estructuras diseñadas correctamente utilizan un factor de seguridad adecuado y/o rutas de carga alternativas para prevenir este tipo de falla mecánica en cascada. ^[5]

Cascada de fracturas

La cascada de fracturas es un fenómeno en el contexto de la geología y describe el desencadenamiento de una reacción en cadena de fracturas posteriores por una única fractura. ^[6] La fractura inicial conduce a la propagación de fracturas adicionales, lo que provoca un efecto en cascada en todo el material.

Las cascadas de fracturas pueden ocurrir en diversos materiales, incluidas rocas, hielo, metales y cerámicas. ^[7] Un ejemplo común es la flexión de espaguetis secos , que en la mayoría de los casos se rompen en más de 2 pedazos, como observó por primera vez Richard Feynman . ^[7]

En el contexto de la osteoporosis , una cascada de fracturas es el aumento del riesgo de fracturas óseas posteriores a una inicial. ^[8]

Otros ejemplos

Biología

En biología existen cascadas bioquímicas , en las que una pequeña reacción puede tener consecuencias para todo el sistema. Un ejemplo negativo es la cascada isquémica , en la que un pequeño ataque isquémico libera toxinas que matan muchas más células que el daño inicial, lo que da como resultado la liberación de más toxinas. La investigación actual tiene como objetivo encontrar una forma de bloquear esta cascada en pacientes con accidente cerebrovascular para minimizar el daño.

En el estudio de la extinción, a veces la extinción de una especie provoca la extinción de muchas otras. A estas especies se las conoce como especies clave .

Electrónica

Otro ejemplo es el generador Cockcroft-Walton , que también puede experimentar fallas en cascada en las que un diodo defectuoso puede provocar que todos los diodos fallen en una fracción de segundo.

Otro ejemplo de este efecto en un experimento científico fue la implosión en 2001 de varios miles de frágiles tubos fotomultiplicadores de vidrio utilizados en el experimento Super-Kamiokande , donde la onda de choque causada por el fallo de un solo detector parece haber desencadenado la implosión de los demás detectores en una reacción en cadena.

Finanzas

En el ámbito financiero , el riesgo de quiebras en cascada de instituciones financieras se denomina riesgo sistémico : la quiebra de una institución financiera puede provocar la quiebra de otras instituciones financieras (sus contrapartes ), con un efecto dominó en todo el sistema. Las instituciones que se cree que plantean un riesgo sistémico se consideran " demasiado grandes para quebrar " (TBTF, por sus siglas en inglés) o "demasiado interconectadas para quebrar" (TICTF, por sus siglas en inglés), según el motivo por el que parezcan representar una amenaza.

Sin embargo, cabe señalar que el riesgo sistémico no se debe a instituciones individuales en sí, sino a las interconexiones. En la literatura científica se han desarrollado marcos para estudiar y predecir los efectos de las fallas en cascada. ^[9]^[10]^[11]

Un tipo relacionado (aunque distinto) de falla en cascada en las finanzas ocurre en el mercado de valores, ejemplificado por el Flash Crash de 2010. ^[11]

Fallos en cascada interdependientes

Diversas infraestructuras como el suministro de agua , el transporte , el combustible y las centrales eléctricas están acopladas entre sí y dependen unas de otras para su funcionamiento, véase la figura 1. Debido a este acoplamiento, las redes interdependientes son extremadamente sensibles a fallos aleatorios, y en particular a ataques dirigidos , de modo que un fallo de una pequeña fracción de nodos en una red puede desencadenar una cascada iterativa de fallos en varias redes interdependientes. ^[12]^[13] Los apagones eléctricos con frecuencia resultan de una cascada de fallos entre redes interdependientes, y el problema ha sido ejemplificado dramáticamente por los varios apagones a gran escala que han ocurrido en los últimos años. Los apagones son una demostración fascinante del importante papel que desempeñan las dependencias entre redes. Por ejemplo, el apagón de Italia de 2003 resultó en un fallo generalizado de la red ferroviaria , los sistemas de atención sanitaria y los servicios financieros y, además, influyó gravemente en las redes de telecomunicaciones . El fallo parcial del sistema de comunicación a su vez perjudicó aún más el sistema de gestión de la red eléctrica , produciendo así una retroalimentación positiva en la red eléctrica. ^[14] Este ejemplo enfatiza cómo la interdependencia puede magnificar significativamente el daño en un sistema de red en interacción.

Modelo de fallos en cascada por sobrecarga

Un modelo para fallas en cascada debido a la propagación de sobrecarga es el modelo Motter-Lai. ^[15]

Véase también

Referencias

^ "Fallo en cascada: una descripción general | Temas de ScienceDirect" www.sciencedirect.com .
^ Ulrich, Mike. "Capítulo 22: Cómo abordar fallas en cascada". Google - Ingeniería de confiabilidad del sitio .
^ Zhai, Chao (2017). "Modelado e identificación de fallas en cascada en los peores casos en sistemas de energía". arXiv : 1703.05232 [cs.SY].
^ "Por qué Gmail dejó de funcionar: Google configuró incorrectamente los servidores de equilibrio de carga (actualizado)". 11 de diciembre de 2012.
^ Petroski, Henry (1992). Ser ingeniero es humano: el papel del fracaso en el diseño estructural . Vintage. ISBN 978-0-679-73416-1.
^ Boast, P. Baveye, CW (1998). "Geometría fractal, procesos de fragmentación y la física de la invariancia de escala: una introducción". Revival: Fractales en la ciencia del suelo (1998) . CRC Press. doi :10.1201/9781315151052. ISBN 9781315151052.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ ab Heisser, Ronald H.; Patil, Vishal P.; Stoop, Norbert; Villermaux, Emmanuel; Dunkel, Jörn (28 de agosto de 2018). "Control de las cascadas de fracturas mediante torsión y enfriamiento". Actas de la Academia Nacional de Ciencias . 115 (35): 8665–8670. arXiv : 1802.05402 . Bibcode :2018PNAS..115.8665H. doi : 10.1073/pnas.1802831115 . ISSN 0027-8424. PMC 6126751. PMID 30104353 .
^ Melton, L Joseph; Amin, Shreyasee (26 de junio de 2013). "¿Existe una 'cascada' de fracturas específica?". BoneKEy Reports . 2 : 367. doi :10.1038/bonekey.2013.101. PMC 3935254 . PMID 24575296.
^ Acemoglu, Daron; Ozdaglar, Asuman; Tahbaz-Salehi, Alireza (2015). "Riesgo sistémico y estabilidad en redes financieras". American Economic Review . 105 (2). Asociación Económica Estadounidense: 564–608. doi :10.1257/aer.20130456. hdl : 1721.1/100979 . ISSN 0002-8282. S2CID 7447939.
^ Gai, Prasanna; Kapadia, Sujit (8 de agosto de 2010). "Contagio en redes financieras". Actas de la Royal Society A: Ciencias matemáticas, físicas e ingeniería . 466 (2120): 2401–2423. Bibcode :2010RSPSA.466.2401G. doi :10.1098/rspa.2009.0410. ISSN 1364-5021. S2CID 9945658.
^ ab Elliott, Matthew; Golub, Benjamin; Jackson, Matthew O. (1 de octubre de 2014). "Redes financieras y contagio". American Economic Review . 104 (10): 3115–3153. doi :10.1257/aer.104.10.3115. ISSN 0002-8282.
^ "Informe de la Comisión para evaluar la amenaza que suponen los ataques de pulsos electromagnéticos (EMP) para Estados Unidos" (PDF) .
^ Rinaldi, SM; Peerenboom, JP; Kelly, TK (2001). "Identificación, comprensión y análisis de interdependencias críticas de infraestructura". Revista IEEE Control Systems . 21 (6): 11–25. doi :10.1109/37.969131.
^ V. Rosato, Issacharoff, L., Tiriticco, F., Meloni, S., Porcellinis, SD, & Setola, R. (2008). "Modelado de infraestructuras interdependientes mediante modelos dinámicos interactivos". Revista Internacional de Infraestructuras Críticas . 4 : 63–79. doi :10.1504/IJCIS.2008.016092.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Motter, AE; Lai, YC (2002). "Ataques en cascada a redes complejas". Phys. Rev. E . 66 (6 Pt 2): 065102. arXiv : cond-mat/0301086 . Bibcode :2002PhRvE..66f5102M. doi :10.1103/PhysRevE.66.065102. PMID 12513335. S2CID 17189308.

Lectura adicional

Toshiyuki Miyazaki (1 de marzo de 2005). "Comparación de estrategias de defensa para ruptura en cascada en redes SF con correlaciones de grado" (PDF) . Archivado desde el original (PDF) el 20 de febrero de 2009.
Russ Cooper (1 de junio de 2005). "(In)Secure Shell?". RedmondMag.com. Archivado desde el original el 28 de septiembre de 2007. Consultado el 8 de septiembre de 2007 .
Departamento de Seguridad Nacional de Estados Unidos (5 de febrero de 2007). «Cascade Net (programa de simulación)». Centro de Defensa y Seguridad Nacional. Archivado desde el original el 28 de diciembre de 2008. Consultado el 8 de septiembre de 2007 .

Enlaces externos

Clima espacial: Apagón: Falla masiva de la red eléctrica
Aplicación de demostración de falla en cascada (laboratorio virtual de la Universidad de Monash)
AE Motter y Y.-C. Lai, Ataques basados en cascada en redes complejas, Physical Review E (Rapid Communications) 66, 065102 (2002).
P. Crucitti, V. Latora y M. Marchiori, Modelo de fallas en cascada en redes complejas, Physical Review E (Rapid Communications) 69, 045104 (2004).
Estrategias de protección ante fallas en cascada de la red: un enfoque abreviado
I. Dobson, BA Carreras y DE Newman, preimpresión Un modelo dependiente de la carga de falla en cascada probabilística, Probability in the Engineering and Informational Sciences, vol. 19, no. 1, enero de 2005, págs. 15–32.
Nova: Accidente del vuelo 111 el 2 de septiembre de 1998. El vuelo 111 de Swissair que volaba de Nueva York a Ginebra se estrelló en el océano Atlántico frente a la costa de Nueva Escocia con 229 personas a bordo. En un principio se creyó que se trataba de un acto terrorista. Tras una investigación de 39 millones de dólares, un acuerdo con el seguro de 1.500 millones de dólares y más de cuatro años, los investigadores desentrañan el rompecabezas: un fracaso en cadena. ¿Cuál es el legado del Swissair 111? "Tenemos una ventana a la estructura interna del diseño, los controles y contrapesos, la protección y la seguridad". -David Evans, redactor jefe de Air Safety Week.
Artículo de PhysicsWeb: Un accidente deja en tierra un laboratorio de neutrinos
La estructura y dinámica de las redes organizacionales a gran escala (Dan Braha, New England Complex Systems Institute)
De red única a red de redes Archivado el 14 de noviembre de 2015 en Wayback Machine.