Falta del tiempo

El término tiempo de inactividad (también conocido como interrupción del servicio o sequía del servicio ) se utiliza para referirse a los períodos en los que un sistema no está disponible. La indisponibilidad es la proporción de un período de tiempo en el que un sistema no está disponible o fuera de línea . Esto suele deberse a que el sistema no funciona debido a un evento no planificado o debido a un mantenimiento de rutina (un evento planificado).

Los términos se aplican comúnmente a redes y servidores . Las razones comunes de las interrupciones no planificadas son fallas del sistema (como una caída ) o fallas de comunicaciones (comúnmente conocidas como interrupción de red o sequía de red coloquialmente). Para las interrupciones debido a problemas con los sistemas informáticos generales , se puede utilizar el término interrupción de la computadora (también interrupción de TI o sequía de TI ).

El término también se aplica comúnmente en entornos industriales en relación con fallas en equipos de producción industrial. Algunas instalaciones miden el tiempo de inactividad que se produce durante un turno de trabajo o durante un período de 12 o 24 horas. Otra práctica común es identificar cada evento de inactividad como de origen operativo, eléctrico o mecánico.

Lo opuesto del tiempo de inactividad es el tiempo de actividad .

Tipos

Los estándares de la industria para el término "Duración de la interrupción" o "Duración del mantenimiento" pueden tener diferentes puntos de inicio y finalización, por lo que se debe utilizar la siguiente aclaración para evitar conflictos en la ejecución del contrato:

"Llave en mano": este es el tipo de interrupción más complejo de todos. La interrupción o el mantenimiento comienzan cuando el operador de la planta o el equipo presiona el botón de apagado o detención para iniciar una interrupción en la operación. A menos que se indique lo contrario, la interrupción o el mantenimiento se consideran completados cuando la planta o el equipo vuelven a funcionar normalmente y están listos para comenzar la fabricación o para sincronizarse con el sistema o la red o para realizar funciones como bomba o compresor.
"Interruptor a interruptor" Esta interrupción o mantenimiento comienza cuando el operador de la planta o el equipo retira el circuito de energía (el interruptor principal de energía está "apagado" o "desconectado" o "enfriado"), no el circuito de control. Esto aún permitiría que el equipo se enfríe o se lleve a temperatura ambiente de modo que se pueda preparar o iniciar el trabajo de interrupción/mantenimiento. Según los tipos de equipo, la interrupción "Interruptor a interruptor" puede ser ventajosa si se contrata el mantenimiento relacionado con los controles, ya que este tipo de trabajo de mantenimiento se puede realizar mientras el equipo principal aún está enfriándose o en espera. A menos que se indique lo contrario, este tipo de interrupción se considera completa cuando el circuito de energía se vuelve a energizar mediante la activación del interruptor de energía.
"Finalización del bloqueo y etiquetado " Esta interrupción o mantenimiento (a veces se confunde con "enfriamiento fuera de servicio", pero no es lo mismo) comienza cuando el operador de la planta o equipo retira el circuito de energía, desconecta el circuito de control y realiza otra neutralización de posibles fuentes de energía y peligro (normalmente llamado bloqueo y etiquetado "LOTO"). Este punto del período de mantenimiento suele ser la última fase de la etapa de inicio de la interrupción antes de que comience el trabajo real en la instalación, planta o equipo. La sesión informativa sobre seguridad siempre debe seguir a la actividad LOTO, antes de realizar cualquier trabajo. A menos que se indique lo contrario, este tipo de interrupción se considera completa cuando el equipo ha alcanzado la finalización mecánica y está listo para colocarse en marcha lenta para muchos equipos giratorios pesados, prueba funcional o verificación de rotación para motores, etc., pero debe seguir el retorno o el permiso de trabajo según los procedimientos LOTO.

Cualquier prueba en línea, prueba de rendimiento o ajuste requerido no debe contarse dentro de la duración de la interrupción, ya que estas actividades generalmente se llevan a cabo después de la finalización de la interrupción o el evento de mantenimiento y están fuera del control de la mayoría de los contratistas de mantenimiento.

Características

Un tiempo de inactividad no planificado puede ser el resultado de un mal funcionamiento del equipo, etc.

Clasificación de interrupciones de telecomunicaciones

El tiempo de inactividad puede ser causado por fallas en el hardware (equipo físico), (equipo de control lógico), equipo de interconexión (como cables, instalaciones, enrutadores, ...), transmisión (inalámbrica, microondas, satélite) y/o capacidad (límites del sistema).

Las fallas pueden ocurrir debido a daños, fallas, diseño, procedimientos (uso inadecuado por parte de humanos), ingeniería (cómo usar e implementar), sobrecarga (tráfico o recursos del sistema estresados más allá de los límites diseñados), medio ambiente (sistemas de soporte como energía y HVAC), (cortes diseñados en el sistema para un propósito como actualizaciones de software y crecimiento de equipos), otros (ninguno de los anteriores pero conocido) o desconocido.

Las fallas pueden ser responsabilidad del cliente/proveedor de servicios, proveedor, empresa de servicios públicos, gobierno, contratista, cliente final, individuo público, acto de la naturaleza, otros (ninguno de los anteriores pero conocido) o desconocidos.

Impacto

Las interrupciones causadas por fallos del sistema pueden tener un grave impacto en los usuarios de sistemas informáticos/de red, en particular en aquellas industrias que dependen de un servicio casi las 24 horas:

También pueden verse afectados los usuarios de un ISP y otros clientes de una red de telecomunicaciones.

Las corporaciones pueden perder negocios debido a interrupciones en la red o pueden incumplir un contrato, lo que resulta en pérdidas financieras. Según el informe de gestión de datos en la nube de Veeam de 2019, las organizaciones enfrentan tiempos de inactividad no planificados, en promedio, entre 5 y 10 veces al año, y el costo promedio de una hora de inactividad es de $102,450. ^[1]

Aquellas personas u organizaciones que se ven afectadas por tiempos de inactividad pueden ser más sensibles a aspectos particulares:

Algunos se ven más afectados por la duración de una interrupción: les importa cuánto tiempo lleva recuperarse de un problema.
Otros son sensibles al momento en que se produce una interrupción del servicio: las interrupciones durante las horas pico son las que más les afectan.

Los usuarios más exigentes son aquellos que requieren alta disponibilidad .

Cortes de luz famosos

El domingo 8 de mayo de 1988, Día de la Madre , se produjo un incendio en la sala de conmutación principal de la oficina central de Hinsdale de la compañía telefónica Illinois Bell . La instalación, uno de los sistemas de conmutación más grandes del estado, procesaba más de 3,5 millones de llamadas al día y prestaba servicio a 38.000 clientes, entre los que se encontraban numerosas empresas, hospitales y los aeropuertos O'Hare y Midway de Chicago. ^[2]

El 15 de enero de 1990, prácticamente toda la red de AT&T de conmutadores de peaje tándem 4ESS entró y salió de servicio una y otra vez, interrumpiendo el servicio de larga distancia en todo Estados Unidos. El problema se disipó por sí solo cuando el tráfico se ralentizó. Se encontró un error de software. ^[3]

El 13 de abril de 1998, AT&T perdió su red Frame Relay durante 26 horas. ^[4] Esto afectó a miles de clientes, y las transacciones bancarias fueron una de las víctimas. AT&T no cumplió con el acuerdo de nivel de servicio en sus contratos con los clientes y tuvo que reembolsar ^[5] 6.600 cuentas de clientes , lo que costó millones de dólares.

Xbox Live tuvo un período de inactividad intermitente durante la temporada navideña 2007-2008 que duró trece días. ^[6] La creciente demanda de los compradores de Xbox 360 (la mayor cantidad de nuevos usuarios registrados en la historia de Xbox Live) fue la razón dada para el período de inactividad; para compensar los problemas del servicio, Microsoft ofreció a sus usuarios la oportunidad de recibir un juego gratis. ^[7]

La interrupción del servicio PlayStation Network de Sony en abril de 2011 comenzó el 20 de abril de 2011 y se restableció gradualmente el 14 de mayo de 2011, comenzando en los Estados Unidos . Esta interrupción es el período más largo que la PSN ha estado fuera de línea desde su inicio en 2006. Sony ha declarado que el problema fue causado por una intrusión externa que resultó en la confiscación de información personal. Sony informó el 26 de abril de 2011 que una gran cantidad de datos de usuarios habían sido obtenidos por el mismo ataque que resultó en el tiempo de inactividad. ^[8]

El conmutador Ryde de Telstra falló a fines de 2011 después de que el agua se filtrara en el tablero eléctrico debido al clima húmedo. El conmutador Ryde es uno de los conmutadores más grandes por área en Australia y afectó a más de 720.000 servicios. ^{[ cita requerida ]}

El centro de datos de ServerAxis en Miami se desconectó sin previo aviso el 29 de febrero de 2016 y nunca se restableció. Esto afectó a varios proveedores y cientos de sitios web. La interrupción afectó la cobertura del torneo de baloncesto femenino de la División I de la NCAA de 2016, ya que WBBState, uno de los sitios afectados, era, con diferencia, el proveedor más completo de estadísticas de baloncesto femenino disponible. ^[9]

La plataforma de juegos Roblox sufrió una interrupción en octubre de 2021, durante su evento Chipotle . Muchos usuarios pensaron que se debía al evento, porque tuvo una recepción masiva, ya que los usuarios podían obtener un burrito Chipotle gratis durante el mismo. La interrupción fue la más prolongada de Roblox, con una duración de 3 días. ^[10]^[11]^[12]

El 8 de julio de 2022, Rogers sufrió una importante interrupción del servicio a nivel nacional en Canadá . Esto afectó simultáneamente el acceso a Internet y a los teléfonos celulares, lo que provocó que fallaran las llamadas al 911 y las transacciones interbancarias, además de interrumpir los servicios gubernamentales.

El 19 de julio de 2024, CrowdStrike lanzó una actualización defectuosa del controlador de dispositivo para su software Falcon, lo que provocó que las PC, servidores y máquinas virtuales con Windows se bloquearan y se produjera un bucle de arranque. El incidente afectó involuntariamente a aproximadamente 8,5 millones de máquinas con Windows en todo el mundo, incluidas infraestructuras críticas como los servicios de 911 en varios estados. Se considera la mayor interrupción del servicio en la historia de la tecnología de la información. ^[13]^[14]

Niveles de servicio

En los acuerdos de nivel de servicio , es común mencionar un valor porcentual (por mes o por año) que se calcula dividiendo la suma de todos los períodos de inactividad por el tiempo total de un período de tiempo de referencia (por ejemplo, un mes). Un tiempo de inactividad del 0 % significa que el servidor estuvo disponible todo el tiempo.

En el caso de los servidores de Internet, los tiempos de inactividad superiores al 1 % anual o inferiores pueden considerarse inaceptables, ya que esto supone un tiempo de inactividad de más de 3 días al año. En el caso del comercio electrónico y otros usos industriales, cualquier valor superior al 0,1 % suele considerarse inaceptable. ^[15]

Respuesta y reducción del impacto

Es responsabilidad del diseñador de la red asegurarse de que no se produzcan interrupciones en el servicio. Cuando esto ocurra, un sistema bien diseñado reducirá aún más los efectos de una interrupción al contar con interrupciones localizadas que se puedan detectar y solucionar lo antes posible.

Es necesario implementar un proceso para detectar un mal funcionamiento ( monitoreo de red ) y restaurar la red a una condición de funcionamiento; esto generalmente implica un equipo de soporte técnico que pueda solucionar un problema, compuesto por ingenieros capacitados; generalmente es necesario un equipo de soporte técnico separado para recibir las opiniones de los usuarios, lo que puede ser particularmente exigente durante un tiempo de inactividad.

Se puede utilizar un sistema de gestión de red para detectar componentes defectuosos o degradados antes de que se produzcan quejas de los clientes, con una rectificación proactiva de los fallos.

Las técnicas de gestión de riesgos se pueden utilizar para determinar el impacto de las interrupciones de la red en una organización y qué acciones pueden ser necesarias para minimizar el riesgo. El riesgo se puede minimizar mediante el uso de componentes confiables, la realización de tareas de mantenimiento, como actualizaciones, el uso de sistemas redundantes o la existencia de un plan de contingencia o de continuidad empresarial . Los medios técnicos pueden reducir los errores con códigos de corrección de errores , retransmisiones , sumas de comprobación o esquemas de diversidad .

Una de las principales causas de los tiempos de inactividad es la configuración incorrecta, cuando un cambio planificado sale mal. Normalmente, las organizaciones dependen del esfuerzo manual para gestionar el proceso de copias de seguridad de la configuración, pero esto requiere ingenieros altamente capacitados con tiempo para gestionar el proceso en una red de múltiples proveedores. Hay herramientas de automatización disponibles para gestionar las copias de seguridad, pero hay muy pocas soluciones que se encarguen de la recuperación de la configuración, que es necesaria para minimizar el impacto general de la interrupción. ^[16]

Planificación

Una interrupción planificada es el resultado de una actividad planificada por el propietario del sistema o por un proveedor de servicios . Estas interrupciones, a menudo programadas durante la ventana de mantenimiento , se pueden utilizar para realizar tareas que incluyen las siguientes:

Mantenimiento diferido, por ejemplo, una reparación de hardware diferida o un reinicio diferido para limpiar una memoria confusa
Diagnóstico para aislar una falla detectada
Reparación de fallas de hardware
Corregir un error u omisión en una base de datos de configuración o una omisión en un cambio reciente en la base de datos de configuración
Corregir un error en la base de datos de la aplicación o un error en un cambio reciente en la base de datos de la aplicación
Aplicación de parches o actualizaciones de software para corregir una falla de software.

Los cortes de energía también pueden planificarse como resultado de un evento natural predecible, como un apagón .

En las industrias que dependen de sistemas informáticos, los tiempos de inactividad por mantenimiento deben programarse cuidadosamente. En muchos casos, los tiempos de inactividad de todo el sistema pueden evitarse mediante lo que se denomina una "actualización continua": el proceso de desmantelar gradualmente partes del sistema para actualizarlo, sin afectar la funcionalidad general.

Evitación

La mayoría de los sitios web cuentan con un sistema de monitoreo de sitios web . El monitoreo de sitios web (sintético o pasivo) es un servicio que "monitorea" el tiempo de inactividad y los usuarios del sitio.

Otros usos

El tiempo de inactividad también puede referirse al tiempo en que el capital humano u otros activos dejan de funcionar. Por ejemplo, si los empleados están en reuniones o no pueden realizar su trabajo debido a otra restricción, están inactivos. Esto puede ser igualmente costoso y puede ser el resultado de que otro activo (es decir, una computadora o un sistema) esté inactivo. Esto también se conoce comúnmente como " tiempo muerto ".

El tiempo de inactividad también se generaliza en un sentido personal, utilizándose para referirse a un período de sueño o recreación . ^[17]^[18]^[19]

Este término también se utiliza en fábricas o en el ámbito industrial. Véase mantenimiento productivo total (TPM).

Medición del tiempo de inactividad

Hay muchos servicios externos que pueden usarse para monitorear el tiempo de actividad y el tiempo de inactividad, así como la disponibilidad de un servicio o un host.

Véase también

Referencias

^ "Resumen ejecutivo sobre tendencias de protección de datos en 2021". Veeam Software .
^ Neumann, Peter G.; Weinstock, Chuck; Townson, Patrick (11 de mayo de 1988). "Riesgos de fallas puntuales: el incendio de Hinsdale". The RISKS Digest . 6 (82). Archivado desde el original el 6 de octubre de 2022, a través de The Catless Web Server.Extraído de TELECOM Digest. 8 (76).
^ Neumann, Peter G. (26 de febrero de 1990). "El colapso de la red AT&T en 1990". Telephone World . The Risks Digest. Archivado desde el original el 19 de diciembre de 2022.
^ "Prevención de interrupciones del servicio de red IP" (PDF) . Agilent Technologies . 15 de marzo de 2002. Archivado desde el original (PDF) el 28 de septiembre de 2018.
^ Neumann, Peter G.; Bellovin, Steve; Byrnes, Jim; Newell, Ruthlyn (7 de mayo de 1998). "AT&T anuncia la causa de la interrupción de la red Frame Relay". The RISKS Digest . 19 (72) – vía The Catless Web Server.
^ Block, Ryan (3 de enero de 2008). "Interrupción de Xbox Live, día 13: sigue habiendo altibajos, lo que impide que la diversión se haga realidad". Engadget. Archivado desde el original el 27 de enero de 2012. Consultado el 27 de abril de 2011 .
^ Cohen, Peter (4 de enero de 2008). "Microsoft ofrece un juego gratuito para Xbox Live por problemas de vacaciones". PC World . Macworld. Archivado desde el original el 1 de diciembre de 2011.
^ "Comienza la restauración de los servicios de PlayStation®Network y Qriocity". Portal del grupo Sony - Sede global de Sony . 15 de mayo de 2011. Consultado el 22 de octubre de 2021 .
^ Levy, Ian (16 de marzo de 2016). "Un sitio web se desconectó y se llevó consigo la mayor parte de los análisis del baloncesto universitario femenino". FiveThirtyEight . Archivado desde el original el 30 de septiembre de 2023.
^ Plant, Logan (29 de octubre de 2021). "Los servidores de Roblox vuelven a estar en línea [Actualización]". IGN . Archivado desde el original el 17 de octubre de 2023.
^ Finnis, Alex. "¿Roblox no funciona? Por qué la plataforma de juegos no funciona hoy con miles de usuarios reportando problemas de inicio de sesión". MSN . Archivado desde el original el 15 de noviembre de 2021.
^ "Roblox estuvo caído todo el fin de semana, y no por culpa de Chipotle". 30 de octubre de 2021.
^ Milmo, Dan; Kollewe, Julia; Quinn, Ben; Taylor, Josh; Ibrahim, Mimi (20 de julio de 2024). "La lenta recuperación de la interrupción de TI comienza mientras los expertos advierten sobre los riesgos futuros". The Guardian . ISSN 0261-3077 . Consultado el 21 de julio de 2024 .
^ Weston, David (20 de julio de 2024). "Ayudamos a nuestros clientes durante la interrupción del servicio de CrowdStrike". El blog oficial de Microsoft . Consultado el 21 de julio de 2024 .
^ Cohen, Gad. "Tiempo de inactividad, interrupciones y fallas: comprensión de sus costos reales". www.evolven.com . Consultado el 22 de octubre de 2021 .
^ "¿Por qué es importante el seguimiento del tiempo de inactividad de las máquinas?". Evocon . 10 de septiembre de 2018. Consultado el 22 de octubre de 2021 .
^ "Descanso y relajación: por qué el "tiempo de inactividad" es importante para los niños". 19 de septiembre de 2016.
^ "La importancia de programar los tiempos de inactividad". 25 de agosto de 2008.
^ "Lo que la falta de sueño le hace a tu mente". Muchas personas consideran el sueño simplemente como un lujo: un pequeño descanso.

Enlaces externos

La definición del diccionario de tiempo de inactividad en Wikcionario