El término tiempo de inactividad (también conocido como interrupción del servicio o sequía del servicio ) se utiliza para referirse a los períodos en los que un sistema no está disponible. La indisponibilidad es la proporción de un período de tiempo en el que un sistema no está disponible o fuera de línea . Esto suele deberse a que el sistema no funciona debido a un evento no planificado o debido a un mantenimiento de rutina (un evento planificado).
Los términos se aplican comúnmente a redes y servidores . Las razones comunes de las interrupciones no planificadas son fallas del sistema (como una caída ) o fallas de comunicaciones (comúnmente conocidas como interrupción de red o sequía de red coloquialmente). Para las interrupciones debido a problemas con los sistemas informáticos generales , se puede utilizar el término interrupción de la computadora (también interrupción de TI o sequía de TI ).
El término también se aplica comúnmente en entornos industriales en relación con fallas en equipos de producción industrial. Algunas instalaciones miden el tiempo de inactividad que se produce durante un turno de trabajo o durante un período de 12 o 24 horas. Otra práctica común es identificar cada evento de inactividad como de origen operativo, eléctrico o mecánico.
Lo opuesto del tiempo de inactividad es el tiempo de actividad .
Los estándares de la industria para el término "Duración de la interrupción" o "Duración del mantenimiento" pueden tener diferentes puntos de inicio y finalización, por lo que se debe utilizar la siguiente aclaración para evitar conflictos en la ejecución del contrato:
Cualquier prueba en línea, prueba de rendimiento o ajuste requerido no debe contarse dentro de la duración de la interrupción, ya que estas actividades generalmente se llevan a cabo después de la finalización de la interrupción o el evento de mantenimiento y están fuera del control de la mayoría de los contratistas de mantenimiento.
Un tiempo de inactividad no planificado puede ser el resultado de un mal funcionamiento del equipo, etc.
El tiempo de inactividad puede ser causado por fallas en el hardware (equipo físico), (equipo de control lógico), equipo de interconexión (como cables, instalaciones, enrutadores, ...), transmisión (inalámbrica, microondas, satélite) y/o capacidad (límites del sistema).
Las fallas pueden ocurrir debido a daños, fallas, diseño, procedimientos (uso inadecuado por parte de humanos), ingeniería (cómo usar e implementar), sobrecarga (tráfico o recursos del sistema estresados más allá de los límites diseñados), medio ambiente (sistemas de soporte como energía y HVAC), (cortes diseñados en el sistema para un propósito como actualizaciones de software y crecimiento de equipos), otros (ninguno de los anteriores pero conocido) o desconocido.
Las fallas pueden ser responsabilidad del cliente/proveedor de servicios, proveedor, empresa de servicios públicos, gobierno, contratista, cliente final, individuo público, acto de la naturaleza, otros (ninguno de los anteriores pero conocido) o desconocidos.
Las interrupciones causadas por fallos del sistema pueden tener un grave impacto en los usuarios de sistemas informáticos/de red, en particular en aquellas industrias que dependen de un servicio casi las 24 horas:
También pueden verse afectados los usuarios de un ISP y otros clientes de una red de telecomunicaciones.
Las corporaciones pueden perder negocios debido a interrupciones en la red o pueden incumplir un contrato, lo que resulta en pérdidas financieras. Según el informe de gestión de datos en la nube de Veeam de 2019, las organizaciones enfrentan tiempos de inactividad no planificados, en promedio, entre 5 y 10 veces al año, y el costo promedio de una hora de inactividad es de $102,450. [1]
Aquellas personas u organizaciones que se ven afectadas por tiempos de inactividad pueden ser más sensibles a aspectos particulares:
Los usuarios más exigentes son aquellos que requieren alta disponibilidad .
El domingo 8 de mayo de 1988, Día de la Madre , se produjo un incendio en la sala de conmutación principal de la oficina central de Hinsdale de la compañía telefónica Illinois Bell . La instalación, uno de los sistemas de conmutación más grandes del estado, procesaba más de 3,5 millones de llamadas al día y prestaba servicio a 38.000 clientes, entre los que se encontraban numerosas empresas, hospitales y los aeropuertos O'Hare y Midway de Chicago. [2]
El 15 de enero de 1990, prácticamente toda la red de AT&T de conmutadores de peaje tándem 4ESS entró y salió de servicio una y otra vez, interrumpiendo el servicio de larga distancia en todo Estados Unidos. El problema se disipó por sí solo cuando el tráfico se ralentizó. Se encontró un error de software. [3]
El 13 de abril de 1998, AT&T perdió su red Frame Relay durante 26 horas. [4] Esto afectó a miles de clientes, y las transacciones bancarias fueron una de las víctimas. AT&T no cumplió con el acuerdo de nivel de servicio en sus contratos con los clientes y tuvo que reembolsar [5] 6.600 cuentas de clientes , lo que costó millones de dólares.
Xbox Live tuvo un período de inactividad intermitente durante la temporada navideña 2007-2008 que duró trece días. [6] La creciente demanda de los compradores de Xbox 360 (la mayor cantidad de nuevos usuarios registrados en la historia de Xbox Live) fue la razón dada para el período de inactividad; para compensar los problemas del servicio, Microsoft ofreció a sus usuarios la oportunidad de recibir un juego gratis. [7]
La interrupción del servicio PlayStation Network de Sony en abril de 2011 comenzó el 20 de abril de 2011 y se restableció gradualmente el 14 de mayo de 2011, comenzando en los Estados Unidos . Esta interrupción es el período más largo que la PSN ha estado fuera de línea desde su inicio en 2006. Sony ha declarado que el problema fue causado por una intrusión externa que resultó en la confiscación de información personal. Sony informó el 26 de abril de 2011 que una gran cantidad de datos de usuarios habían sido obtenidos por el mismo ataque que resultó en el tiempo de inactividad. [8]
El conmutador Ryde de Telstra falló a fines de 2011 después de que el agua se filtrara en el tablero eléctrico debido al clima húmedo. El conmutador Ryde es uno de los conmutadores más grandes por área en Australia y afectó a más de 720.000 servicios. [ cita requerida ]
El centro de datos de ServerAxis en Miami se desconectó sin previo aviso el 29 de febrero de 2016 y nunca se restableció. Esto afectó a varios proveedores y cientos de sitios web. La interrupción afectó la cobertura del torneo de baloncesto femenino de la División I de la NCAA de 2016, ya que WBBState, uno de los sitios afectados, era, con diferencia, el proveedor más completo de estadísticas de baloncesto femenino disponible. [9]
La plataforma de juegos Roblox sufrió una interrupción en octubre de 2021, durante su evento Chipotle . Muchos usuarios pensaron que se debía al evento, porque tuvo una recepción masiva, ya que los usuarios podían obtener un burrito Chipotle gratis durante el mismo. La interrupción fue la más prolongada de Roblox, con una duración de 3 días. [10] [11] [12]
El 8 de julio de 2022, Rogers sufrió una importante interrupción del servicio a nivel nacional en Canadá . Esto afectó simultáneamente el acceso a Internet y a los teléfonos celulares, lo que provocó que fallaran las llamadas al 911 y las transacciones interbancarias, además de interrumpir los servicios gubernamentales.
El 19 de julio de 2024, CrowdStrike lanzó una actualización defectuosa del controlador de dispositivo para su software Falcon, lo que provocó que las PC, servidores y máquinas virtuales con Windows se bloquearan y se produjera un bucle de arranque. El incidente afectó involuntariamente a aproximadamente 8,5 millones de máquinas con Windows en todo el mundo, incluidas infraestructuras críticas como los servicios de 911 en varios estados. Se considera la mayor interrupción del servicio en la historia de la tecnología de la información. [13] [14]
En los acuerdos de nivel de servicio , es común mencionar un valor porcentual (por mes o por año) que se calcula dividiendo la suma de todos los períodos de inactividad por el tiempo total de un período de tiempo de referencia (por ejemplo, un mes). Un tiempo de inactividad del 0 % significa que el servidor estuvo disponible todo el tiempo.
En el caso de los servidores de Internet, los tiempos de inactividad superiores al 1 % anual o inferiores pueden considerarse inaceptables, ya que esto supone un tiempo de inactividad de más de 3 días al año. En el caso del comercio electrónico y otros usos industriales, cualquier valor superior al 0,1 % suele considerarse inaceptable. [15]
Es responsabilidad del diseñador de la red asegurarse de que no se produzcan interrupciones en el servicio. Cuando esto ocurra, un sistema bien diseñado reducirá aún más los efectos de una interrupción al contar con interrupciones localizadas que se puedan detectar y solucionar lo antes posible.
Es necesario implementar un proceso para detectar un mal funcionamiento ( monitoreo de red ) y restaurar la red a una condición de funcionamiento; esto generalmente implica un equipo de soporte técnico que pueda solucionar un problema, compuesto por ingenieros capacitados; generalmente es necesario un equipo de soporte técnico separado para recibir las opiniones de los usuarios, lo que puede ser particularmente exigente durante un tiempo de inactividad.
Se puede utilizar un sistema de gestión de red para detectar componentes defectuosos o degradados antes de que se produzcan quejas de los clientes, con una rectificación proactiva de los fallos.
Las técnicas de gestión de riesgos se pueden utilizar para determinar el impacto de las interrupciones de la red en una organización y qué acciones pueden ser necesarias para minimizar el riesgo. El riesgo se puede minimizar mediante el uso de componentes confiables, la realización de tareas de mantenimiento, como actualizaciones, el uso de sistemas redundantes o la existencia de un plan de contingencia o de continuidad empresarial . Los medios técnicos pueden reducir los errores con códigos de corrección de errores , retransmisiones , sumas de comprobación o esquemas de diversidad .
Una de las principales causas de los tiempos de inactividad es la configuración incorrecta, cuando un cambio planificado sale mal. Normalmente, las organizaciones dependen del esfuerzo manual para gestionar el proceso de copias de seguridad de la configuración, pero esto requiere ingenieros altamente capacitados con tiempo para gestionar el proceso en una red de múltiples proveedores. Hay herramientas de automatización disponibles para gestionar las copias de seguridad, pero hay muy pocas soluciones que se encarguen de la recuperación de la configuración, que es necesaria para minimizar el impacto general de la interrupción. [16]
Una interrupción planificada es el resultado de una actividad planificada por el propietario del sistema o por un proveedor de servicios . Estas interrupciones, a menudo programadas durante la ventana de mantenimiento , se pueden utilizar para realizar tareas que incluyen las siguientes:
Los cortes de energía también pueden planificarse como resultado de un evento natural predecible, como un apagón .
En las industrias que dependen de sistemas informáticos, los tiempos de inactividad por mantenimiento deben programarse cuidadosamente. En muchos casos, los tiempos de inactividad de todo el sistema pueden evitarse mediante lo que se denomina una "actualización continua": el proceso de desmantelar gradualmente partes del sistema para actualizarlo, sin afectar la funcionalidad general.
La mayoría de los sitios web cuentan con un sistema de monitoreo de sitios web . El monitoreo de sitios web (sintético o pasivo) es un servicio que "monitorea" el tiempo de inactividad y los usuarios del sitio.
El tiempo de inactividad también puede referirse al tiempo en que el capital humano u otros activos dejan de funcionar. Por ejemplo, si los empleados están en reuniones o no pueden realizar su trabajo debido a otra restricción, están inactivos. Esto puede ser igualmente costoso y puede ser el resultado de que otro activo (es decir, una computadora o un sistema) esté inactivo. Esto también se conoce comúnmente como " tiempo muerto ".
El tiempo de inactividad también se generaliza en un sentido personal, utilizándose para referirse a un período de sueño o recreación . [17] [18] [19]
Este término también se utiliza en fábricas o en el ámbito industrial. Véase mantenimiento productivo total (TPM).
Hay muchos servicios externos que pueden usarse para monitorear el tiempo de actividad y el tiempo de inactividad, así como la disponibilidad de un servicio o un host.
Muchas personas consideran el sueño simplemente como un lujo: un pequeño descanso.