El término tiempo de inactividad se utiliza para referirse a los períodos en los que un sistema no está disponible. La indisponibilidad es la proporción de un lapso de tiempo que un sistema no está disponible o está fuera de línea . Esto suele deberse a que el sistema no funciona debido a un evento no planificado o a un mantenimiento de rutina (un evento planificado).
Los términos se aplican comúnmente a redes y servidores . Las razones comunes de las interrupciones no planificadas son fallas del sistema (como una falla ) o fallas de comunicaciones (comúnmente conocidas como interrupción de la red ).
El término también se aplica comúnmente en entornos industriales en relación con fallas en equipos de producción industrial. Algunas instalaciones miden el tiempo de inactividad incurrido durante un turno de trabajo o durante un período de 12 o 24 horas. Otra práctica común es identificar cada evento de inactividad como de origen operativo, eléctrico o mecánico.
Lo opuesto al tiempo de inactividad es el tiempo de actividad .
Los estándares de la industria para el término "Duración de la interrupción" o "Duración del mantenimiento" pueden tener diferentes puntos de inicio y finalización, por lo que se debe utilizar la siguiente aclaración para evitar conflictos en la ejecución del contrato:
Cualquier prueba en línea, prueba de rendimiento y ajuste requeridos no deben contarse para la duración de la interrupción, ya que estas actividades generalmente se llevan a cabo después de la finalización de la interrupción o del evento de mantenimiento y están fuera del control de la mayoría de los contratistas de mantenimiento.
El tiempo de inactividad no planificado puede ser el resultado de un mal funcionamiento del equipo, etc.
El tiempo de inactividad puede ser causado por fallas en el hardware (equipo físico), (equipo de control lógico), equipo de interconexión (como cables, instalaciones, enrutadores,...), transmisión (inalámbrica, microondas, satélite) y/o capacidad (sistema límites).
Las fallas pueden ocurrir debido a daños, fallas, diseño, procedimientos (uso inadecuado por parte de humanos), ingeniería (cómo usar e implementar), sobrecarga (tráfico o recursos del sistema estresados más allá de los límites diseñados), medio ambiente (sistemas de soporte como energía y HVAC). , (interrupciones diseñadas en el sistema con un propósito como actualizaciones de software y crecimiento de equipos), otros (ninguno de los anteriores pero conocido) o desconocido.
Las fallas pueden ser responsabilidad del cliente/proveedor de servicios, vendedor/proveedor, empresa de servicios públicos, gobierno, contratista, cliente final, individuo público, acto de la naturaleza, otro (ninguno de los anteriores pero conocido) o desconocido.
Las interrupciones causadas por fallas del sistema pueden tener un impacto grave en los usuarios de sistemas informáticos/de red, en particular en aquellas industrias que dependen de un servicio de casi 24 horas:
También pueden verse afectados los usuarios de un ISP y otros clientes de una red de telecomunicaciones.
Las corporaciones pueden perder negocios debido a una interrupción de la red o pueden incumplir un contrato, lo que resulta en pérdidas financieras. Según el informe de gestión de datos en la nube de Veeam de 2019, las organizaciones experimentan tiempos de inactividad no planificados, en promedio, entre 5 y 10 veces al año, con un costo promedio de una hora de tiempo de inactividad de $102 450. [1]
Aquellas personas u organizaciones que se ven afectadas por el tiempo de inactividad pueden ser más sensibles a aspectos particulares:
Los usuarios más exigentes son aquellos que requieren alta disponibilidad .
El día de la Madre , el domingo 8 de mayo de 1988, se produjo un incendio en la sala de conmutación principal de la oficina central de Hinsdale de la compañía telefónica Bell de Illinois . La instalación, uno de los sistemas de conmutación más grandes del estado, procesó más de 3,5 millones de llamadas cada día y atendió a 38.000 clientes, incluidas numerosas empresas, hospitales y los aeropuertos O'Hare y Midway de Chicago. [2]
Prácticamente toda la red de AT&T de conmutadores de peaje en tándem 4ESS entró y salió de servicio una y otra vez el 15 de enero de 1990, interrumpiendo el servicio de larga distancia en todo Estados Unidos. El problema se disipó por sí solo cuando el tráfico disminuyó. Se encontró un error de software. [3]
AT&T perdió su red Frame Relay durante 26 horas el 13 de abril de 1998. [4] Esto afectó a muchos miles de clientes, y las transacciones bancarias fueron una de las víctimas. AT&T no cumplió con el acuerdo de nivel de servicio en sus contratos con los clientes y tuvo que reembolsar [5] 6.600 cuentas de clientes , lo que costó millones de dólares.
Xbox Live tuvo un tiempo de inactividad intermitente durante la temporada navideña 2007-2008, que duró trece días. [6] El motivo del tiempo de inactividad fue el aumento de la demanda de los compradores de Xbox 360 (el mayor número de registros de nuevos usuarios en la historia de Xbox Live); Para solucionar los problemas del servicio, Microsoft ofreció a sus usuarios la oportunidad de recibir un juego gratis. [7]
La interrupción de PlayStation Network de Sony en abril de 2011 comenzó el 20 de abril de 2011 y se restableció gradualmente el 14 de mayo de 2011, comenzando en los Estados Unidos . Esta interrupción es el período más largo que PSN ha estado fuera de línea desde su creación en 2006. Sony ha declarado que el problema fue causado por una intrusión externa que resultó en la confiscación de información personal. Sony informó el 26 de abril de 2011 que se había obtenido una gran cantidad de datos de usuario mediante el mismo truco que provocó el tiempo de inactividad. [8]
El interruptor Ryde de Telstra falló a finales de 2011 después de que el agua ingresara al tablero del interruptor eléctrico debido al clima húmedo continuo. El conmutador de Ryde es uno de los conmutadores de área más grandes de Australia y afectó a más de 720.000 servicios. [ cita necesaria ]
El centro de datos de ServerAxis en Miami se desconectó sin previo aviso el 29 de febrero de 2016 y nunca fue restaurado. Esto afectó a múltiples proveedores y cientos de sitios web. La interrupción afectó la cobertura del torneo de baloncesto femenino de la División I de la NCAA de 2016, ya que WBBState, uno de los sitios afectados, era, con diferencia, el proveedor más completo de estadísticas de baloncesto femenino disponible. [9]
Roblox , de Roblox Corporation, tuvo una interrupción alrededor de octubre de 2021, durante su evento Chipotle . Muchos usuarios pensaron que era por el evento, ya que tuvo una acogida masiva, pues los usuarios pudieron obtener un burrito Chipotle gratis durante el mismo. La interrupción fue el mayor tiempo de inactividad de Roblox y se prolongó durante 3 días completos. [10] [11] [12]
El 8 de julio de 2022, Rogers sufrió un apagón importante a nivel nacional en Canadá . Esto afectó simultáneamente el acceso a los teléfonos celulares y a Internet, provocando llamadas al 911, fallas en las transacciones interbancarias y también perturbaciones en los servicios gubernamentales.
En los acuerdos de nivel de servicio , es común mencionar un valor porcentual (por mes o por año) que se calcula dividiendo la suma de todos los períodos de inactividad por el tiempo total de un período de referencia (por ejemplo, un mes). 0% de tiempo de inactividad significa que el servidor estuvo disponible todo el tiempo.
Para los servidores de Internet, los tiempos de inactividad superiores al 1% anual o peores pueden considerarse inaceptables, ya que esto significa un tiempo de inactividad de más de 3 días al año. Para el comercio electrónico y otros usos industriales, cualquier valor superior al 0,1% suele considerarse inaceptable. [13]
Es deber del diseñador de la red asegurarse de que no se produzca una interrupción de la red. Cuando esto suceda, un sistema bien diseñado reducirá aún más los efectos de una interrupción al tener interrupciones localizadas que puedan detectarse y solucionarse lo antes posible.
Es necesario implementar un proceso para detectar un mal funcionamiento ( monitoreo de la red ) y restaurar la red a una condición de funcionamiento; esto generalmente implica un equipo de asistencia técnica que pueda solucionar un problema, uno compuesto por ingenieros capacitados; Por lo general, es necesario contar con un equipo de soporte técnico independiente para recibir las aportaciones de los usuarios, lo que puede resultar especialmente exigente durante un tiempo de inactividad.
Se puede utilizar un sistema de gestión de red para detectar componentes defectuosos o en degradación antes de las quejas de los clientes, con rectificación proactiva de fallos.
Se pueden utilizar técnicas de gestión de riesgos para determinar el impacto de las interrupciones de la red en una organización y qué acciones pueden ser necesarias para minimizar el riesgo. El riesgo se puede minimizar utilizando componentes confiables, realizando mantenimiento, como actualizaciones, utilizando sistemas redundantes o teniendo un plan de contingencia o un plan de continuidad del negocio . Los medios técnicos pueden reducir los errores con códigos de corrección de errores , retransmisión , sumas de verificación o esquemas de diversidad .
Una de las principales causas del tiempo de inactividad es la mala configuración, cuando un cambio planificado sale mal. Normalmente, las organizaciones dependen del esfuerzo manual para gestionar el proceso de copias de seguridad de la configuración, pero esto requiere ingenieros altamente cualificados con tiempo para gestionar el proceso en una red de múltiples proveedores. Hay herramientas de automatización disponibles para gestionar las copias de seguridad, pero hay muy pocas soluciones que manejen la recuperación de la configuración, necesaria para minimizar el impacto general de la interrupción. [14]
Una interrupción planificada es el resultado de una actividad planificada por parte del propietario del sistema y/o de un proveedor de servicios . Estas interrupciones, a menudo programadas durante el período de mantenimiento , se pueden utilizar para realizar tareas que incluyen las siguientes:
Los apagones también se pueden planificar como resultado de un evento natural predecible, como un apagón solar .
Los tiempos de inactividad por mantenimiento deben programarse cuidadosamente en industrias que dependen de sistemas informáticos. En muchos casos, los tiempos de inactividad en todo el sistema se pueden evitar utilizando lo que se llama una "actualización continua": el proceso de eliminar gradualmente partes del sistema para actualizarlo, sin afectar la funcionalidad general.
Para la mayoría de los sitios web, el monitoreo de sitios web está disponible. El monitoreo de sitios web (sintético o pasivo) es un servicio que "monitorea" el tiempo de inactividad y los usuarios del sitio.
El tiempo de inactividad también puede referirse al momento en que el capital humano u otros activos disminuyen. Por ejemplo, si los empleados están en reuniones o no pueden realizar su trabajo debido a otra limitación, están caídos. Esto puede ser igualmente costoso y puede ser el resultado de que otro activo (es decir, una computadora o un sistema) esté inactivo. Esto también se conoce comúnmente como " tiempo muerto ".
El tiempo de inactividad también se generaliza en un sentido personal, utilizándose para referirse a un periodo de sueño o recreación . [15] [16] [17]
Este término se utiliza también en fábricas o uso industrial. Ver mantenimiento productivo total (TPM).
Hay muchos servicios externos que se pueden utilizar para monitorear el tiempo de actividad y de inactividad, así como la disponibilidad de un servicio o un host.
{{cite journal}}
: Parámetro desconocido |agency=
ignorado ( ayuda )Mucha gente piensa que dormir simplemente es un lujo: un poco de tiempo de inactividad.