Falta del tiempo

El término tiempo de inactividad se utiliza para referirse a los períodos en los que un sistema no está disponible. La indisponibilidad es la proporción de un lapso de tiempo que un sistema no está disponible o está fuera de línea . Esto suele deberse a que el sistema no funciona debido a un evento no planificado o a un mantenimiento de rutina (un evento planificado).

Los términos se aplican comúnmente a redes y servidores . Las razones comunes de las interrupciones no planificadas son fallas del sistema (como una falla ) o fallas de comunicaciones (comúnmente conocidas como interrupción de la red ).

El término también se aplica comúnmente en entornos industriales en relación con fallas en equipos de producción industrial. Algunas instalaciones miden el tiempo de inactividad incurrido durante un turno de trabajo o durante un período de 12 o 24 horas. Otra práctica común es identificar cada evento de inactividad como de origen operativo, eléctrico o mecánico.

Lo opuesto al tiempo de inactividad es el tiempo de actividad .

Tipos

Los estándares de la industria para el término "Duración de la interrupción" o "Duración del mantenimiento" pueden tener diferentes puntos de inicio y finalización, por lo que se debe utilizar la siguiente aclaración para evitar conflictos en la ejecución del contrato:

"Llave en mano", este es el más fascinante de todos los tipos de interrupción. La interrupción o el mantenimiento comienzan cuando el operador de la planta o equipo presiona el botón de apagado o parada para iniciar la parada de la operación. A menos que se indique lo contrario, la interrupción o el mantenimiento se consideran completados cuando la planta o el equipo vuelven a funcionar normalmente y están listos para comenzar la fabricación o para sincronizarse con el sistema o la red o para realizar tareas como bomba o compresor.
"Disyuntor a disyuntor" Esta interrupción o mantenimiento comienza cuando el operador de la planta o equipo retira el circuito de alimentación (el disyuntor de alimentación principal está "apagado" o "desactivado" o "encendido-enfriamiento"), no el circuito de control de la operación. Esto aún permitiría que el equipo se enfríe o se lleve a temperatura ambiente de modo que se puedan preparar o iniciar trabajos de interrupción/mantenimiento. Dependiendo de los tipos de equipos, la interrupción "de interruptor a interruptor" puede ser ventajosa si la subcontratación controla el mantenimiento relacionado, ya que este tipo de trabajo de mantenimiento se puede realizar mientras el equipo principal aún está enfriándose o en espera. A menos que se indique lo contrario, este tipo de corte se considera completo cuando el circuito de alimentación se vuelve a energizar activando el disyuntor.
"Finalización del bloqueo/etiquetado " Esta interrupción o mantenimiento (a veces confundido con "apagado-enfriamiento" pero no es lo mismo) comienza cuando el operador de la planta o equipo retira el circuito de alimentación, desconecta el circuito de control y realiza otras operaciones de neutralización. de fuentes potenciales de energía y peligro (normalmente llamado Bloqueo, Etiquetado "LOTO") Este punto del período de mantenimiento suele ser la última fase de la etapa de inicio de la interrupción antes de que comience el trabajo real en la instalación, planta o equipo. Las instrucciones de seguridad siempre deben seguir a la actividad LOTO, antes de realizar cualquier trabajo. A menos que se indique lo contrario, este tipo de interrupción se considera completa cuando el equipo ha alcanzado su finalización mecánica y está listo para ser colocado en rollo lento para muchos equipos giratorios pesados, prueba funcional o verificación de rotación para motores, etc., pero debe seguir el retorno o Permiso de trabajo según los procedimientos LOTO.

Cualquier prueba en línea, prueba de rendimiento y ajuste requeridos no deben contarse para la duración de la interrupción, ya que estas actividades generalmente se llevan a cabo después de la finalización de la interrupción o del evento de mantenimiento y están fuera del control de la mayoría de los contratistas de mantenimiento.

Características

El tiempo de inactividad no planificado puede ser el resultado de un mal funcionamiento del equipo, etc.

Clasificaciones de cortes de telecomunicaciones

El tiempo de inactividad puede ser causado por fallas en el hardware (equipo físico), (equipo de control lógico), equipo de interconexión (como cables, instalaciones, enrutadores,...), transmisión (inalámbrica, microondas, satélite) y/o capacidad (sistema límites).

Las fallas pueden ocurrir debido a daños, fallas, diseño, procedimientos (uso inadecuado por parte de humanos), ingeniería (cómo usar e implementar), sobrecarga (tráfico o recursos del sistema estresados más allá de los límites diseñados), medio ambiente (sistemas de soporte como energía y HVAC). , (interrupciones diseñadas en el sistema con un propósito como actualizaciones de software y crecimiento de equipos), otros (ninguno de los anteriores pero conocido) o desconocido.

Las fallas pueden ser responsabilidad del cliente/proveedor de servicios, vendedor/proveedor, empresa de servicios públicos, gobierno, contratista, cliente final, individuo público, acto de la naturaleza, otro (ninguno de los anteriores pero conocido) o desconocido.

Impacto

Las interrupciones causadas por fallas del sistema pueden tener un impacto grave en los usuarios de sistemas informáticos/de red, en particular en aquellas industrias que dependen de un servicio de casi 24 horas:

También pueden verse afectados los usuarios de un ISP y otros clientes de una red de telecomunicaciones.

Las corporaciones pueden perder negocios debido a una interrupción de la red o pueden incumplir un contrato, lo que resulta en pérdidas financieras. Según el informe de gestión de datos en la nube de Veeam de 2019, las organizaciones experimentan tiempos de inactividad no planificados, en promedio, entre 5 y 10 veces al año, con un costo promedio de una hora de tiempo de inactividad de $102 450. ^[1]

Aquellas personas u organizaciones que se ven afectadas por el tiempo de inactividad pueden ser más sensibles a aspectos particulares:

Algunos se ven más afectados por la duración de una interrupción: les importa cuánto tiempo lleva recuperarse de un problema.
otros son sensibles al momento de un apagón: los apagones durante las horas pico los afectan más

Los usuarios más exigentes son aquellos que requieren alta disponibilidad .

Apagones famosos

El día de la Madre , el domingo 8 de mayo de 1988, se produjo un incendio en la sala de conmutación principal de la oficina central de Hinsdale de la compañía telefónica Bell de Illinois . La instalación, uno de los sistemas de conmutación más grandes del estado, procesó más de 3,5 millones de llamadas cada día y atendió a 38.000 clientes, incluidas numerosas empresas, hospitales y los aeropuertos O'Hare y Midway de Chicago. ^[2]

Prácticamente toda la red de AT&T de conmutadores de peaje en tándem 4ESS entró y salió de servicio una y otra vez el 15 de enero de 1990, interrumpiendo el servicio de larga distancia en todo Estados Unidos. El problema se disipó por sí solo cuando el tráfico disminuyó. Se encontró un error de software. ^[3]

AT&T perdió su red Frame Relay durante 26 horas el 13 de abril de 1998. ^[4] Esto afectó a muchos miles de clientes, y las transacciones bancarias fueron una de las víctimas. AT&T no cumplió con el acuerdo de nivel de servicio en sus contratos con los clientes y tuvo que reembolsar ^[5] 6.600 cuentas de clientes , lo que costó millones de dólares.

Xbox Live tuvo un tiempo de inactividad intermitente durante la temporada navideña 2007-2008, que duró trece días. ^[6] El motivo del tiempo de inactividad fue el aumento de la demanda de los compradores de Xbox 360 (el mayor número de registros de nuevos usuarios en la historia de Xbox Live); Para solucionar los problemas del servicio, Microsoft ofreció a sus usuarios la oportunidad de recibir un juego gratis. ^[7]

La interrupción de PlayStation Network de Sony en abril de 2011 comenzó el 20 de abril de 2011 y se restableció gradualmente el 14 de mayo de 2011, comenzando en los Estados Unidos . Esta interrupción es el período más largo que PSN ha estado fuera de línea desde su creación en 2006. Sony ha declarado que el problema fue causado por una intrusión externa que resultó en la confiscación de información personal. Sony informó el 26 de abril de 2011 que se había obtenido una gran cantidad de datos de usuario mediante el mismo truco que provocó el tiempo de inactividad. ^[8]

El interruptor Ryde de Telstra falló a finales de 2011 después de que el agua ingresara al tablero del interruptor eléctrico debido al clima húmedo continuo. El conmutador de Ryde es uno de los conmutadores de área más grandes de Australia y afectó a más de 720.000 servicios. ^{[ cita necesaria ]}

El centro de datos de ServerAxis en Miami se desconectó sin previo aviso el 29 de febrero de 2016 y nunca fue restaurado. Esto afectó a múltiples proveedores y cientos de sitios web. La interrupción afectó la cobertura del torneo de baloncesto femenino de la División I de la NCAA de 2016, ya que WBBState, uno de los sitios afectados, era, con diferencia, el proveedor más completo de estadísticas de baloncesto femenino disponible. ^[9]

Roblox , de Roblox Corporation, tuvo una interrupción alrededor de octubre de 2021, durante su evento Chipotle . Muchos usuarios pensaron que era por el evento, ya que tuvo una acogida masiva, pues los usuarios pudieron obtener un burrito Chipotle gratis durante el mismo. La interrupción fue el mayor tiempo de inactividad de Roblox y se prolongó durante 3 días completos. ^[10]^[11]^[12]

El 8 de julio de 2022, Rogers sufrió un apagón importante a nivel nacional en Canadá . Esto afectó simultáneamente el acceso a los teléfonos celulares y a Internet, provocando llamadas al 911, fallas en las transacciones interbancarias y también perturbaciones en los servicios gubernamentales.

Niveles de servicio

En los acuerdos de nivel de servicio , es común mencionar un valor porcentual (por mes o por año) que se calcula dividiendo la suma de todos los períodos de inactividad por el tiempo total de un período de referencia (por ejemplo, un mes). 0% de tiempo de inactividad significa que el servidor estuvo disponible todo el tiempo.

Para los servidores de Internet, los tiempos de inactividad superiores al 1% anual o peores pueden considerarse inaceptables, ya que esto significa un tiempo de inactividad de más de 3 días al año. Para el comercio electrónico y otros usos industriales, cualquier valor superior al 0,1% suele considerarse inaceptable. ^[13]

Respuesta y reducción del impacto

Es deber del diseñador de la red asegurarse de que no se produzca una interrupción de la red. Cuando esto suceda, un sistema bien diseñado reducirá aún más los efectos de una interrupción al tener interrupciones localizadas que puedan detectarse y solucionarse lo antes posible.

Es necesario implementar un proceso para detectar un mal funcionamiento ( monitoreo de la red ) y restaurar la red a una condición de funcionamiento; esto generalmente implica un equipo de asistencia técnica que pueda solucionar un problema, uno compuesto por ingenieros capacitados; Por lo general, es necesario contar con un equipo de soporte técnico independiente para recibir las aportaciones de los usuarios, lo que puede resultar especialmente exigente durante un tiempo de inactividad.

Se puede utilizar un sistema de gestión de red para detectar componentes defectuosos o en degradación antes de las quejas de los clientes, con rectificación proactiva de fallos.

Se pueden utilizar técnicas de gestión de riesgos para determinar el impacto de las interrupciones de la red en una organización y qué acciones pueden ser necesarias para minimizar el riesgo. El riesgo se puede minimizar utilizando componentes confiables, realizando mantenimiento, como actualizaciones, utilizando sistemas redundantes o teniendo un plan de contingencia o un plan de continuidad del negocio . Los medios técnicos pueden reducir los errores con códigos de corrección de errores , retransmisión , sumas de verificación o esquemas de diversidad .

Una de las principales causas del tiempo de inactividad es la mala configuración, cuando un cambio planificado sale mal. Normalmente, las organizaciones dependen del esfuerzo manual para gestionar el proceso de copias de seguridad de la configuración, pero esto requiere ingenieros altamente cualificados con tiempo para gestionar el proceso en una red de múltiples proveedores. Hay herramientas de automatización disponibles para gestionar las copias de seguridad, pero hay muy pocas soluciones que manejen la recuperación de la configuración, necesaria para minimizar el impacto general de la interrupción. ^[14]

Planificación

Una interrupción planificada es el resultado de una actividad planificada por parte del propietario del sistema y/o de un proveedor de servicios . Estas interrupciones, a menudo programadas durante el período de mantenimiento , se pueden utilizar para realizar tareas que incluyen las siguientes:

Mantenimiento diferido, por ejemplo, una reparación de hardware diferida o un reinicio diferido para limpiar una memoria confusa
Diagnóstico para aislar una falla detectada
Reparación de fallas de hardware
Corregir un error u omisión en una base de datos de configuración u omisión en un cambio reciente en la base de datos de configuración
Corregir un error en la base de datos de la aplicación o un error en un cambio reciente en la base de datos de la aplicación
Parches de software/actualizaciones de software para corregir una falla de software.

Los apagones también se pueden planificar como resultado de un evento natural predecible, como un apagón solar .

Los tiempos de inactividad por mantenimiento deben programarse cuidadosamente en industrias que dependen de sistemas informáticos. En muchos casos, los tiempos de inactividad en todo el sistema se pueden evitar utilizando lo que se llama una "actualización continua": el proceso de eliminar gradualmente partes del sistema para actualizarlo, sin afectar la funcionalidad general.

Evitación

Para la mayoría de los sitios web, el monitoreo de sitios web está disponible. El monitoreo de sitios web (sintético o pasivo) es un servicio que "monitorea" el tiempo de inactividad y los usuarios del sitio.

Otro uso

El tiempo de inactividad también puede referirse al momento en que el capital humano u otros activos disminuyen. Por ejemplo, si los empleados están en reuniones o no pueden realizar su trabajo debido a otra limitación, están caídos. Esto puede ser igualmente costoso y puede ser el resultado de que otro activo (es decir, una computadora o un sistema) esté inactivo. Esto también se conoce comúnmente como " tiempo muerto ".

El tiempo de inactividad también se generaliza en un sentido personal, utilizándose para referirse a un periodo de sueño o recreación . ^[15]^[16]^[17]

Este término se utiliza también en fábricas o uso industrial. Ver mantenimiento productivo total (TPM).

Medir el tiempo de inactividad

Hay muchos servicios externos que se pueden utilizar para monitorear el tiempo de actividad y de inactividad, así como la disponibilidad de un servicio o un host.

Ver también

Referencias

^ "Resumen ejecutivo de tendencias de protección de datos de 2021". Software Veeam .
^ Neumann, Peter G.; Weinstock, Chuck; Townson, Patrick (11 de mayo de 1988). "Riesgos de fallas de un solo punto: el incendio de Hinsdale". El resumen de RIESGOS . 6 (82) - a través del servidor web Catless. {{cite journal}}: Parámetro desconocido |agency=ignorado ( ayuda )
^ Neumann, Peter G. (26 de febrero de 1990). "La caída de la red AT&T en 1990". Mundo Telefónico . El resumen de riesgos. Archivado desde el original el 19 de diciembre de 2022.
^ "Prevención de interrupciones del servicio de red IP" (PDF) . Tecnologías Agilent . 15 de marzo de 2002. Archivado desde el original (PDF) el 28 de septiembre de 2018.
^ Neumann, Peter G.; Bellovin, Steve; Byrnes, Jim; Newell, Ruthlyn (7 de mayo de 1998). "AT&T anuncia la causa de la interrupción de la red Frame Relay". El resumen de RIESGOS . 19 (72) - a través del servidor web Catless.
^ Bloquear, Ryan (3 de enero de 2008). "Interrupción de Xbox Live, día 13: sigue subiendo y bajando, todavía impide divertirse". Engadget. Archivado desde el original el 27 de enero de 2012 . Consultado el 27 de abril de 2011 .
^ Cohen, Peter (4 de enero de 2008). "Microsoft ofrece juegos gratuitos para problemas de vacaciones de Xbox Live". Mundo PC . Macmundo. Archivado desde el original el 1 de diciembre de 2011.
^ "Comienza la restauración de PlayStation®Network y Qriocity Services". Portal del grupo Sony: sede mundial de Sony . 15 de mayo de 2011 . Consultado el 22 de octubre de 2021 .
^ Levy, Ian (16 de marzo de 2016). "Un sitio web se desconectó y se llevó consigo la mayor parte de los análisis del baloncesto universitario femenino". Cinco Treinta Ocho . Archivado desde el original el 30 de septiembre de 2023.
^ Plant, Logan (29 de octubre de 2021). "Los servidores de Roblox vuelven a estar en línea [Actualización]". IGN . Archivado desde el original el 17 de octubre de 2023.
^ Finnis, Alex. "¿Roblox no funciona? ¿Por qué la plataforma de juegos no funciona hoy con miles de usuarios informando problemas de inicio de sesión?". MSN . Archivado desde el original el 15 de noviembre de 2021.
^ "Roblox estuvo inactivo todo el fin de semana, y no por culpa de Chipotle". 30 de octubre de 2021.
^ Cohen, Gad. "Tiempo de inactividad, interrupciones y fallas: comprensión de sus verdaderos costos". www.evolven.com . Consultado el 22 de octubre de 2021 .
^ "¿Por qué es importante el seguimiento del tiempo de inactividad de las máquinas?". Evocón . 10 de septiembre de 2018 . Consultado el 22 de octubre de 2021 .
^ "Descanso y relajación: por qué el" tiempo de inactividad "es importante para los niños". 19 de septiembre de 2016.
^ "La importancia de programar el tiempo de inactividad". 25 de agosto de 2008.
^ "Lo que le hace a tu mente la falta de sueño". Mucha gente piensa que dormir simplemente es un lujo: un poco de tiempo de inactividad.

enlaces externos

La definición del diccionario de tiempo de inactividad en Wikcionario