La recuperación ante desastres es el proceso de mantener o restablecer infraestructuras y sistemas vitales después de un desastre natural o inducido por el hombre , como una tormenta o una batalla. Emplea políticas, herramientas y procedimientos. La recuperación ante desastres se centra en la tecnología de la información (TI) o los sistemas tecnológicos que respaldan funciones comerciales críticas [1] en lugar de la continuidad del negocio . Esto implica mantener todos los aspectos esenciales de un negocio en funcionamiento a pesar de eventos disruptivos importantes; por lo tanto, puede considerarse un subconjunto de la continuidad del negocio. [2] [3] La recuperación ante desastres supone que el sitio principal no se puede recuperar inmediatamente y restaura datos y servicios en un sitio secundario.
La continuidad del servicio de TI [4] [5] (ITSC) es un subconjunto de la planificación de la continuidad del negocio (BCP) [6] que se centra en el objetivo de punto de recuperación (RPO) y el objetivo de tiempo de recuperación (RTO). Abarca la planificación de la recuperación de desastres de TI y una planificación más amplia de la resiliencia de TI. También incorpora infraestructuras informáticas y servicios relacionados con las comunicaciones, como telefonía y comunicaciones de datos.
La planificación incluye la organización de sitios de respaldo, ya sean "calientes" (en funcionamiento antes de un desastre), "tibios" (listos para comenzar a operar) o "fríos" (requiere un trabajo sustancial para comenzar a operar), y sitios de reserva con hardware como necesaria para la continuidad.
En 2008, la British Standards Institution lanzó un estándar específico que respalda el estándar de continuidad del negocio BS 25999 , titulado BS25777, específicamente para alinear la continuidad de la computadora con la continuidad del negocio. Esto fue retirado tras la publicación en marzo de 2011 de la norma ISO/IEC 27031, "Técnicas de seguridad: Directrices para la preparación de las tecnologías de la información y las comunicaciones para la continuidad del negocio". [7]
ITIL ha definido algunos de estos términos. [8]
El objetivo de tiempo de recuperación (RTO) [9] [10] es la duración de tiempo objetivo y un nivel de servicio dentro del cual se debe restaurar un proceso de negocio después de una interrupción para evitar una interrupción en la continuidad del negocio . [11]
De acuerdo con la metodología de planificación de la continuidad del negocio , el propietario del proceso establece el RTO durante el Análisis de Impacto en el Negocio (BIA), incluida la identificación de plazos para soluciones alternativas o manuales.
RTO es un complemento de RPO. Los límites del desempeño aceptable o "tolerable" de ITSC se miden mediante RTO y RPO en términos de tiempo perdido en el funcionamiento normal del proceso de negocios y datos perdidos o no respaldados durante ese período. [11] [12]
El tiempo de recuperación real (RTA) es la métrica crítica para la continuidad del negocio y la recuperación ante desastres. [9]
El grupo de continuidad del negocio lleva a cabo ensayos cronometrados (o reales), durante los cuales RTA se determina y perfecciona según sea necesario. [9] [13]
Un objetivo de punto de recuperación (RPO) es el intervalo máximo aceptable durante el cual se pierden datos transaccionales de un servicio de TI. [11]
Por ejemplo, si el RPO se mide en minutos, entonces, en la práctica, las copias de seguridad reflejadas externas deben mantenerse continuamente , ya que una copia de seguridad externa diaria no será suficiente. [14]
Una recuperación que no es instantánea restaura los datos transaccionales durante un cierto intervalo sin incurrir en riesgos o pérdidas significativas. [11]
RPO mide el tiempo máximo en el que los datos recientes podrían haberse perdido permanentemente y no una medida directa de la cantidad de pérdida. Por ejemplo, si el plan de BC es restaurar hasta la última copia de seguridad disponible, entonces el RPO es el intervalo entre dichas copias de seguridad.
El RPO no está determinado por el régimen de respaldo existente. En cambio, el análisis de impacto empresarial determina el RPO para cada servicio. Cuando se requieren datos externos, el período durante el cual se pueden perder datos puede comenzar cuando se preparan las copias de seguridad, no cuando las copias de seguridad se protegen fuera del sitio. [12]
Un punto de sincronización de datos [15] es una copia de seguridad completa. Detiene el procesamiento de actualización mientras se completa una copia de disco a disco. La copia de seguridad [16] refleja la versión anterior de la operación de copia; no cuando los datos se copian en una cinta o se transmiten a otro lugar.
El RTO y el RPO deben estar equilibrados, teniendo en cuenta el riesgo empresarial, junto con otros criterios de diseño del sistema. [17]
El RPO está vinculado a los momentos en que las copias de seguridad se protegen fuera del sitio. El envío de copias sincrónicas a un espejo externo permite la mayoría de eventos imprevistos. El uso de transporte físico para cintas (u otros medios transportables) es común. La recuperación se puede activar en un sitio predeterminado. El espacio y el hardware compartidos fuera del sitio completan el paquete. [18]
Para grandes volúmenes de datos de transacciones de alto valor, el hardware se puede dividir en varios sitios.
La planificación para la recuperación de desastres y la tecnología de la información (TI) se desarrollaron entre mediados y finales de la década de 1970 cuando los administradores de centros de cómputo comenzaron a reconocer la dependencia de sus organizaciones de sus sistemas informáticos.
En ese momento, la mayoría de los sistemas eran mainframes orientados por lotes . Se podría cargar una computadora central externa desde cintas de respaldo en espera de la recuperación del sitio primario; el tiempo de inactividad fue relativamente menos crítico.
La industria de recuperación de desastres [19] [20] se desarrolló para proporcionar centros informáticos de respaldo. Sungard Availability Services fue uno de los primeros centros de este tipo, ubicado en Sri Lanka (1978). [21] [22]
Durante las décadas de 1980 y 1990, la informática creció exponencialmente, incluido el tiempo compartido interno de las empresas, la entrada de datos en línea y el procesamiento en tiempo real . La disponibilidad de sistemas de TI se volvió más importante.
Las agencias reguladoras se involucraron; A menudo se exigían objetivos de disponibilidad de 2, 3, 4 o 5 nueves (99,999%) y se buscaban soluciones de alta disponibilidad para instalaciones de sitios calientes . [ cita necesaria ]
La continuidad del servicio de TI se volvió esencial como parte de la Gestión de la Continuidad del Negocio (BCM) y la Gestión de la Seguridad de la Información (ICM) como se especifica en ISO/IEC 27001 e ISO 22301 respectivamente.
El auge de la computación en la nube desde 2010 creó nuevas oportunidades para la resiliencia del sistema. Los proveedores de servicios asumieron la responsabilidad de mantener altos niveles de servicio, incluidas la disponibilidad y la confiabilidad. Ofrecieron diseños de red altamente resistentes. La recuperación como servicio (RaaS) está ampliamente disponible y promovida por Cloud Security Alliance . [23]
Los desastres pueden ser el resultado de tres amplias categorías de amenazas y peligros.
Las medidas de preparación para todas las categorías y tipos de desastres se incluyen en las cinco áreas de la misión: prevención, protección, mitigación, respuesta y recuperación. [24]
Las investigaciones respaldan la idea de que implementar un enfoque de planificación previo al desastre más holístico es más rentable. Cada dólar gastado en mitigación de riesgos (como un plan de recuperación de desastres ) le ahorra a la sociedad cuatro dólares en costos de respuesta y recuperación. [25]
Las estadísticas de recuperación ante desastres de 2015 sugieren que el tiempo de inactividad que dura una hora puede costar [26]
A medida que los sistemas de TI se han vuelto cada vez más críticos para el buen funcionamiento de una empresa, y posiblemente de la economía en su conjunto, ha aumentado la importancia de garantizar el funcionamiento continuo de esos sistemas y su rápida recuperación. [27]
Las medidas de control son pasos o mecanismos que pueden reducir o eliminar amenazas. La elección de los mecanismos se refleja en un plan de recuperación ante desastres (DRP).
Las medidas de control se pueden clasificar en controles destinados a evitar que ocurra un evento, controles destinados a detectar o descubrir eventos no deseados y controles destinados a corregir o restaurar el sistema después de un desastre o evento.
Estos controles se documentan y se llevan a cabo periódicamente mediante las llamadas "pruebas DR".
La estrategia de recuperación ante desastres deriva del plan de continuidad del negocio. [28] Las métricas para los procesos de negocio luego se asignan a los sistemas y la infraestructura. [29] Un análisis coste-beneficio destaca qué medidas de recuperación ante desastres son apropiadas. Diferentes estrategias tienen sentido según el costo del tiempo de inactividad en comparación con el costo de implementar una estrategia en particular.
Las estrategias comunes incluyen:
Las estrategias de precaución pueden incluir:
La recuperación ante desastres como servicio (DRaaS) es un acuerdo con un proveedor externo para realizar algunas o todas las funciones de DR en escenarios como cortes de energía, fallas de equipos, ataques cibernéticos y desastres naturales. [31]
en tiempo real... proporcionar redundancia y respaldo a...
... registros de pacientes
...la industria de recuperación de desastres ha crecido hasta
Sungard... fundada en 1978
SunGard ... El futuro de Sri Lanka.