Recuperación de desastres de TI

La recuperación ante desastres de TI (también, simplemente recuperación ante desastres (DR) ) es el proceso de mantenimiento o restablecimiento de la infraestructura y los sistemas vitales después de un desastre natural o inducido por el hombre , como una tormenta o una batalla. DR emplea políticas, herramientas y procedimientos con un enfoque en los sistemas de TI que respaldan las funciones comerciales críticas. ^[1] Esto implica mantener todos los aspectos esenciales de un negocio en funcionamiento a pesar de eventos disruptivos significativos; por lo tanto, puede considerarse un subconjunto de la continuidad comercial (BC). ^[2]^[3] DR asume que el sitio principal no es inmediatamente recuperable y restaura datos y servicios a un sitio secundario.

Continuidad del servicio de TI

La continuidad del servicio de TI (ITSC) es un subconjunto del BCP ^[4] que se basa en las métricas (que se utilizan con frecuencia como indicadores clave de riesgo ) de los objetivos de tiempo/punto de recuperación. Abarca la planificación de recuperación ante desastres de TI y la planificación más amplia de resiliencia de TI . También incorpora la infraestructura y los servicios de TI relacionados con las comunicaciones , como la telefonía y las comunicaciones de datos . ^[5]^[6]

Principios de los sitios de respaldo

La planificación incluye la organización de sitios de respaldo, ya sean "calientes" (que operaban antes de un desastre), "tibios" (listos para comenzar a operar) o "fríos" (requieren un trabajo sustancial para comenzar a operar), y sitios de reserva con hardware según sea necesario para la continuidad.

En 2008, la British Standards Institution lanzó una norma específica que respaldaba la Norma de Continuidad de Negocios BS 25999 , titulada BS25777, específicamente para alinear la continuidad informática con la continuidad de negocios. Esta norma fue retirada tras la publicación en marzo de 2011 de la ISO/IEC 27031, "Técnicas de seguridad: directrices para la preparación de tecnologías de la información y la comunicación para la continuidad de negocios". ^[7]

ITIL ha definido algunos de estos términos. ^[8]

Objetivo de tiempo de recuperación

El Objetivo de Tiempo de Recuperación (RTO) ^[9]^[10] es la duración de tiempo prevista y un nivel de servicio dentro del cual se debe restaurar un proceso de negocio después de una interrupción para evitar una interrupción en la continuidad del negocio. ^[11]

De acuerdo con la metodología de planificación de la continuidad del negocio, el RTO se establece durante el análisis de impacto en el negocio (BIA) por parte del propietario o los propietarios del proceso, incluida la identificación de plazos para soluciones alternativas o manuales.

El RTO es un complemento del RPO. Los límites del rendimiento aceptable o "tolerable" de ITSC se miden mediante el RTO y el RPO en términos de tiempo perdido en el funcionamiento normal del proceso empresarial y datos perdidos o no respaldados durante ese período. ^[11]^[12]

Tiempo de recuperación real

El tiempo de recuperación real (RTA) es la métrica crítica para la continuidad del negocio y la recuperación ante desastres. ^[9]

El grupo de continuidad del negocio lleva a cabo ensayos cronometrados (o reales), durante los cuales se determina y perfecciona el RTA según sea necesario. ^[9]

Objetivo del punto de recuperación

Un objetivo de punto de recuperación (RPO) es el intervalo máximo aceptable durante el cual se pierden datos transaccionales de un servicio de TI. ^[11]

Por ejemplo, si el RPO se mide en minutos, entonces en la práctica, las copias de seguridad reflejadas fuera del sitio deben mantenerse continuamente , ya que una copia de seguridad diaria fuera del sitio no será suficiente. ^[13]

Relación con RTO

Una recuperación que no es instantánea restaura los datos transaccionales durante un cierto intervalo sin incurrir en riesgos o pérdidas significativas. ^[11]

El RPO mide el tiempo máximo en el que los datos recientes pueden haberse perdido de forma permanente y no es una medida directa de la cantidad de pérdida. Por ejemplo, si el plan de BC es restaurar hasta la última copia de seguridad disponible, entonces el RPO es el intervalo entre dichas copias de seguridad.

El RPO no está determinado por el régimen de copias de seguridad existente, sino que BIA determina el RPO para cada servicio. Cuando se requieren datos fuera de las instalaciones, el período durante el cual los datos pueden perderse puede comenzar cuando se preparan las copias de seguridad, no cuando se aseguran las copias de seguridad fuera de las instalaciones. ^[12]

Tiempos medios

Las métricas de recuperación se pueden convertir en métricas de fallas o se pueden usar junto con ellas . Las mediciones comunes incluyen el tiempo medio entre fallas (MTBF), el tiempo medio hasta la primera falla (MTFF), el tiempo medio hasta la reparación (MTTR) y el tiempo medio de inactividad (MDT).

Puntos de sincronización de datos

Un punto de sincronización de datos ^[14] es cuando se completa una copia de seguridad. Detiene el procesamiento de actualización mientras se completa una copia de disco a disco. La copia de seguridad ^[15] refleja la versión anterior de la operación de copia, no cuando los datos se copian a cinta o se transmiten a otro lugar.

Diseño del sistema

El RTO y el RPO deben equilibrarse, teniendo en cuenta el riesgo comercial, junto con otros criterios de diseño del sistema. ^[16]

El RPO está vinculado a los momentos en que se realizan copias de seguridad en un lugar remoto. El envío de copias sincrónicas a un espejo externo permite la mayoría de los eventos imprevistos. El uso de transporte físico para cintas (u otros medios transportables) es común. La recuperación se puede activar en un sitio predeterminado. El espacio y el hardware compartidos fuera del sitio completan el paquete. ^[17]

Para grandes volúmenes de datos de transacciones de alto valor, el hardware se puede dividir en varios sitios.

Historia

La planificación de la recuperación ante desastres y la tecnología de la información (TI) se desarrolló a mediados y fines de la década de 1970 cuando los gerentes de centros de cómputo comenzaron a reconocer la dependencia de sus organizaciones de sus sistemas informáticos.

En ese momento, la mayoría de los sistemas eran mainframes orientados al procesamiento por lotes . Se podía cargar un mainframe externo desde cintas de respaldo en espera de la recuperación del sitio principal; el tiempo de inactividad era relativamente menos crítico.

La industria de recuperación de desastres ^[18]^[19] se desarrolló para proporcionar centros informáticos de respaldo. Sungard Availability Services fue uno de los primeros centros de este tipo, ubicado en Sri Lanka (1978). ^[20]^[21]

Durante los años 1980 y 1990, la informática creció exponencialmente, incluyendo el tiempo compartido interno en las empresas, la entrada de datos en línea y el procesamiento en tiempo real . La disponibilidad de sistemas de TI se volvió más importante.

Las agencias reguladoras se involucraron; a menudo se exigían objetivos de disponibilidad de 2, 3, 4 o 5 nueves (99,999 %) y se buscaron soluciones de alta disponibilidad para instalaciones de sitios calientes . ^{[ cita requerida ]}

La continuidad del servicio de TI se volvió esencial como parte de la Gestión de la Continuidad del Negocio (BCM) y la Gestión de la Seguridad de la Información (ICM), como se especifica en ISO/IEC 27001 e ISO 22301 respectivamente.

El auge de la computación en la nube desde 2010 creó nuevas oportunidades para la resiliencia del sistema. Los proveedores de servicios asumieron la responsabilidad de mantener altos niveles de servicio, incluida la disponibilidad y la confiabilidad. Ofrecieron diseños de red altamente resilientes. La recuperación como servicio (RaaS) está ampliamente disponible y es promovida por la Cloud Security Alliance . ^[22]

Clasificación

Los desastres pueden ser el resultado de tres amplias categorías de amenazas y peligros.

Los peligros naturales incluyen actos de la naturaleza como inundaciones, huracanes, tornados, terremotos y epidemias.
Los peligros tecnológicos incluyen accidentes o fallas de sistemas y estructuras, tales como explosiones de tuberías, accidentes de transporte, interrupciones de servicios públicos, fallas de presas y liberaciones accidentales de materiales peligrosos.
Amenazas causadas por humanos que incluyen actos intencionales como ataques de agresores activos, ataques químicos o biológicos, ataques cibernéticos contra datos o infraestructura, sabotaje y guerra.

Las medidas de preparación para todas las categorías y tipos de desastres se enmarcan en las cinco áreas de misión de prevención, protección, mitigación, respuesta y recuperación. ^[23]

Planificación

Las investigaciones respaldan la idea de que es más rentable implementar un enfoque de planificación previa al desastre más integral. Por cada dólar gastado en mitigación de riesgos (como un plan de recuperación ante desastres ) la sociedad ahorra cuatro dólares en costos de respuesta y recuperación. ^[24]

Las estadísticas de recuperación ante desastres de 2015 sugieren que el tiempo de inactividad que dura una hora puede costar ^[25]

pequeñas empresas $8,000,
organizaciones de tamaño mediano $74,000, y
grandes empresas $700.000 o más.

A medida que los sistemas de TI se han vuelto cada vez más críticos para el buen funcionamiento de una empresa y, posiblemente, de la economía en su conjunto, ha aumentado la importancia de garantizar el funcionamiento continuo de esos sistemas y su rápida recuperación. ^[26]

Medidas de control

Las medidas de control son pasos o mecanismos que pueden reducir o eliminar las amenazas. La elección de los mecanismos se refleja en un plan de recuperación ante desastres (PRD).

Las medidas de control pueden clasificarse como controles destinados a prevenir que ocurra un evento, controles destinados a detectar o descubrir eventos no deseados y controles destinados a corregir o restaurar el sistema después de un desastre o evento.

Estos controles se documentan y se ejercen periódicamente mediante las denominadas "pruebas DR".

Estrategias

La estrategia de recuperación ante desastres se deriva del plan de continuidad del negocio. ^[27] Las métricas de los procesos de negocio se asignan luego a los sistemas y la infraestructura. ^[28] Un análisis de costo-beneficio destaca qué medidas de recuperación ante desastres son las adecuadas. Diferentes estrategias tienen sentido en función del costo del tiempo de inactividad en comparación con el costo de implementar una estrategia en particular.

Las estrategias comunes incluyen:

copias de seguridad en cinta y enviadas fuera del sitio
copias de seguridad en disco local (copiadas a un disco externo) o fuera del sitio
replicación fuera del sitio, de modo que una vez que los sistemas se restauren o sincronicen, posiblemente a través de la tecnología de red de área de almacenamiento
Soluciones de nube privada que replican metadatos (máquinas virtuales, plantillas y discos) en la nube privada. Los metadatos se configuran como una representación XML denominada Formato de virtualización abierta y se pueden restaurar fácilmente.
Soluciones de nube híbrida que replican tanto los centros de datos locales como los externos. Esto proporciona conmutación por error instantánea al hardware local o a los centros de datos en la nube.
sistemas de alta disponibilidad que mantienen los datos y el sistema replicados fuera del sitio, lo que permite el acceso continuo a los sistemas y datos, incluso después de un desastre (a menudo asociado con el almacenamiento en la nube ). ^[29]

Las estrategias de precaución pueden incluir:

espejos locales de sistemas y/o datos y uso de tecnología de protección de discos como RAID
Protectores contra sobretensiones: para minimizar el efecto de las sobretensiones en equipos electrónicos delicados.
Uso de un sistema de alimentación ininterrumpida (UPS) y/o un generador de respaldo para mantener los sistemas en funcionamiento en caso de un corte de energía.
Sistemas de prevención y mitigación de incendios, como alarmas y extintores.
software antivirus y otras medidas de seguridad.

Recuperación de desastres como servicio

La recuperación ante desastres como servicio (DRaaS) es un acuerdo con un proveedor externo para realizar algunas o todas las funciones de recuperación ante desastres en situaciones como cortes de energía, fallas de equipos, ataques cibernéticos y desastres naturales. ^[30]

Véase también

Referencias

^ "'Continuidad de sistemas y operaciones: recuperación ante desastres". Universidad de Georgetown - Servicios de información universitaria. Archivado desde el original el 26 de febrero de 2012. Consultado el 20 de julio de 2024 .
^ "Recuperación ante desastres y continuidad empresarial". IBM . Archivado desde el original el 11 de enero de 2013 . Consultado el 20 de julio de 2024 .
^ "¿Qué es la gestión de la continuidad del negocio?". Disaster Recovery Institute International . Consultado el 20 de julio de 2024 .
^ "Defendiendo los estratos de datos". ForbesMiddleEast.com . 24 de diciembre de 2013.^{[ enlace muerto permanente ]}
^ M. Niemimaa; Steven Buchanan (marzo de 2017). "Proceso de continuidad de los sistemas de información". ACM .com (Biblioteca digital ACM) .
^ "Directorio de continuidad de servicios de TI 2017" (PDF) . Disaster Recovery Journal . Archivado desde el original (PDF) el 2018-11-30 . Consultado el 2018-11-30 .
^ "La norma ISO 22301 se publicará a mediados de mayo; la norma BS 25999-2 se retirará". Business Continuity Forum . 2012-05-03 . Consultado el 2021-11-20 .
^ "Glosario y abreviaturas de ITIL".
^ abc "Al igual que el Draft de la NFL, ¿el reloj es el enemigo de tu tiempo de recuperación?". Forbes . 30 de abril de 2015.
^ "Tres razones por las que no puede cumplir con el tiempo de recuperación ante desastres". Forbes . 10 de octubre de 2013.
^ abcd "Comprensión de RPO y RTO". DRUVA. 2008. Consultado el 13 de febrero de 2013 .
^ ab "Cómo incorporar RPO y RTO en sus planes de backup y recuperación". SearchStorage . Consultado el 20 de mayo de 2019 .
^ Richard May. "Cómo encontrar RPO y RTO". Archivado desde el original el 3 de marzo de 2016.
^ "Transferencia de datos y sincronización entre sistemas móviles". 14 de mayo de 2013.
^ "Enmienda n.° 5 a la S-1". SEC.gov . en tiempo real... proporcionar redundancia y respaldo a...
^ Peter H. Gregory (3 de marzo de 2011). "Establecer el tiempo de inactividad máximo tolerable: establecer objetivos de recuperación". Planificación de recuperación ante desastres de TI para principiantes . Wiley. págs. 19–22. ISBN 978-1118050637.
^ William Caelli; Denis Longley (1989). Seguridad de la información para gerentes. Springer. pág. 177. ISBN 1349101370.
^ "¿Catástrofe? No puede suceder aquí". The New York Times , 29 de enero de 1995. .. registros de pacientes
^ "Propiedad comercial/Recuperación de desastres". The New York Times . 9 de octubre de 1994. ...la industria de recuperación de desastres ha crecido
^ Charlie Taylor (30 de junio de 2015). "La empresa tecnológica estadounidense Sungard anuncia 50 puestos de trabajo en Dublín". The Irish Times . Sungard... fundada en 1978
^ Cassandra Mascarenhas (12 de noviembre de 2010). "SunGard será una presencia vital en la industria bancaria". Wijeya Newspapers Ltd. SunGard... el futuro de Sri Lanka.
^ Categoría 9 de SecaaS // Guía de implementación de BCDR CSA, consultado el 14 de julio de 2014.
^ "Identificación de amenazas y peligros y evaluación de riesgos (THIRA) y revisión de la preparación de las partes interesadas (SPR): Guía de preparación integral (CPG) 201, 3.ª edición" (PDF) . Departamento de Seguridad Nacional de los Estados Unidos. Mayo de 2018.
^ "Post-Disaster Recovery Planning Forum: How-To Guide, Prepared by Partnership for Disaster Resilience". Centro de servicios comunitarios de la Universidad de Oregón, (C) 2007, www.OregonShowcase.org . Consultado el 29 de octubre de 2018 .^{[ enlace muerto permanente ]}
^ "La importancia de la recuperación ante desastres" . Consultado el 29 de octubre de 2018 .
^ "Plan de recuperación de desastres informáticos". FEMA. 25 de octubre de 2012. Consultado el 11 de mayo de 2013 .
^ "El uso del marco de Prácticas Profesionales para desarrollar, implementar y mantener un programa de continuidad de negocios puede reducir la probabilidad de brechas significativas". DRI International . 2021-08-16 . Consultado el 2021-09-02 .
^ Gregory, Peter. Guía de examen integral para auditor certificado de sistemas de información CISA, 2009. ISBN 978-0-07-148755-9 . Página 480.
^ Brandon, John (23 de junio de 2011). "Cómo utilizar la nube como estrategia de recuperación ante desastres". Inc. Consultado el 11 de mayo de 2013 .
^ "Recuperación ante desastres como servicio (DRaaS)".

Lectura adicional

Barnes, James (2001). Una guía para la planificación de la continuidad empresarial . Chichester, NY: John Wiley. ISBN 9780470845431.OCLC 50321216 .
Bell, Judy Kay (2000). Planificación de supervivencia ante desastres: una guía práctica para empresas . Port Hueneme, CA, EE. UU.: Planificación de supervivencia ante desastres. ISBN 9780963058027.OCLC 45755917 .
Fulmer, Kenneth (2015). Planificación de la continuidad empresarial: una guía paso a paso con formularios de planificación . Brookfield, CT: Rothstein Associates, Inc. ISBN 9781931332804.OCLC 712628907 , 905750518, 1127407034.
DiMattia, Susan S (2001). "Planificación para la continuidad". Library Journal . 126 (19): 32–34. ISSN 0363-0277. OCLC 425551440.
Harney, John (julio-agosto de 2004). "Continuidad empresarial y recuperación ante desastres: volver a iniciar o cerrar". Revista AIIM E-DOC . ISSN 1544-3647. OCLC 1058059544. Archivado desde el original el 4 de febrero de 2008.
"ISO 22301:2019(en), Seguridad y resiliencia — Sistemas de gestión de la continuidad del negocio — Requisitos". ISO.
"ISO/IEC 27001:2013(en) Tecnología de la información — Técnicas de seguridad — Sistemas de gestión de seguridad de la información — Requisitos". ISO.
"ISO/IEC 27002:2013(en) Tecnología de la información — Técnicas de seguridad — Código de prácticas para controles de seguridad de la información". ISO.

Enlaces externos

"Glosario de términos para continuidad empresarial, recuperación ante desastres y soluciones tecnológicas de almacenamiento z/OS y duplicación de datos relacionadas". recoveryspecialties.com . Archivado desde el original el 2020-11-14 . Consultado el 2021-09-02 .
"Plan de recuperación ante desastres informáticos". Ready.gov . Consultado el 2 de septiembre de 2021 .
"Explicación del objetivo de punto de recuperación (RPO)". IBM . 2019-08-08 . Consultado el 2021-09-02 .