Conmutación por error

La conmutación por error es el cambio a un servidor , sistema , componente de hardware o red redundante o en espera cuando falla o finaliza de manera anormal la aplicación , ^[1] servidor, sistema, componente de hardware o red que estaba activo anteriormente en una red informática . La conmutación por error y la conmutación por conmutación son esencialmente la misma operación, excepto que la conmutación por error es automática y generalmente se realiza sin previo aviso, mientras que la conmutación por conmutación requiere intervención humana.

Los diseñadores de sistemas generalmente proporcionan capacidad de conmutación por error en servidores, sistemas o redes que requieren disponibilidad casi continua y un alto grado de confiabilidad .

A nivel de servidor, la automatización de la conmutación por error suele utilizar un sistema de " latido " que conecta dos servidores, ya sea mediante un cable independiente (por ejemplo, puertos/cable serie RS-232 ) o una conexión de red. En el diseño más común, mientras continúe un "pulso" o "latido" regular entre el servidor principal y el segundo servidor, el segundo servidor no pondrá en línea sus sistemas; sin embargo, algunos sistemas utilizan activamente todos los servidores y pueden conmutar por error su trabajo a los servidores restantes después de una falla. También puede haber un tercer servidor de "repuestos" que tenga componentes de repuesto en funcionamiento para la conmutación "en caliente" para evitar tiempos de inactividad. El segundo servidor asume el trabajo del primero tan pronto como detecta una alteración en el "latido" de la primera máquina. Algunos sistemas tienen la capacidad de enviar una notificación de conmutación por error.

Algunos sistemas, intencionalmente, no realizan la conmutación por error de forma totalmente automática, sino que requieren la intervención humana. Esta configuración "automatizada con aprobación manual" se ejecuta automáticamente una vez que un humano ha aprobado la conmutación por error.

La recuperación es el proceso de restaurar un sistema, componente o servicio que previamente se encontraba en un estado de falla a su estado original de funcionamiento, y hacer que el sistema en espera pase de funcionar nuevamente al estado de espera.

El uso de software de virtualización ha permitido que las prácticas de conmutación por error dependan menos del hardware físico a través del proceso conocido como migración , en el que una máquina virtual en ejecución se mueve de un host físico a otro, con poca o ninguna interrupción en el servicio.

La tecnología de conmutación por error y recuperación también se utiliza con regularidad en la base de datos de Microsoft SQL Server, en la que la instancia de clúster de conmutación por error (FCI) de SQL Server se instala o configura sobre el clúster de conmutación por error de Windows Server (WSFC). Los grupos y recursos de SQL Server que se ejecutan en WSFC se pueden conmutar por error manualmente al segundo nodo para cualquier mantenimiento planificado en el primer nodo O conmutar por error automáticamente al segundo nodo en caso de que surja algún problema en el primer nodo. De la misma manera, se puede realizar una operación de recuperación por error en el primer nodo una vez que se resuelva el problema o se realice el mantenimiento en él.

Historia

El término "failover", aunque probablemente ya lo utilizaban los ingenieros mucho antes, se puede encontrar en un informe desclasificado de la NASA de 1962. ^[2] El término "switchover" se puede encontrar en la década de 1950 ^[3] cuando se describen los "sistemas de reserva "calientes" y "fríos"", con el significado actual de conmutación inmediata a un sistema en funcionamiento (caliente) y conmutación retrasada a un sistema que necesita iniciarse (frío). En las actas de una conferencia de 1957 se describen sistemas informáticos con conmutación de emergencia (es decir, conmutación por error) y conmutación por error programada (para mantenimiento). ^[4]

Véase también

Referencias

^ Para la conmutación por error a nivel de aplicación, consulte, por ejemplo, Jayaswal, Kailash (2005). "27". Administrar centros de datos: servidores, almacenamiento y voz sobre IP. Wiley-India. pág. 364. ISBN 978-81-265-0688-0. Consultado el 7 de agosto de 2009. Aunque es imposible evitar la pérdida de algunos datos durante una conmutación por error de una aplicación, existen ciertos pasos que pueden [...] minimizarla..
^ Informe de memorando posterior al lanzamiento de la NASA para Mercury-Atlas, 15 de junio de 1962.
^ Ingeniero de Petróleo para la Gerencia - Volumen 31 - Página D-40
^ Actas de la Conferencia Conjunta de Computación Occidental, Macmillan 1957