Conmutación por error

La conmutación por error consiste en cambiar a un servidor , sistema , componente de hardware o red redundante o en espera ante una falla o terminación anormal de la aplicación , ^[1] servidor, sistema, componente de hardware o red previamente activos en una red informática . La conmutación por error y la conmutación son esencialmente la misma operación, excepto que la conmutación por error es automática y normalmente funciona sin previo aviso, mientras que la conmutación requiere intervención humana.

Los diseñadores de sistemas suelen proporcionar capacidad de conmutación por error en servidores, sistemas o redes que requieren disponibilidad casi continua y un alto grado de confiabilidad .

A nivel de servidor, la automatización de conmutación por error generalmente utiliza un sistema de " latido " que conecta dos servidores, ya sea mediante un cable separado (por ejemplo, puertos/cable serie RS-232 ) o una conexión de red. En el diseño más común, mientras continúe un "pulso" o "latido" regular entre el servidor principal y el segundo servidor, el segundo servidor no pondrá sus sistemas en línea; sin embargo, algunos sistemas utilizan activamente todos los servidores y pueden transferir su trabajo a los servidores restantes después de una falla. También puede haber un tercer servidor de "repuestos" que tenga componentes de repuesto en ejecución para conmutación "en caliente" para evitar el tiempo de inactividad. El segundo servidor asume el trabajo del primero en cuanto detecta una alteración en el "latido" de la primera máquina. Algunos sistemas tienen la capacidad de enviar una notificación de conmutación por error.

Ciertos sistemas, intencionadamente, no realizan una conmutación por error de forma totalmente automática, sino que requieren intervención humana. Esta configuración "automatizada con aprobación manual" se ejecuta automáticamente una vez que un humano ha aprobado la conmutación por error.

La recuperación por recuperación es el proceso de restaurar un sistema, componente o servicio que previamente se encontraba en un estado de falla a su estado de funcionamiento original y hacer que el sistema en espera pase de funcionar a estar en espera.

El uso de software de virtualización ha permitido que las prácticas de conmutación por error dependan menos del hardware físico a través del proceso conocido como migración en el que una máquina virtual en funcionamiento se mueve de un host físico a otro, con poca o ninguna interrupción en el servicio.

La tecnología de conmutación por error y recuperación por recuperación también se utiliza regularmente en la base de datos de Microsoft SQL Server, en la que la instancia de clúster de conmutación por error (FCI) de SQL Server se instala/configura sobre el clúster de conmutación por error de Windows Server (WSFC). Los grupos y recursos de SQL Server que se ejecutan en WSFC se pueden conmutar por error manualmente al segundo nodo para cualquier mantenimiento planificado en el primer nodo O conmutar por error automáticamente al segundo nodo en caso de cualquier problema en el primer nodo. De la misma manera, se puede realizar una operación de conmutación por recuperación en el primer nodo una vez que se resuelva el problema o se realice el mantenimiento del mismo.

Historia

El término "conmutación por error", aunque probablemente lo hayan utilizado los ingenieros mucho antes, se puede encontrar en un informe desclasificado de la NASA de 1962. ^[2] El término "conmutación" se puede encontrar en la década de 1950 ^[3] al describir los 'sistemas de reserva "calientes" y "fríos", con el significado actual de conmutación inmediata a un sistema en funcionamiento (caliente) y conmutación retardada a un sistema que necesita arranque (en frío). Las actas de una conferencia de 1957 describen sistemas informáticos con conmutación de emergencia (es decir, conmutación por error) y conmutación por error programada (para mantenimiento). ^[4]

Ver también

Referencias

^ Para la conmutación por error a nivel de aplicación, consulte, por ejemplo, Jayaswal, Kailash (2005). "27". Administración de Centros de Datos: Servidores, Almacenamiento y Voz sobre IP. Wiley-India. pag. 364.ISBN 978-81-265-0688-0. Consultado el 7 de agosto de 2009 . Aunque es imposible evitar la pérdida de algunos datos durante una conmutación por error de una aplicación, ciertos pasos pueden [...] minimizarla..
^ Informe del memorando posterior al lanzamiento de la NASA para Mercury-Atlas, 15 de junio de 1962.
^ Ingeniero de Petróleo para Gestión - Volumen 31 - Página D-40
^ Actas de la Western Joint Computer Conference, Macmillan 1957