stringtranslate.com

Clúster de alta disponibilidad

Los clústeres de alta disponibilidad (también conocidos como clústeres HA , clústeres de conmutación por error ) son grupos de computadoras que admiten aplicaciones de servidor que se pueden utilizar de manera confiable con una cantidad mínima de tiempo de inactividad . Funcionan mediante el uso de software de alta disponibilidad para aprovechar las computadoras redundantes en grupos o clústeres que brindan un servicio continuo cuando fallan los componentes del sistema. Sin la agrupación en clústeres, si un servidor que ejecuta una aplicación en particular falla, la aplicación no estará disponible hasta que se repare el servidor dañado. La agrupación en clústeres de alta disponibilidad soluciona esta situación detectando fallas de hardware/software y reiniciando inmediatamente la aplicación en otro sistema sin requerir intervención administrativa, un proceso conocido como conmutación por error . Como parte de este proceso, el software de agrupación en clústeres puede configurar el nodo antes de iniciar la aplicación en él. Por ejemplo, es posible que sea necesario importar y montar los sistemas de archivos adecuados, configurar el hardware de red y también ejecutar algunas aplicaciones de soporte. [1]

Los clústeres HA se utilizan a menudo para bases de datos críticas , intercambio de archivos en una red, aplicaciones comerciales y servicios al cliente, como sitios web de comercio electrónico . Las implementaciones de clústeres HA intentan incorporar redundancia en un clúster para eliminar puntos únicos de falla, incluidas múltiples conexiones de red y almacenamiento de datos que se conecta de manera redundante a través de redes de área de almacenamiento .

Los clústeres de alta disponibilidad suelen utilizar una conexión de red privada de latidos que se utiliza para supervisar la salud y el estado de cada nodo del clúster. Una condición sutil pero grave que todo software de agrupación en clústeres debe poder controlar es la división del cerebro , que se produce cuando todos los enlaces privados se caen simultáneamente, pero los nodos del clúster siguen en funcionamiento. Si eso sucede, cada nodo del clúster puede decidir por error que todos los demás nodos se han caído e intentar iniciar servicios que otros nodos siguen en funcionamiento. Tener instancias duplicadas de servicios puede provocar la corrupción de datos en el almacenamiento compartido.

Los clústeres de alta disponibilidad también suelen utilizar almacenamiento de testigo de quórum (local o en la nube) para evitar esta situación. Un dispositivo testigo no se puede compartir entre dos mitades de un clúster dividido, por lo que, en caso de que todos los miembros del clúster no puedan comunicarse entre sí (por ejemplo, falla de latido), si un miembro no puede acceder al testigo, este no puede activarse.

Requisitos de diseño de aplicaciones

No todas las aplicaciones pueden ejecutarse en un entorno de clúster de alta disponibilidad, y las decisiones de diseño necesarias deben tomarse en las primeras fases de diseño del software. Para poder ejecutarse en un entorno de clúster de alta disponibilidad, una aplicación debe satisfacer al menos los siguientes requisitos técnicos, los dos últimos de los cuales son fundamentales para su funcionamiento confiable en un clúster y son los más difíciles de satisfacer por completo:

Configuraciones de nodos

Diagrama de red de clúster de alta disponibilidad de 2 nodos

El tamaño más común para un clúster HA es un clúster de dos nodos, ya que es el mínimo necesario para proporcionar redundancia, pero muchos clústeres constan de muchos más nodos, a veces docenas de nodos.

El diagrama adjunto es una buena descripción general de un clúster HA clásico, con la salvedad de que no menciona ninguna funcionalidad de quórum/testigo (ver arriba).

Estas configuraciones a veces se pueden clasificar en uno de los siguientes modelos:

Los términos host lógico o host lógico de clúster se utilizan para describir la dirección de red que se utiliza para acceder a los servicios proporcionados por el clúster. Esta identidad de host lógico no está vinculada a un solo nodo del clúster. En realidad, es una dirección de red o un nombre de host que está vinculado con los servicios proporcionados por el clúster. Si un nodo del clúster con una base de datos en ejecución deja de funcionar, la base de datos se reiniciará en otro nodo del clúster.

Fiabilidad del nodo

Los clústeres de alta disponibilidad suelen utilizar todas las técnicas disponibles para que los sistemas individuales y la infraestructura compartida sean lo más confiables posible. Entre ellas se incluyen las siguientes:

Estas características ayudan a minimizar las posibilidades de que se requiera una conmutación por error de agrupación entre sistemas. En este tipo de conmutación por error, el servicio proporcionado no está disponible durante al menos un breve período de tiempo, por lo que es preferible tomar medidas para evitar la conmutación por error.

Estrategias de conmutación por error

Los sistemas que gestionan fallos en la informática distribuida tienen distintas estrategias para solucionarlos. Por ejemplo, la API Hector de Apache Cassandra define tres formas de configurar una conmutación por error:

Véase también

Referencias

  1. ^ van Vugt, Sander (2014), Clústeres de alta disponibilidad Pro Linux , p.3, Apress, ISBN  978-1484200803
  2. ^ Bornschlegl, Susanne (2012). Railway Computer 3.0: An Innovative Board Design Could Revolutionize The Market (pdf) . MEN Mikro Elektronik . Consultado el 21 de septiembre de 2015 .

Lectura adicional