stringtranslate.com

Clúster de alta disponibilidad

Los clústeres de alta disponibilidad (también conocidos como clústeres HA , clústeres de conmutación por error ) son grupos de computadoras que admiten aplicaciones de servidor que se pueden utilizar de manera confiable con una cantidad mínima de tiempo de inactividad . Operan mediante el uso de software de alta disponibilidad para aprovechar computadoras redundantes en grupos o clústeres que brindan un servicio continuo cuando fallan los componentes del sistema. Sin agrupación en clústeres, si un servidor que ejecuta una aplicación en particular falla, la aplicación no estará disponible hasta que se repare el servidor fallado. La agrupación en clústeres HA soluciona esta situación detectando fallas de hardware/software y reiniciando inmediatamente la aplicación en otro sistema sin requerir intervención administrativa, un proceso conocido como conmutación por error . Como parte de este proceso, el software de agrupación en clústeres puede configurar el nodo antes de iniciar la aplicación en él. Por ejemplo, es posible que sea necesario importar y montar sistemas de archivos adecuados, que sea necesario configurar el hardware de red y que también sea necesario ejecutar algunas aplicaciones de soporte. [1]

Los clústeres de HA se utilizan a menudo para bases de datos críticas , intercambio de archivos en una red, aplicaciones comerciales y servicios al cliente, como sitios web de comercio electrónico . Las implementaciones de clústeres HA intentan crear redundancia en un clúster para eliminar puntos únicos de falla, incluidas múltiples conexiones de red y almacenamiento de datos que se conecta de manera redundante a través de redes de área de almacenamiento .

Los clústeres de alta disponibilidad suelen utilizar una conexión de red privada de latido que se utiliza para supervisar la salud y el estado de cada nodo del clúster. Una condición sutil pero grave que todo software de clustering debe ser capaz de manejar es el cerebro dividido , que ocurre cuando todos los enlaces privados se caen simultáneamente, pero los nodos del cluster aún están ejecutándose. Si eso sucede, cada nodo del clúster puede decidir erróneamente que todos los demás nodos han caído e intentar iniciar servicios que otros nodos todavía están ejecutando. Tener instancias duplicadas de servicios puede dañar los datos en el almacenamiento compartido.

Los clústeres de alta disponibilidad también suelen utilizar almacenamiento de testigos de quórum (local o en la nube) para evitar este escenario. Un dispositivo testigo no se puede compartir entre dos mitades de un clúster dividido, por lo que en el caso de que todos los miembros del clúster no puedan comunicarse entre sí (por ejemplo, un latido fallido), si un miembro no puede acceder al testigo, este no puede activarse.

Requisitos de diseño de aplicaciones

No todas las aplicaciones pueden ejecutarse en un entorno de clúster de alta disponibilidad y las decisiones de diseño necesarias deben tomarse temprano en la fase de diseño del software. Para ejecutarse en un entorno de clúster de alta disponibilidad, una aplicación debe satisfacer al menos los siguientes requisitos técnicos, los dos últimos de los cuales son críticos para su funcionamiento confiable en un clúster y son los más difíciles de satisfacer por completo:

Configuraciones de nodos

Diagrama de red del clúster de alta disponibilidad de 2 nodos

El tamaño más común para un clúster HA es un clúster de dos nodos, ya que es el mínimo requerido para proporcionar redundancia, pero muchos clústeres constan de muchos más, a veces docenas de nodos.

El diagrama adjunto es una buena descripción general de un clúster HA clásico, con la salvedad de que no menciona la funcionalidad de quórum/testigo (ver arriba).

En ocasiones, estas configuraciones se pueden clasificar en uno de los siguientes modelos:

Los términos host lógico o host lógico de clúster se utilizan para describir la dirección de red que se utiliza para acceder a los servicios proporcionados por el clúster. Esta identidad de host lógica no está vinculada a un único nodo del clúster. En realidad, es una dirección de red/nombre de host que está vinculado con los servicios proporcionados por el clúster. Si un nodo del clúster con una base de datos en ejecución deja de funcionar, la base de datos se reiniciará en otro nodo del clúster.

Fiabilidad del nodo

Los clústeres de HA suelen utilizar todas las técnicas disponibles para hacer que los sistemas individuales y la infraestructura compartida sean lo más confiables posible. Éstas incluyen:

Estas características ayudan a minimizar las posibilidades de que sea necesaria la conmutación por error de agrupación entre sistemas. En dicha conmutación por error, el servicio proporcionado no está disponible al menos durante un tiempo, por lo que se prefieren medidas para evitar la conmutación por error.

Estrategias de conmutación por error

Los sistemas que manejan fallas en la computación distribuida tienen diferentes estrategias para solucionar una falla. Por ejemplo, la API Hector de Apache Cassandra define tres formas de configurar una conmutación por error:

Ver también

Referencias

  1. ^ van Vugt, Sander (2014), Clústeres de alta disponibilidad Pro Linux , p.3, Apress, ISBN  978-1484200803
  2. ^ Bornschlegl, Susanne (2012). Railway Computer 3.0: un diseño de placa innovador podría revolucionar el mercado (pdf) . HOMBRES Mikro Elektronik . Consultado el 21 de septiembre de 2015 .

Otras lecturas