stringtranslate.com

Esgrima (informática)

Un clúster NEC Nehalem

El cercado es el proceso de aislar un nodo de un clúster de computadoras o proteger recursos compartidos cuando un nodo parece estar funcionando mal. [1] [2]

A medida que aumenta la cantidad de nodos en un clúster, también aumenta la probabilidad de que uno de ellos falle en algún momento. El nodo que falló puede tener control sobre recursos compartidos que deben recuperarse y, si el nodo actúa de manera errática, el resto del sistema debe protegerse. Por lo tanto, el cercado puede deshabilitar el nodo o prohibir el acceso al almacenamiento compartido, lo que garantiza la integridad de los datos.

Conceptos básicos

Una valla de nodo (o valla de E/S) es una "valla" virtual que separa los nodos que no deben tener acceso a un recurso compartido de ese recurso. Puede separar un nodo activo de su copia de seguridad. Si la copia de seguridad cruza la valla y, por ejemplo, intenta controlar la misma matriz de discos que el principal, puede producirse un riesgo para los datos. Se han diseñado mecanismos como STONITH para evitar esta situación.

Aislar un nodo significa garantizar que ya no se puedan realizar operaciones de E/S desde él. El aislamiento se realiza normalmente de forma automática, mediante la infraestructura del clúster, como los sistemas de archivos de discos compartidos , para proteger los procesos de otros nodos activos que modifican los recursos durante las fallas de los nodos. Los mecanismos para respaldar el aislamiento, como el mecanismo de reserva/liberación de SCSI, existen desde al menos 1985. [3]

Se requiere el uso de un cercado porque es imposible distinguir entre una falla real y un bloqueo temporal . Si el nodo que funciona mal está realmente inactivo, entonces no puede causar ningún daño, por lo que teóricamente no se requeriría ninguna acción (simplemente se podría volver a incorporar al clúster con el proceso de unión habitual). Sin embargo, debido a que existe la posibilidad de que un nodo que funciona mal considere que el resto del clúster es el que funciona mal, podría producirse una condición de cerebro dividido y causar corrupción de datos . En cambio, el sistema tiene que asumir el peor escenario y siempre usar un cercado en caso de problemas.

Enfoques de la esgrima

Hay dos clases de métodos de cercado: uno que deshabilita un nodo en sí mismo y el otro impide el acceso a recursos como discos compartidos. [1] En algunos casos, se supone que si un nodo no responde después de un umbral de tiempo determinado, se puede suponer que no está operativo, aunque existen contraejemplos, por ejemplo, un largo proceso de paginación. [1]

El método STONITH significa "Shoot The Other Node In The Head" (Disparar al otro nodo en la cabeza), lo que significa que el nodo sospechoso se desactiva o se apaga. Por ejemplo, la protección de energía utiliza un controlador de energía para apagar un nodo inoperante. El nodo puede luego reiniciarse y unirse al clúster más tarde. Sin embargo, existen enfoques en los que se informa a un operador de la necesidad de un reinicio manual del nodo. [1]

El enfoque de protección de recursos impide el acceso a los recursos sin apagar el nodo. Esto puede incluir lo siguiente:

Cuando el clúster tiene solo dos nodos, se puede utilizar el método de reserva/liberación como un STONITH de dos nodos, por el cual, al detectar que el nodo B ha "fallado", el nodo A emitirá la reserva y obtendrá todos los recursos (por ejemplo, el disco compartido) para sí mismo. El nodo B se deshabilitará si intenta realizar operaciones de E/S (en caso de que se haya bloqueado temporalmente). En el nodo B, la falla de E/S activa un código para matar el nodo.

La reserva persistente es básicamente una coincidencia con una clave, de modo que el nodo que tiene la clave correcta puede realizar operaciones de E/S; de lo contrario, su operación de E/S falla. Por lo tanto, es suficiente cambiar la clave en caso de falla para garantizar el comportamiento correcto durante la falla. Sin embargo, puede que no siempre sea posible cambiar la clave en el nodo que falló.

STONITH es un método más fácil y sencillo de implementar en múltiples clústeres, mientras que los diversos enfoques para el cercado de recursos requieren enfoques de implementación específicos para cada implementación de clúster. [1]

Véase también

Referencias

  1. ^ abcde "Alan Robertson: cercado de recursos con STONITH" (PDF) . Centro de investigación de IBM Linux . Archivado desde el original (PDF) el 5 de enero de 2021.
  2. ^ Entorno de Sun Cluster: Sun Cluster 2.2 por Enrique Vargas, Joseph Bianco, David Deeths 2001 ISBN página 58
  3. ^ "Interfaz de estándares para computadoras pequeñas". ANSI X3.131-1986 .

Enlaces externos