Lockstep (informática)

Los sistemas Lockstep son sistemas informáticos tolerantes a fallos que ejecutan el mismo conjunto de operaciones al mismo tiempo y en paralelo . ^[1] La redundancia (duplicación) permite la detección y corrección de errores: la salida de las operaciones de bloqueo se puede comparar para determinar si ha habido una falla si hay al menos dos sistemas ( redundancia modular dual ), y el error se puede corregir automáticamente. Se corrige si existen al menos tres sistemas ( triple redundancia modular ), mediante votación mayoritaria. El término " lockstep " se origina en el uso militar, donde se refiere a la marcha sincronizada, en la que los participantes caminan tan juntos como sea físicamente posible.

Para funcionar al unísono, cada sistema está configurado para progresar de un estado bien definido al siguiente estado bien definido. Cuando un nuevo conjunto de entradas llega al sistema, este las procesa, genera nuevas salidas y actualiza su estado. Se considera que este conjunto de cambios (nuevas entradas, nuevas salidas, nuevo estado) define ese paso y debe tratarse como una transacción atómica; en otras palabras, o todo sucede o nada de esto sucede, pero no algo intermedio. A veces se establece un cambio de tiempo (retraso) entre sistemas, lo que aumenta la probabilidad de detección de errores inducidos por influencias externas (por ejemplo, picos de tensión , radiaciones ionizantes o ingeniería inversa in situ ).

Memoria sincronizada

Algunos proveedores, incluido Intel, utilizan el término memoria bloqueada para describir un diseño de memoria multicanal en el que las líneas de caché se distribuyen entre dos canales de memoria, de modo que la mitad de la línea de caché se almacena en un DIMM en el primer canal, mientras que la segunda la mitad va a un DIMM en el segundo canal. Al combinar las capacidades de corrección de errores simple y detección de errores dobles (SECDED) de dos DIMM habilitados para ECC en un diseño sincronizado, su naturaleza de corrección de datos de un solo dispositivo (SDDC) se puede extender a una corrección de datos de doble dispositivo (DDDC), brindando protección. contra el fallo de cualquier chip de memoria. ^[2]^[3]^[4]^[5]

Las desventajas del diseño de memoria de Intel son la reducción de la cantidad de RAM efectivamente utilizable (en el caso de un diseño de memoria de triple canal, la cantidad máxima de memoria se reduce a un tercio del máximo físicamente disponible) y el rendimiento reducido del subsistema de memoria. ^[2]^[4]

Redundancia modular dual

Cuando los sistemas informáticos están duplicados, pero ambos procesan activamente cada paso, es difícil arbitrar entre ellos si sus resultados difieren al final de un paso. Por esta razón, es una práctica común ejecutar sistemas DMR como configuraciones "maestro/esclavo" con el esclavo como "reserva activa" del maestro, en lugar de hacerlo al unísono. Dado que no existe ninguna ventaja en que la unidad esclava procese activamente cada paso, un método común de trabajo es que el maestro copie su estado al final del procesamiento de cada paso al esclavo. Si el maestro falla en algún momento, el esclavo está listo para continuar desde el paso correcto anterior conocido.

Si bien el método lockstep o DMR (cuando se combina con algunos medios para detectar errores en el maestro) puede proporcionar redundancia contra fallas de hardware en el maestro, no protegen contra errores de software. Si el maestro falla debido a un error de software, es muy probable que el esclavo, al intentar repetir la ejecución del paso que falló, simplemente repita el mismo error y falle de la misma manera, un ejemplo de falla de modo común. .

Triple redundancia modular

Cuando los sistemas informáticos se triplican, resulta posible tratarlos como sistemas de "votación". Si la salida de una unidad no está de acuerdo con la de las otras dos, se detecta que ha fallado. La salida coincidente de los otros dos se trata como correcta.

Ver también

Referencias

^ Stefan Poledna (1996). Sistemas en tiempo real tolerantes a fallas: el problema del determinismo de réplica. pag. 80.ISBN 9780585295800. Consultado el 8 de septiembre de 2014 .
^ ab Sree Syamalakumari (18 de febrero de 2014). "Descripción técnica de la familia de procesadores Intel Xeon E7 V2, sección 3.1: Búfer de memoria escalable Intel C104/102". Intel . Consultado el 9 de septiembre de 2014 .
^ Thomas Willhalm (11 de julio de 2014). "Canal independiente frente a modo sincronizado: impulse su memoria de forma más rápida o segura". Intel . Consultado el 9 de septiembre de 2014 .
^ ab "Pautas de prácticas recomendadas para servidores ProLiant con el documento técnico de ingeniería de la serie de procesadores Intel Xeon 5500, primera edición" (PDF) . HP . Mayo de 2009. págs. 8–9 . Consultado el 9 de septiembre de 2014 .
^ "Hoja de datos del búfer de memoria escalable Intel C102/C104, sección 1.3.1.2.2: modo de bloqueo de subcanal 1:1" (PDF) . Intel . Febrero de 2014. p. 9 . Consultado el 25 de enero de 2015 .

enlaces externos

Habilitación de funciones de confiabilidad, disponibilidad y capacidad de servicio de la memoria en servidores Dell PowerEdge, 2005
Arquitectura de memoria correcta Chipkill, agosto de 2000, por David Locklear