stringtranslate.com

Lockstep (informática)

Los sistemas Lockstep son sistemas informáticos tolerantes a fallos que ejecutan el mismo conjunto de operaciones al mismo tiempo en paralelo . [1] La redundancia (duplicación) permite la detección y corrección de errores: la salida de las operaciones Lockstep se puede comparar para determinar si ha habido un fallo si hay al menos dos sistemas ( redundancia modular dual DMR), y el error se puede corregir automáticamente si hay al menos tres sistemas ( redundancia modular triple TMR), mediante votación mayoritaria. El término " lockstep " se origina del uso del ejército, donde se refiere a caminar sincronizado, en el que los manifestantes caminan tan cerca como sea físicamente práctico.

Para funcionar en sincronía, cada sistema está configurado para progresar de un estado bien definido al siguiente estado bien definido. Cuando un nuevo conjunto de entradas llega al sistema, este las procesa, genera nuevas salidas y actualiza su estado. Se considera que este conjunto de cambios (nuevas entradas, nuevas salidas, nuevo estado) define ese paso y debe tratarse como una transacción atómica; en otras palabras, o bien ocurre todo o bien no ocurre nada, pero no algo intermedio. A veces se establece un desfase temporal (retardo) entre sistemas, lo que aumenta la probabilidad de detección de errores inducidos por influencias externas (por ejemplo, picos de tensión , radiación ionizante o ingeniería inversa in situ ).

Memoria sincronizada

Algunos proveedores, incluido Intel, utilizan el término memoria de paso cerrado para describir un diseño de memoria multicanal en el que las líneas de caché se distribuyen entre dos canales de memoria, de modo que la mitad de la línea de caché se almacena en un DIMM en el primer canal, mientras que la segunda mitad va a un DIMM en el segundo canal. Al combinar las capacidades de corrección de error único y detección de error doble (SECDED) de dos DIMM habilitados para ECC en un diseño de paso cerrado, su naturaleza de corrección de datos de dispositivo único (SDDC) se puede extender a corrección de datos de dispositivo doble (DDDC), lo que proporciona protección contra el fallo de cualquier chip de memoria individual. [2] [3] [4] [5]

Las desventajas del diseño de memoria escalonada de Intel son la reducción de la cantidad de RAM efectivamente utilizable (en el caso de un diseño de memoria de triple canal, la cantidad máxima de memoria se reduce a un tercio del máximo físicamente disponible) y un rendimiento reducido del subsistema de memoria. [2] [4]

Redundancia modular dual

Cuando los sistemas informáticos están duplicados, pero ambos procesan activamente cada paso, es difícil arbitrar entre ellos si sus resultados difieren al final de un paso. Por este motivo, es una práctica común ejecutar sistemas DMR como configuraciones "maestro/esclavo" con el esclavo como "reserva activa" del maestro, en lugar de hacerlo en sincronía. Dado que no hay ninguna ventaja en que la unidad esclava procese activamente cada paso, un método común de trabajo es que el maestro copie su estado al final del procesamiento de cada paso al esclavo. Si el maestro falla en algún momento, el esclavo está listo para continuar desde el paso anterior que se sabe que es correcto.

Si bien tanto el enfoque de sincronización como el de DMR (cuando se combinan con algún medio para detectar errores en el maestro) pueden brindar redundancia contra fallas de hardware en el maestro, no protegen contra errores de software. Si el maestro falla debido a un error de software, es muy probable que el esclavo, al intentar repetir la ejecución del paso que falló, simplemente repita el mismo error y falle de la misma manera, un ejemplo de falla de modo común .

Triple redundancia modular

Cuando los sistemas de computación están triplicados, es posible tratarlos como sistemas de "votación". Si el resultado de una unidad no coincide con el de las otras dos, se detecta que ha fallado. El resultado coincidente de las otras dos se trata como correcto.

Véase también

Referencias

  1. ^ Stefan Poledna (1996). Sistemas en tiempo real tolerantes a fallos: el problema del determinismo de réplicas. Springer. pág. 80. ISBN 9780585295800. Recuperado el 8 de septiembre de 2014 .
  2. ^ ab Sree Syamalakumari (18 de febrero de 2014). "Descripción técnica de la familia de procesadores Intel Xeon E7 V2, sección 3.1: búfer de memoria escalable Intel C104/102". Intel . Consultado el 9 de septiembre de 2014 .
  3. ^ Thomas Willhalm (11 de julio de 2014). «Canal independiente frente a modo Lockstep: cómo acelerar o reducir la velocidad de la memoria». Intel . Consultado el 9 de septiembre de 2014 .
  4. ^ ab "Guía de mejores prácticas para servidores ProLiant con la serie de procesadores Intel Xeon 5500, documento técnico de ingeniería, 1.ª edición" (PDF) . HP . Mayo de 2009. págs. 8-9 . Consultado el 9 de septiembre de 2014 .
  5. ^ "Hoja de datos del búfer de memoria escalable Intel C102/C104, sección 1.3.1.2.2: modo de sincronización de subcanales 1:1" (PDF) . Intel . Febrero de 2014. p. 9 . Consultado el 25 de enero de 2015 .

Enlaces externos