stringtranslate.com

Asesinato de chip

Chipkill es la marca registrada de IBM para una forma de tecnología de memoria de computadora de verificación y corrección avanzada de errores (ECC) que protege los sistemas de memoria de fallas de un solo chip de memoria y errores de múltiples bits de cualquier parte de un solo chip de memoria. [1] [2] Un esquema simple para realizar esta función dispersa los bits de una palabra ECC de código Hamming en múltiples chips de memoria, de modo que la falla de cualquier chip de memoria individual afectará solo a un bit ECC por palabra. Esto permite reconstruir el contenido de la memoria a pesar de la falla completa de un chip. Las implementaciones típicas utilizan códigos más avanzados, como un código BCH , que puede corregir múltiples bits con menos sobrecarga.

Chipkill se combina frecuentemente con el control dinámico de bits, de modo que si un chip falla (o ha superado un umbral de errores de bits), se utiliza otro chip de memoria de repuesto para reemplazar el chip averiado. El concepto es similar al de RAID , que protege contra fallas de disco, excepto que ahora el concepto se aplica a chips de memoria individuales. La tecnología fue desarrollada por IBM Corporation a principios y mediados de la década de 1990. Una característica importante de RAS , la tecnología Chipkill se implementa principalmente en SSD , mainframes y servidores de rango medio.

Un sistema equivalente de Sun Microsystems se llama Extended ECC , mientras que los sistemas equivalentes de HP se llaman Advanced ECC [3] y Chipspare . Un sistema similar de Intel, llamado memoria Lockstep , proporciona la funcionalidad de corrección de datos de doble dispositivo (DDDC). [4] Sistemas similares de Micron , llamado matriz redundante de NAND independiente (RAIN), y de SandForce , llamado nivel RAISE 2 , protegen los datos almacenados en SSD de cualquier falla de un solo chip flash NAND. [5] [6]

Un artículo de 2009 que utilizó datos de los centros de datos de Google [7] proporcionó evidencia que demostraba que en los sistemas de Google observados, los errores de DRAM eran recurrentes en la misma ubicación y que el 8% de los DIMM se veían afectados cada año. Específicamente, "en más del 85% de los casos, un error corregible es seguido por al menos un error corregible más en el mismo mes". Los DIMM con corrección de errores Chipkill mostraron una fracción menor de DIMM que informaron errores incorregibles en comparación con los DIMM con códigos de corrección de errores que solo pueden corregir errores de un solo bit. Un artículo de 2010 de la Universidad de Rochester también mostró que la memoria Chipkill resultó en sustancialmente menos errores de memoria, utilizando tanto trazas de memoria del mundo real como simulaciones. [8]

Véase también

Referencias

  1. ^ Timothy J. Dell (19 de noviembre de 1997). "Un informe técnico sobre los beneficios de Chipkill-Correct ECC para la memoria principal de servidores de PC" (PDF) . IBM . Archivado desde el original (PDF) el 23 de septiembre de 2015 . Consultado el 2 de febrero de 2015 .
  2. ^ "Mejora de la fiabilidad del servidor IBM Netfinity: memoria IBM Chipkill" (PDF) . IBM . 2000. Archivado desde el original (PDF) el 23 de septiembre de 2015 . Consultado el 2 de febrero de 2015 .
  3. ^ "Guía de mejores prácticas para servidores ProLiant con procesadores Intel Xeon de la serie 5500. Documento técnico de ingeniería, 1.ª edición" (PDF) . HP . Mayo de 2009. pág. 8. Consultado el 9 de septiembre de 2014 .
  4. ^ Thomas Willhalm (11 de julio de 2014). «Canal independiente frente a modo Lockstep: cómo acelerar o reducir la velocidad de la memoria». Intel . Consultado el 2 de febrero de 2015 .
  5. ^ Lee Hutchinson. "Revolución del estado sólido: análisis en profundidad sobre cómo funcionan realmente los SSD". 2012.
  6. ^ Eric Slack. "Cómo fabricar unidades SSD fiables: memoria Flash NAND fiable".
  7. ^ Schroeder, Bianca ; Pinheiro, Eduardo; Weber, Wolf-Dietrich (2009). "Errores de DRAM en la naturaleza: un estudio de campo a gran escala" (PDF) . Actas de la undécima conferencia conjunta internacional sobre medición y modelado de sistemas informáticos . SIGMETRICS '09. ACM. págs. 193–204. doi :10.1145/1555349.1555372. ISBN 9781605585116. S2CID  6115552 . Consultado el 7 de septiembre de 2011 .
  8. ^ Li, Xin; Huang, Michael; Shen, Kai; Lingkun, Chu (2010). "Una evaluación realista de los errores de hardware de memoria y la susceptibilidad del sistema de software" (PDF) . Usenix Annual Tech Conference 2010.

Enlaces externos