stringtranslate.com

chipkill

Chipkill es la marca registrada de IBM para una forma de tecnología avanzada de comprobación y corrección de errores (ECC) de memoria informática que protege los sistemas de memoria informática de cualquier fallo de un solo chip de memoria, así como de errores de varios bits de cualquier parte de un único chip de memoria. [1] [2] Un esquema simple para realizar esta función dispersa los bits de una palabra ECC del código Hamming en múltiples chips de memoria, de modo que la falla de cualquier chip de memoria afectará solo un bit ECC por palabra. Esto permite reconstruir el contenido de la memoria a pesar del fallo total de un chip. Las implementaciones típicas utilizan códigos más avanzados, como un código BCH , que puede corregir varios bits con menos gastos generales.

Chipkill se combina frecuentemente con dirección dinámica de bits, de modo que si un chip falla (o ha excedido un umbral de errores de bits), se utiliza otro chip de memoria de repuesto para reemplazar el chip fallido. El concepto es similar al de RAID , que protege contra fallas del disco, excepto que ahora el concepto se aplica a chips de memoria individuales. La tecnología fue desarrollada por IBM Corporation a principios y mediados de los años 1990. Una característica importante de RAS , la tecnología Chipkill se implementa principalmente en SSD , mainframes y servidores de rango medio.

Un sistema equivalente de Sun Microsystems se llama Extended ECC , mientras que los sistemas equivalentes de HP se llaman Advanced ECC [3] y Chipspare . Un sistema similar de Intel, llamado memoria Lockstep , proporciona funcionalidad de corrección de datos de doble dispositivo (DDDC). [4] Sistemas similares de Micron , llamado matriz redundante de NAND independiente (RAIN), y de SandForce , llamado RAISE nivel 2 , protegen los datos almacenados en SSD de cualquier chip flash NAND que se estropee. [5] [6]

Un artículo de 2009 que utilizó datos de los centros de datos de Google [7] proporcionó evidencia que demuestra que en los sistemas de Google observados, los errores de DRAM eran recurrentes en la misma ubicación y que el 8% de los DIMM se veían afectados cada año. En concreto, “en más del 85% de los casos a un error corregible le sigue al menos otro error corregible más en el mismo mes”. Los DIMM con corrección de errores de chipkill mostraron una fracción más baja de DIMM que informaban errores incorregibles en comparación con los DIMM con códigos de corrección de errores que solo pueden corregir errores de un solo bit. Un artículo de 2010 de la Universidad de Rochester también demostró que la memoria Chipkill generaba errores de memoria sustancialmente menores, utilizando tanto rastros de memoria del mundo real como simulaciones. [8]

Ver también

Referencias

  1. ^ Timothy J. Dell (19 de noviembre de 1997). "Un documento técnico sobre los beneficios de Chipkill-Correct ECC para la memoria principal del servidor de PC" (PDF) . IBM . Archivado desde el original (PDF) el 23 de septiembre de 2015 . Consultado el 2 de febrero de 2015 .
  2. ^ "Mejora de la confiabilidad del servidor IBM Netfinity: memoria IBM Chipkill" (PDF) . IBM . 2000. Archivado desde el original (PDF) el 23 de septiembre de 2015 . Consultado el 2 de febrero de 2015 .
  3. ^ "Pautas de prácticas recomendadas para servidores ProLiant con el documento técnico de ingeniería de la serie de procesadores Intel Xeon 5500, primera edición" (PDF) . HP . Mayo de 2009. p. 8 . Consultado el 9 de septiembre de 2014 .
  4. ^ Thomas Willhalm (11 de julio de 2014). "Canal independiente frente a modo sincronizado: impulse su memoria de forma más rápida o segura". Intel . Consultado el 2 de febrero de 2015 .
  5. ^ Lee Hutchinson. "Revolución del estado sólido: en profundidad cómo funcionan realmente los SSD". 2012.
  6. ^ Eric flojo. "Cómo crear SSD confiables: flash NAND confiable".
  7. ^ Schroeder, Bianca ; Pinheiro, Eduardo; Weber, Wolf-Dietrich (2009). "Errores de DRAM en la naturaleza: un estudio de campo a gran escala" (PDF) . Actas de la undécima conferencia internacional conjunta sobre medición y modelado de sistemas informáticos . SIGMETRÍAS '09. ACM. págs. 193-204. doi :10.1145/1555349.1555372. ISBN 9781605585116. S2CID  6115552 . Consultado el 7 de septiembre de 2011 .
  8. ^ Li, Xin; Huang, Michael; Shen, Kai; Lingkun, Chu (2010). ""Una evaluación realista de los errores de hardware de la memoria y la susceptibilidad del sistema de software". Conferencia tecnológica anual de Usenix 2010" (PDF) .

enlaces externos