Chipkill es la marca registrada de IBM para una forma de tecnología de memoria de computadora de verificación y corrección avanzada de errores (ECC) que protege los sistemas de memoria de fallas de un solo chip de memoria y errores de múltiples bits de cualquier parte de un solo chip de memoria. [1] [2] Un esquema simple para realizar esta función dispersa los bits de una palabra ECC de código Hamming en múltiples chips de memoria, de modo que la falla de cualquier chip de memoria individual afectará solo a un bit ECC por palabra. Esto permite reconstruir el contenido de la memoria a pesar de la falla completa de un chip. Las implementaciones típicas utilizan códigos más avanzados, como un código BCH , que puede corregir múltiples bits con menos sobrecarga.
Chipkill se combina frecuentemente con el control dinámico de bits, de modo que si un chip falla (o ha superado un umbral de errores de bits), se utiliza otro chip de memoria de repuesto para reemplazar el chip averiado. El concepto es similar al de RAID , que protege contra fallas de disco, excepto que ahora el concepto se aplica a chips de memoria individuales. La tecnología fue desarrollada por IBM Corporation a principios y mediados de la década de 1990. Una característica importante de RAS , la tecnología Chipkill se implementa principalmente en SSD , mainframes y servidores de rango medio.
Un sistema equivalente de Sun Microsystems se llama Extended ECC , mientras que los sistemas equivalentes de HP se llaman Advanced ECC [3] y Chipspare . Un sistema similar de Intel, llamado memoria Lockstep , proporciona la funcionalidad de corrección de datos de doble dispositivo (DDDC). [4] Sistemas similares de Micron , llamado matriz redundante de NAND independiente (RAIN), y de SandForce , llamado nivel RAISE 2 , protegen los datos almacenados en SSD de cualquier falla de un solo chip flash NAND. [5] [6]
Un artículo de 2009 que utilizó datos de los centros de datos de Google [7] proporcionó evidencia que demostraba que en los sistemas de Google observados, los errores de DRAM eran recurrentes en la misma ubicación y que el 8% de los DIMM se veían afectados cada año. Específicamente, "en más del 85% de los casos, un error corregible es seguido por al menos un error corregible más en el mismo mes". Los DIMM con corrección de errores Chipkill mostraron una fracción menor de DIMM que informaron errores incorregibles en comparación con los DIMM con códigos de corrección de errores que solo pueden corregir errores de un solo bit. Un artículo de 2010 de la Universidad de Rochester también mostró que la memoria Chipkill resultó en sustancialmente menos errores de memoria, utilizando tanto trazas de memoria del mundo real como simulaciones. [8]