error suave

En electrónica e informática , un error leve es un tipo de error en el que una señal o dato es incorrecto. Los errores pueden ser causados por un defecto, generalmente entendido como un error de diseño o construcción, o un componente roto. Un error leve también es una señal o dato incorrecto, pero no se supone que implique tal error o rotura. Después de observar un error leve, no hay implicación de que el sistema sea menos confiable que antes. Una de las causas de los errores leves son las alteraciones de un solo evento provocadas por los rayos cósmicos.

En el sistema de memoria de una computadora, un error leve cambia una instrucción en un programa o un valor de datos. Los errores leves generalmente se pueden solucionar arrancando la computadora en frío . Un error leve no dañará el hardware de un sistema; el único daño es a los datos que se están procesando.

Hay dos tipos de errores leves, errores leves a nivel de chip y errores leves a nivel de sistema . Los errores suaves a nivel de chip ocurren cuando las partículas golpean el chip, por ejemplo, cuando partículas secundarias de rayos cósmicos caen sobre la matriz de silicio . Si una partícula con ciertas propiedades golpea una celda de memoria , puede hacer que la celda cambie de estado a un valor diferente. La reacción atómica en este ejemplo es tan pequeña que no daña la estructura física del chip. Los errores leves a nivel del sistema ocurren cuando los datos que se procesan se ven afectados por un fenómeno de ruido, generalmente cuando los datos están en un bus de datos. La computadora intenta interpretar el ruido como un bit de datos, lo que puede causar errores al direccionar o procesar el código del programa. El bit de datos incorrectos puede incluso guardarse en la memoria y causar problemas más adelante.

Si se detecta, un error leve se puede corregir reescribiendo los datos correctos en lugar de los datos erróneos. Los sistemas altamente confiables utilizan la corrección de errores para corregir errores leves sobre la marcha. Sin embargo, en muchos sistemas puede resultar imposible determinar los datos correctos o incluso descubrir que existe un error. Además, antes de que se pueda realizar la corrección, es posible que el sistema se haya bloqueado , en cuyo caso el procedimiento de recuperación debe incluir un reinicio . Los errores leves implican cambios en los datos‍—‌los electrones en un circuito de almacenamiento, por ejemplo‍—‌pero no cambios en el circuito físico en sí, los átomos . Si se reescriben los datos, el circuito volverá a funcionar perfectamente. Los errores leves pueden ocurrir en líneas de transmisión, en lógica digital, circuitos analógicos, almacenamiento magnético y otros lugares, pero son más comúnmente conocidos en el almacenamiento de semiconductores.

Carga crítica

Que un circuito experimente o no un error leve depende de la energía de la partícula entrante, la geometría del impacto, la ubicación del impacto y el diseño del circuito lógico. Los circuitos lógicos con mayor capacitancia y voltajes lógicos más altos tienen menos probabilidades de sufrir un error. Esta combinación de capacitancia y voltaje se describe mediante el parámetro de carga crítica , Qcrit _, la perturbación mínima de la carga electrónica necesaria para cambiar el nivel lógico. Una Q _crítica más alta significa menos errores leves. Desafortunadamente, una Q _crítica más alta también significa una puerta lógica más lenta y una mayor disipación de potencia. La reducción del tamaño de las características del chip y del voltaje de suministro, deseable por muchas razones, disminuye el Q _crítico . Por tanto, la importancia de los errores leves aumenta a medida que avanza la tecnología de los chips.

En un circuito lógico, Qcrit _se define como la cantidad mínima de carga inducida requerida en un nodo del circuito para provocar que un pulso de voltaje se propague desde ese nodo a la salida y tenga una duración y magnitud suficientes para bloquearse de manera confiable. Dado que un circuito lógico contiene muchos nodos que pueden ser golpeados, y cada nodo puede tener una capacitancia y una distancia únicas desde la salida, Q _crit generalmente se caracteriza por nodo.

Causas de errores suaves.

Partículas alfa procedentes de la descomposición del paquete.

Los errores leves se hicieron ampliamente conocidos con la introducción de la RAM dinámica en la década de 1970. En estos primeros dispositivos, los materiales de embalaje de chips cerámicos contenían pequeñas cantidades de contaminantes radiactivos . Se necesitan tasas de descomposición muy bajas para evitar errores blandos excesivos, y desde entonces las empresas de chips han sufrido ocasionalmente problemas de contaminación. Es extremadamente difícil mantener la pureza material necesaria. Para un rendimiento confiable de la mayoría de los circuitos es necesario controlar las tasas de emisión de partículas alfa para materiales de embalaje críticos a menos de un nivel de 0,001 cuentas por hora por cm ² (cph/cm ² ). A modo de comparación, la tasa de recuento de la suela de un zapato típico está entre 0,1 y 10 cph/cm ² .

La desintegración radiactiva del paquete suele provocar un error leve por emisión de partículas alfa . La partícula alfa cargada positivamente viaja a través del semiconductor y altera la distribución de electrones allí. Si la perturbación es lo suficientemente grande, una señal digital puede cambiar de 0 a 1 o viceversa. En la lógica combinacional , este efecto es transitorio, quizás dura una fracción de nanosegundo, y esto ha llevado al desafío de que los errores leves en la lógica combinacional pasen mayoritariamente desapercibidos. En la lógica secuencial, como los pestillos y la RAM , incluso este trastorno transitorio puede almacenarse durante un tiempo indefinido para leerse más tarde. Por tanto, los diseñadores suelen ser mucho más conscientes del problema en los circuitos de almacenamiento.

Un artículo de Black Hat de 2011 analiza las implicaciones de seguridad en la vida real de tales cambios de bits en el sistema de nombres de dominio de Internet . El documento encontró hasta 3434 solicitudes incorrectas por día debido a cambios de bit-flip para varios dominios comunes. Muchos de estos cambios de bits probablemente serían atribuibles a problemas de hardware, pero algunos podrían atribuirse a partículas alfa. ^[1] Estos errores de inversión de bits pueden ser aprovechados por actores maliciosos en forma de bitsquatting .

Isaac Asimov recibió una carta felicitándolo por una predicción accidental de errores de RAM de partículas alfa en una novela de los años cincuenta. ^[2]

Rayos cósmicos que crean neutrones y protones energéticos.

Una vez que la industria electrónica determinó cómo controlar los contaminantes de los paquetes, quedó claro que también intervenían otras causas. James F. Ziegler dirigió un programa de trabajo en IBM que culminó con la publicación de varios artículos (Ziegler y Lanford, 1979) que demostraban que los rayos cósmicos también podían provocar errores leves. De hecho, en los dispositivos modernos, los rayos cósmicos pueden ser la causa predominante. Aunque la partícula primaria del rayo cósmico generalmente no llega a la superficie de la Tierra, crea una lluvia de partículas secundarias energéticas. En la superficie de la Tierra, aproximadamente el 95% de las partículas capaces de causar errores suaves son neutrones energéticos y el resto está compuesto por protones y piones. ^[3] IBM estimó en 1996 que se esperaba un error por mes por cada 256 MiB de RAM en una computadora de escritorio. ^[4] Este flujo de neutrones energéticos se suele denominar "rayos cósmicos" en la literatura sobre errores leves. Los neutrones no están cargados y no pueden perturbar un circuito por sí solos, pero son capturados por el núcleo de un átomo en un chip. Este proceso puede resultar en la producción de secundarios cargados, como partículas alfa y núcleos de oxígeno, que luego pueden causar errores leves.

El flujo de rayos cósmicos depende de la altitud. Para la ubicación de referencia común de 40,7° N, 74° W al nivel del mar ( Nueva York , NY, EE. UU.), el flujo es de aproximadamente 14 neutrones/cm ² /hora. Enterrar un sistema en una cueva reduce la tasa de errores leves inducidos por los rayos cósmicos a un nivel insignificante. En los niveles más bajos de la atmósfera, el flujo aumenta en un factor de aproximadamente 2,2 por cada 1.000 m (1,3 por cada 1.000 pies) de aumento de altitud sobre el nivel del mar. Las computadoras operadas en la cima de las montañas experimentan una tasa de errores suaves de un orden de magnitud mayor en comparación con el nivel del mar. La tasa de perturbaciones en los aviones puede ser más de 300 veces la tasa de perturbaciones del nivel del mar. Esto contrasta con los errores leves inducidos por el deterioro del paquete, que no cambian con la ubicación. ^[5] A medida que aumenta la densidad del chip , Intel espera que los errores causados por los rayos cósmicos aumenten y se conviertan en un factor limitante en el diseño. ^[4]

La tasa promedio de errores suaves de los rayos cósmicos es inversamente proporcional a la actividad de las manchas solares. Es decir, el número promedio de errores suaves de los rayos cósmicos disminuye durante la parte activa del ciclo de las manchas solares y aumenta durante la parte tranquila. Este resultado contrario a la intuición se produce por dos razones. El Sol generalmente no produce partículas de rayos cósmicos con energía superior a 1 GeV que sean capaces de penetrar hasta la atmósfera superior de la Tierra y crear lluvias de partículas, por lo que los cambios en el flujo solar no influyen directamente en el número de errores. Además, el aumento del flujo solar durante un período solar activo tiene el efecto de remodelar el campo magnético de la Tierra, proporcionando una protección adicional contra los rayos cósmicos de mayor energía, lo que resulta en una disminución en la cantidad de partículas que crean lluvias. En cualquier caso, el efecto es bastante pequeño, lo que da como resultado una modulación de ±7% del flujo energético de neutrones en la ciudad de Nueva York. Otros lugares se ven afectados de manera similar. ^{[ cita necesaria ]}

Un experimento midió la tasa de error suave al nivel del mar en 5950 fallas en el tiempo (FIT = fallas por mil millones de horas) por chip DRAM. Cuando la misma configuración de prueba se trasladó a una bóveda subterránea, protegida por más de 50 pies (15 m) de roca que eliminaba eficazmente todos los rayos cósmicos, no se registraron errores leves. ^[6] En esta prueba, todas las demás causas de errores leves son demasiado pequeñas para ser medidas, en comparación con la tasa de error causada por los rayos cósmicos.

Los neutrones energéticos producidos por los rayos cósmicos pueden perder la mayor parte de su energía cinética y alcanzar el equilibrio térmico con su entorno a medida que los materiales los dispersan. Los neutrones resultantes se denominan simplemente neutrones térmicos y tienen una energía cinética media de unos 25 milielectrones-voltios a 25 °C. Los neutrones térmicos también son producidos por fuentes de radiación ambiental, como la desintegración del uranio o el torio naturales. El flujo de neutrones térmicos procedente de fuentes distintas a las lluvias de rayos cósmicos aún puede ser perceptible en una ubicación subterránea y ser un importante contribuyente a errores leves en algunos circuitos.

Neutrones térmicos

Los neutrones que han perdido energía cinética hasta alcanzar el equilibrio térmico con su entorno son una causa importante de errores leves en algunos circuitos. A bajas energías, muchas reacciones de captura de neutrones se vuelven mucho más probables y dan como resultado la fisión de ciertos materiales, creando secundarios cargados como subproductos de la fisión. Para algunos circuitos, la captura de un neutrón térmico por el núcleo del isótopo de boro ¹⁰ B es particularmente importante. Esta reacción nuclear es una productora eficiente de una partícula alfa , un núcleo de 7 Li y rayos gamma . Cualquiera de las partículas cargadas (alfa o ⁷ Li) puede provocar un error leve si se produce muy cerca, aproximadamente a 5 μm , de un nodo de circuito crítico. La sección transversal de captura para ¹¹ B es 6 órdenes de magnitud más pequeña y no contribuye a errores leves. ^[7]

El boro se ha utilizado en BPSG , el aislante en las capas de interconexión de los circuitos integrados, particularmente en la más baja. La inclusión de boro reduce la temperatura de fusión del vidrio, proporcionando mejores características de reflujo y planarización. En esta aplicación el vidrio se formula con un contenido de boro del 4% al 5% en peso. El boro natural tiene un 20% ^{de 10} B y el resto es el isótopo ¹¹ B. Los errores leves son causados por el alto nivel de ¹⁰ B en esta capa inferior crítica de algunos procesos de circuitos integrados más antiguos. El boro-11, utilizado en bajas concentraciones como dopante tipo p, no contribuye a errores leves. Los fabricantes de circuitos integrados eliminaron los dieléctricos borados cuando los componentes de los circuitos individuales disminuyeron de tamaño a 150 nm, en gran parte debido a este problema.

En diseños críticos, se utiliza boro empobrecido‍, que consiste casi en su totalidad en boro-11‍, para evitar este efecto y, por lo tanto, reducir la tasa de error leve. El boro-11 es un subproducto de la industria nuclear .

Para aplicaciones en dispositivos electrónicos médicos, este mecanismo de error leve puede ser extremadamente importante. Los neutrones se producen durante la radioterapia contra el cáncer de alta energía utilizando energías de haz de fotones superiores a 10 MeV. Estos neutrones se moderan a medida que se dispersan desde el equipo y las paredes de la sala de tratamiento, lo que da como resultado un flujo de neutrones térmicos aproximadamente 40 × 10 ⁶ mayor que el flujo de neutrones ambiental normal. Este alto flujo de neutrones térmicos generalmente dará como resultado una tasa muy alta de errores leves y la consiguiente alteración del circuito. ^[8]^[9]

Otras causas

Los errores suaves también pueden ser causados por ruido aleatorio o problemas de integridad de la señal , como la diafonía inductiva o capacitiva . Sin embargo, en general, estas fuentes representan una pequeña contribución a la tasa general de error leve en comparación con los efectos de la radiación.

Algunas pruebas concluyen que el aislamiento de las celdas de memoria DRAM puede evitarse mediante efectos secundarios no deseados de accesos especialmente diseñados a celdas adyacentes. Por lo tanto, acceder a los datos almacenados en DRAM hace que las células de memoria pierdan sus cargas e interactúen eléctricamente, como resultado de la alta densidad de células en la memoria moderna, alterando el contenido de las filas de memoria cercanas que en realidad no fueron abordadas en el acceso a la memoria original. ^[10] Este efecto se conoce como martillo de fila y también se ha utilizado en algunas vulnerabilidades de seguridad informática de escalada de privilegios . ^[11]^[12]

Diseñar en torno a errores leves

Mitigación de errores leves

Un diseñador puede intentar minimizar la tasa de errores leves mediante un diseño juicioso del dispositivo, eligiendo los materiales semiconductores, de paquete y de sustrato adecuados, y la geometría adecuada del dispositivo. Sin embargo, a menudo esto está limitado por la necesidad de reducir el tamaño y el voltaje del dispositivo, aumentar la velocidad de funcionamiento y reducir la disipación de energía. La susceptibilidad de los dispositivos a las perturbaciones se describe en la industria utilizando el estándar JEDEC JESD-89.

Una técnica que se puede utilizar para reducir la tasa de errores leves en los circuitos digitales se llama endurecimiento por radiación . Esto implica aumentar la capacitancia en nodos de circuito seleccionados para aumentar su valor _crítico Q efectivo . Esto reduce el rango de energías de partículas en las que se puede alterar el valor lógico del nodo. El endurecimiento por radiación a menudo se logra aumentando el tamaño de los transistores que comparten una región de drenaje/fuente en el nodo. Dado que el área y la potencia adicional del endurecimiento por radiación pueden ser restrictivas para el diseño, la técnica a menudo se aplica selectivamente a los nodos que se predice que tendrán la mayor probabilidad de provocar errores leves si se golpean. Las herramientas y modelos que pueden predecir qué nodos son más vulnerables son objeto de investigaciones pasadas y actuales en el área de errores leves.

Detectar errores leves

Se han realizado trabajos para abordar errores leves en los recursos del procesador y la memoria utilizando técnicas tanto de hardware como de software. Varios esfuerzos de investigación abordaron los errores leves proponiendo la detección y recuperación de errores mediante subprocesos múltiples redundantes basados en hardware. ^[13]^[14]^[15] Estos enfoques utilizaron hardware especial para replicar la ejecución de una aplicación para identificar errores en la salida, lo que aumentó la complejidad y el costo del diseño del hardware, incluida la sobrecarga de alto rendimiento. Los esquemas tolerantes a errores suaves basados en software, por otro lado, son flexibles y pueden aplicarse en microprocesadores comerciales disponibles en el mercado. Muchos trabajos proponen la replicación de instrucciones a nivel de compilador y la verificación de resultados para la detección de errores leves.^[16]^[17] ^[18]

Corrección de errores leves

Los diseñadores pueden optar por aceptar que se producirán errores leves y diseñar sistemas con detección y corrección de errores adecuadas para recuperarse sin problemas. Normalmente, un diseño de memoria semiconductora podría utilizar corrección directa de errores , incorporando datos redundantes en cada palabra para crear un código de corrección de errores . Alternativamente, se puede utilizar la corrección de errores de reversión, detectando el error leve con un código de detección de errores como parity y reescribiendo los datos correctos de otra fuente. Esta técnica se utiliza a menudo para memorias caché de escritura directa .

Los errores leves en los circuitos lógicos a veces se detectan y corrigen utilizando técnicas de diseño tolerante a fallas . Estos a menudo incluyen el uso de circuitos redundantes o el cálculo de datos y, por lo general, tienen un costo de área del circuito, menor rendimiento y/o mayor consumo de energía. El concepto de triple redundancia modular (TMR) se puede emplear para garantizar una confiabilidad muy alta ante errores leves en circuitos lógicos. En esta técnica, tres copias idénticas de un circuito se calculan con los mismos datos en paralelo y las salidas se introducen en la lógica de votación mayoritaria , devolviendo el valor que ocurrió en al menos dos de tres casos. De esta manera, la falla de un circuito debido a un error leve se descarta suponiendo que los otros dos circuitos funcionen correctamente. Sin embargo, en la práctica, pocos diseñadores pueden permitirse más del 200% del área del circuito y la energía necesaria, por lo que normalmente sólo se aplica de forma selectiva. Otro concepto común para corregir errores leves en circuitos lógicos es la redundancia temporal (o de tiempo), en la que un circuito opera con los mismos datos varias veces y compara evaluaciones posteriores para determinar su coherencia. Sin embargo, este enfoque a menudo genera una sobrecarga de rendimiento, una sobrecarga de área (si se utilizan copias de pestillos para almacenar datos) y una sobrecarga de energía, aunque es considerablemente más eficiente en área que la redundancia modular.

Tradicionalmente, la DRAM ha recibido la mayor atención en la búsqueda de reducir o solucionar errores leves, debido al hecho de que la DRAM ha representado la mayor parte del área de superficie de dispositivos susceptibles en sistemas informáticos de escritorio y servidores (ref. la prevalencia de ECC RAM en ordenadores servidores). Es difícil obtener cifras concretas sobre la susceptibilidad de la DRAM y varían considerablemente según los diseños, los procesos de fabricación y los fabricantes. Los DRAM de 256 kilobits con tecnología de la década de 1980 podrían tener grupos de cinco o seis bits invertidos a partir de una única partícula alfa . Las DRAM modernas tienen tamaños de características mucho más pequeños, por lo que la deposición de una cantidad similar de carga podría fácilmente causar que muchos más bits se inviertan.

El diseño de circuitos de detección y corrección de errores se ve favorecido por el hecho de que los errores leves normalmente se localizan en un área muy pequeña de un chip. Por lo general, sólo una célula de un recuerdo se ve afectada, aunque los eventos de alta energía pueden causar un trastorno en varias células. El diseño de memoria convencional generalmente coloca un bit de muchas palabras de corrección diferentes adyacentes en un chip. Por lo tanto, incluso un cambio de varias celdas conduce a sólo un número de cambios de un solo bit separados en múltiples palabras de corrección, en lugar de un cambio de varios bits en una sola palabra de corrección. Por lo tanto, un código de corrección de errores sólo necesita hacer frente a un único bit erróneo en cada palabra de corrección para poder hacer frente a todos los posibles errores leves. El término "multicelda" se utiliza para alteraciones que afectan a varias celdas de una memoria, independientemente de las palabras de corrección en las que se encuentren esas celdas. "Multibit" se utiliza cuando varios bits en una sola palabra de corrección tienen errores.

Errores leves en lógica combinacional

Los tres efectos de enmascaramiento naturales en la lógica combinacional que determinan si un evento único (SEU) se propagará hasta convertirse en un error leve son el enmascaramiento eléctrico, el enmascaramiento lógico y el enmascaramiento temporal (o de ventana de tiempo). Una SEU está lógicamente enmascarada si se bloquea su propagación para que no llegue a un pestillo de salida porque las entradas de puerta fuera de ruta impiden una transición lógica de la salida de esa puerta. Un SEU está enmascarado eléctricamente si la señal es atenuada por las propiedades eléctricas de las puertas en su ruta de propagación de modo que el pulso resultante sea de magnitud insuficiente para bloquearse de manera confiable. Un SEU se enmascara temporalmente si el pulso erróneo llega a un bloqueo de salida, pero no ocurre lo suficientemente cerca del momento en que el bloqueo se activa realmente para mantenerse.

Si no se producen los tres efectos de enmascaramiento, el pulso propagado se bloquea y la salida del circuito lógico tendrá un valor erróneo. En el contexto de la operación del circuito, este valor de salida erróneo puede considerarse un evento de error leve. Sin embargo, desde el punto de vista del nivel de microarquitectura, es posible que el resultado afectado no cambie la salida del programa que se está ejecutando actualmente. Por ejemplo, los datos erróneos podrían sobrescribirse antes de su uso, enmascararse en operaciones lógicas posteriores o simplemente no usarse nunca. Si los datos erróneos no afectan la salida de un programa, se considera un ejemplo de enmascaramiento de microarquitectura .

Tasa de error suave

La tasa de errores leves (SER) es la tasa a la que un dispositivo o sistema encuentra o se prevé que encontrará errores leves. Por lo general, se expresa como el número de fallas en el tiempo (FIT) o el tiempo medio entre fallas (MTBF). La unidad adoptada para cuantificar las fallas en el tiempo se llama FIT, que equivale a un error por cada mil millones de horas de funcionamiento del dispositivo. El MTBF generalmente se expresa en años de funcionamiento del dispositivo; para ponerlo en perspectiva, un FIT equivale aproximadamente a 1.000.000.000 / (24 × 365,25) = 114.077 veces más entre errores que el MTBF de un año.

Si bien muchos sistemas electrónicos tienen un MTBF que excede la vida útil esperada del circuito, el SER aún puede ser inaceptable para el fabricante o el cliente. Por ejemplo, se pueden esperar muchas fallas por millón de circuitos debido a errores leves en el campo si el sistema no tiene una protección adecuada contra errores leves. El fracaso de incluso unos pocos productos en el campo, particularmente si es catastrófico, puede empañar la reputación del producto y de la empresa que lo diseñó. Además, en aplicaciones críticas para la seguridad o los costos donde el costo de una falla del sistema supera con creces el costo del sistema en sí, un riesgo del 1 % de falla por error leve durante toda la vida útil puede ser demasiado alto para ser aceptable para el cliente. Por lo tanto, es ventajoso diseñar para un SER bajo cuando se fabrica un sistema en gran volumen o que requiere una confiabilidad extremadamente alta.

Ver también

Referencias

^ Artem Dinaburg (julio de 2011). "Bitsquatting: secuestro de DNS sin explotación" (PDF) . Archivado desde el original (PDF) el 11 de junio de 2018 . Consultado el 26 de diciembre de 2011 .
^ Gold (1995): "Esta carta es para informarle y felicitarle por otra notable predicción científica del futuro; a saber, su previsión del problema de alteración lógica de la memoria dinámica de acceso aleatorio (DRAM) causado por la emisión de partículas alfa, observado por primera vez en 1977, pero escrito por usted en Caves of Steel en 1957." [Nota: En realidad, 1952.] ... "Estas fallas son causadas por trazas de elementos radiactivos presentes en el material de embalaje utilizado para encapsular los dispositivos de silicio... en su libro, Caves of Steel, publicado en la década de 1950, usted utilizar un emisor de partículas alfa para "asesinar" a uno de los robots de la historia, destruyendo ("aleatorizando") su cerebro positrónico. Esta es, por supuesto, una manera tan buena de describir un trastorno lógico como cualquiera que haya escuchado. .. nuestros millones de dólares en investigación, que culminaron en varios premios internacionales por la contribución científica más importante en el campo de la confiabilidad de los dispositivos semiconductores en 1978 y 1979, se predijeron de forma sustancialmente precisa veinte años [Nota: veinticinco años, en realidad ] antes de que ocurrieran los hechos
^ Ziegler, JF (enero de 1996). "Rayos cósmicos terrestres". Revista IBM de investigación y desarrollo . 40 (1): 19–39. doi :10.1147/rd.401.0019. ISSN 0018-8646.
^ ab Simonite, Tom (marzo de 2008). "¿Todos los chips de computadora deberían tener un detector de rayos cósmicos?". Científico nuevo . Archivado desde el original el 2 de diciembre de 2011 . Consultado el 26 de noviembre de 2019 .
^ Gordon, MS; Goldhagen, P.; Rodbell, KP; Zabel, TH; Tang, HHK; Clem, JM; Bailey, P. (2004). "Medición del flujo y espectro de energía de neutrones inducidos por rayos cósmicos en la Tierra". Transacciones IEEE sobre ciencia nuclear . 51 (6): 3427–3434. Código Bib : 2004ITNS...51.3427G. doi :10.1109/TNS.2004.839134. ISSN 0018-9499. S2CID 9573484.
^ Dell, Timothy J. (1997). "Un documento técnico sobre los beneficios de Chipkill-Correct ECC para la memoria principal del servidor de PC" (PDF) . ece.umd.edu . pag. 13 . Consultado el 3 de noviembre de 2021 .
^ Baumann, R.; Hossain, T.; Murata, S.; Kitagawa, H. (1995). "Los compuestos de boro como fuente dominante de partículas alfa en dispositivos semiconductores". 33º Simposio Internacional de Física de Confiabilidad del IEEE . págs. 297–302. doi :10.1109/RELPHY.1995.513695. ISBN 978-0-7803-2031-4. S2CID 110078856.
^ Wilkinson, JD; Límites, C.; Marrón, T.; Gerbi, BJ; Peltier, J. (2005). "Los equipos de radioterapia contra el cáncer como causa de errores leves en equipos electrónicos". Transacciones IEEE sobre confiabilidad de dispositivos y materiales . 5 (3): 449–451. doi :10.1109/TDMR.2005.858342. ISSN 1530-4388. S2CID 20789261.
^ Franco, L., Gómez, F., Iglesias, A., Pardo, J., Pazos, A., Peña, J., Zapata, M., SEU en SRAM comercial inducida por neutrones de baja energía producidos en un linac clínico instalación, Actas RADECS, septiembre de 2005
^ Parque, Kyungbae; Baeg, Sanghyeon; Wen, ShiJie; Wong, Richard (octubre de 2014). "El martilleo de precarga activa en una fila indujo una falla en las SDRAM DDR3 con tecnología de 3 × nm". Informe final del taller internacional de confiabilidad integrada del IEEE de 2014 (IIRW) . IEEE . págs. 82–85. doi :10.1109/IIRW.2014.7049516. ISBN 978-1-4799-7308-8. S2CID 14464953.
^ Kim, Yoongu; Daly, Ross; Kim, Jeremie; Cayendo, Chris; Lee, Ji Hye; Lee, Donghyuk; Wilkerson, Chris; Lai, Konrad; Mutlu, Onur (24 de junio de 2014). "Invertir bits en la memoria sin acceder a ellos: un estudio experimental de errores de perturbación de DRAM" (PDF) . ece.cmu.edu . IEEE . Consultado el 10 de marzo de 2015 .
^ Goodin, Dan (10 de marzo de 2015). "El truco de vanguardia otorga el estatus de superusuario al explotar la debilidad de la DRAM". Ars Técnica . Consultado el 10 de marzo de 2015 .
^ Reinhardt, Steven K.; Mukherjee, Shubhendu S. (2000). "Detección de fallos transitorios mediante subprocesos múltiples simultáneos". Noticias de arquitectura informática de ACM SIGARCH . 28 (2): 25–36. CiteSeerX 10.1.1.112.37 . doi :10.1145/342001.339652. ISSN 0163-5964.
^ Mukherjee, Shubhendu S.; Kontz, Michael; Reinhardt, Steven K. (2002). "Diseño detallado y evaluación de alternativas redundantes de subprocesos múltiples". Noticias de arquitectura informática de ACM SIGARCH . 30 (2): 99. CiteSeerX 10.1.1.13.2922 . doi :10.1145/545214.545227. ISSN 0163-5964. S2CID 1909214.
^ Vijaykumar, Tennessee; Pomeranz, Irith ; Cheng, Karl (2002). "Recuperación de fallos transitorios mediante subprocesos múltiples simultáneos". Noticias de arquitectura informática de ACM SIGARCH . 30 (2): 87. doi : 10.1145/545214.545226. ISSN 0163-5964. S2CID 2270600.
^ Nahmsuk, Oh; Shirvani, Philip P.; McCluskey, Edward J. (2002). "Detección de errores mediante instrucciones duplicadas en procesadores superescalares". Transacciones IEEE sobre confiabilidad . 51 : 63–75. doi : 10.1109/24.994913.
^ Reis A., George A.; Chang, Jonatán; Vachharajani, Neil; Rangan, Ram; Agosto, David I. (2005). "SWIFT: Software implementado tolerancia a fallas". Simposio Internacional sobre Generación y Optimización de Código . Actas del simposio internacional sobre generación y optimización de código. págs. 243-254. CiteSeerX 10.1.1.472.4177 . doi :10.1109/CGO.2005.34. ISBN 978-0-7695-2298-2. S2CID 5746979.{{cite book}}: Mantenimiento CS1: falta el editor de la ubicación ( enlace )
^ Didehban, musulmán; Shrivastava, Aviral (2016), "NZDC: Una técnica de compilación para una corrupción de datos silenciosa casi nula", Actas de la 53.ª Conferencia Anual de Automatización del Diseño , Actas de la 53.ª Conferencia Anual de Automatización del Diseño (DAC): ACM, p. 48, doi :10.1145/2897937.2898054, ISBN 9781450342360, S2CID 5618907{{citation}}: Mantenimiento CS1: ubicación ( enlace )

Otras lecturas

Ziegler, JF; Lanford, WA (1979). "Efecto de los rayos cósmicos en las memorias de las computadoras". Ciencia . 206 (4420): 776–788. Código bibliográfico : 1979 Ciencia... 206..776Z. doi : 10.1126/ciencia.206.4420.776. ISSN 0036-8075. PMID 17820742. S2CID 2000982.
Mukherjee, S., "Diseño de arquitectura para errores leves", Elsevier, Inc., febrero de 2008.
Mukherjee, S., "Fallos informáticos provocados por errores de software: un problema con múltiples soluciones", Microprocessor Report, 19 de mayo de 2008.

enlaces externos

Errores leves en la memoria electrónica: un documento técnico: un buen documento resumido con muchas referencias: Tezzaron, enero de 2004. Concluye que 1000–5000 FIT por Mbit (0,2–1 error por día por Gbyte) es una tasa típica de error leve de DRAM.
Beneficios de Chipkill-Correct ECC para la memoria principal del servidor de PC - Una discusión de 1997 sobre la confiabilidad de SDRAM - alguna información interesante sobre "errores leves" de los rayos cósmicos , especialmente con respecto a los esquemas de códigos de corrección de errores
Impacto de los errores leves en la confiabilidad del sistema - Ritesh Mastipuram y Edwin C. Wee, Cypress Semiconductor, 2004
Cuestiones de escala y tecnología para las tasas de errores leves - A Johnston - Cuarta Conferencia Anual de Investigación sobre Confiabilidad Universidad de Stanford, octubre de 2000
Evaluación de errores leves de LSI inducidos por rayos cósmicos terrestres y partículas alfa: H. Kobayashi, K. Shiraishi, H. Tsuchiya, H. Usuki (todos de Sony) y Y. Nagai, K. Takahisa (Universidad de Osaka), 2001.
Sitio web del taller SELSE: sitio web para el taller sobre los efectos del sistema de los errores lógicos suaves