Error leve

En electrónica e informática , un error leve es un tipo de error en el que una señal o un dato son incorrectos. Los errores pueden ser causados por un defecto, generalmente entendido como un error de diseño o construcción, o un componente roto. Un error leve también es una señal o un dato que es incorrecto, pero no se supone que implique tal error o rotura. Después de observar un error leve, no hay implicación de que el sistema sea menos confiable que antes. Una causa de los errores leves son las perturbaciones de un solo evento causadas por los rayos cósmicos.

En el sistema de memoria de una computadora, un error leve cambia una instrucción en un programa o un valor de datos. Los errores leves generalmente se pueden solucionar reiniciando la computadora en frío . Un error leve no dañará el hardware de un sistema; el único daño se produce en los datos que se están procesando.

Existen dos tipos de errores suaves: los errores suaves a nivel de chip y los errores suaves a nivel de sistema . Los errores suaves a nivel de chip ocurren cuando las partículas impactan en el chip, por ejemplo, cuando partículas secundarias de rayos cósmicos caen sobre el chip de silicio . Si una partícula con ciertas propiedades impacta una celda de memoria , puede hacer que la celda cambie de estado a un valor diferente. La reacción atómica en este ejemplo es tan pequeña que no daña la estructura física del chip. Los errores suaves a nivel de sistema ocurren cuando los datos que se están procesando se ven afectados por un fenómeno de ruido, generalmente cuando los datos están en un bus de datos. La computadora intenta interpretar el ruido como un bit de datos, lo que puede causar errores en el direccionamiento o procesamiento del código del programa. El bit de datos erróneo puede incluso guardarse en la memoria y causar problemas en un momento posterior.

Si se detecta, un error leve puede corregirse reescribiendo los datos correctos en lugar de los datos erróneos. Los sistemas altamente confiables utilizan la corrección de errores para corregir errores leves sobre la marcha. Sin embargo, en muchos sistemas, puede ser imposible determinar los datos correctos, o incluso descubrir que existe un error. Además, antes de que pueda ocurrir la corrección, el sistema puede haberse bloqueado , en cuyo caso el procedimiento de recuperación debe incluir un reinicio . Los errores leves implican cambios en los datos (por ejemplo, los electrones en un circuito de almacenamiento), pero no cambios en el circuito físico en sí, los átomos . Si se reescriben los datos, el circuito volverá a funcionar perfectamente. Los errores leves pueden ocurrir en líneas de transmisión, en lógica digital, circuitos analógicos, almacenamiento magnético y en otros lugares, pero son más conocidos en el almacenamiento de semiconductores.

Carga crítica

El hecho de que un circuito experimente o no un error suave depende de la energía de la partícula entrante, la geometría del impacto, la ubicación del impacto y el diseño del circuito lógico. Los circuitos lógicos con mayor capacitancia y voltajes lógicos más altos tienen menos probabilidades de sufrir un error. Esta combinación de capacitancia y voltaje se describe mediante el parámetro de carga crítica , Q _crit , la perturbación mínima de carga de electrones necesaria para cambiar el nivel lógico. Un Q _crit más alto significa menos errores suaves. Desafortunadamente, un Q _crit más alto también significa una puerta lógica más lenta y una mayor disipación de potencia. La reducción en el tamaño de las características del chip y el voltaje de suministro, deseable por muchas razones, disminuye Q _crit . Por lo tanto, la importancia de los errores suaves aumenta a medida que avanza la tecnología de chips.

En un circuito lógico, Q _crit se define como la cantidad mínima de carga inducida necesaria en un nodo del circuito para hacer que un pulso de voltaje se propague desde ese nodo hasta la salida y tenga la duración y magnitud suficientes para quedar bloqueado de manera confiable. Dado que un circuito lógico contiene muchos nodos que pueden ser alcanzados y cada nodo puede tener una capacitancia y una distancia de la salida únicas, Q _crit se caracteriza típicamente por nodo.

Causas de errores leves

Partículas alfa de la descomposición de los paquetes

Los errores de software se hicieron ampliamente conocidos con la introducción de la RAM dinámica en la década de 1970. En estos primeros dispositivos, los materiales de empaquetado de los chips cerámicos contenían pequeñas cantidades de contaminantes radiactivos . Se necesitan tasas de desintegración muy bajas para evitar errores de software excesivos, y las empresas de chips han sufrido ocasionalmente problemas de contaminación desde entonces. Es extremadamente difícil mantener la pureza del material necesaria. Es necesario controlar las tasas de emisión de partículas alfa para materiales de empaquetado críticos a un nivel inferior a 0,001 cuentas por hora por cm2 ⁽ cph/cm2 ⁾ para un rendimiento confiable de la mayoría de los circuitos. A modo de comparación, la tasa de conteo de la suela de un zapato típico está entre 0,1 y 10 cph/ ^cm2 .

La desintegración radiactiva de los paquetes suele provocar un error leve por emisión de partículas alfa . La partícula alfa con carga positiva viaja a través del semiconductor y altera la distribución de electrones en el mismo. Si la perturbación es lo suficientemente grande, una señal digital puede cambiar de 0 a 1 o viceversa. En la lógica combinacional , este efecto es transitorio, puede durar una fracción de nanosegundo, y esto ha llevado a que el problema de los errores leves en la lógica combinacional pase en su mayoría desapercibido. En la lógica secuencial, como los pestillos y la RAM , incluso esta alteración transitoria puede almacenarse durante un tiempo indefinido, para leerse más tarde. Por lo tanto, los diseñadores suelen ser mucho más conscientes del problema en los circuitos de almacenamiento.

Un artículo de Black Hat de 2011 analiza las implicaciones de seguridad en la vida real de tales cambios de bit en el Sistema de nombres de dominio de Internet . El artículo encontró hasta 3434 solicitudes incorrectas por día debido a cambios de cambio de bit para varios dominios comunes. Muchos de estos cambios de bit probablemente se puedan atribuir a problemas de hardware, pero algunos podrían atribuirse a partículas alfa. ^[1] Estos errores de cambio de bit pueden ser aprovechados por actores maliciosos en forma de bitsquatting .

Isaac Asimov recibió una carta felicitándolo por una predicción accidental de errores de RAM de partículas alfa en una novela de los años 50. ^[2]

Los rayos cósmicos crean neutrones y protones energéticos.

Una vez que la industria electrónica determinó cómo controlar los contaminantes de los paquetes, se hizo evidente que también había otras causas en juego. James F. Ziegler dirigió un programa de trabajo en IBM que culminó con la publicación de una serie de artículos (Ziegler y Lanford, 1979) que demostraban que los rayos cósmicos también podían causar errores leves. De hecho, en los dispositivos modernos, los rayos cósmicos pueden ser la causa predominante. Aunque la partícula primaria del rayo cósmico generalmente no alcanza la superficie de la Tierra, crea una lluvia de partículas secundarias energéticas. En la superficie de la Tierra, aproximadamente el 95% de las partículas capaces de causar errores leves son neutrones energéticos y el resto está compuesto de protones y piones. ^[3] IBM estimó en 1996 que se esperaba un error por mes por cada 256 MiB de RAM en una computadora de escritorio. ^[4] Este flujo de neutrones energéticos se conoce normalmente como "rayos cósmicos" en la literatura sobre errores leves. Los neutrones no tienen carga y no pueden alterar un circuito por sí solos, pero son capturados por el núcleo de un átomo en un chip. Este proceso puede dar lugar a la producción de neutrones secundarios cargados, como partículas alfa y núcleos de oxígeno, que pueden causar errores leves.

El flujo de rayos cósmicos depende de la altitud. Para la ubicación de referencia común de 40,7° N, 74° W al nivel del mar ( Nueva York , NY, EE. UU.), el flujo es de aproximadamente 14 neutrones/cm2 ^/ hora. Enterrar un sistema en una cueva reduce la tasa de errores suaves inducidos por rayos cósmicos a un nivel insignificante. En los niveles más bajos de la atmósfera, el flujo aumenta en un factor de aproximadamente 2,2 por cada 1000 m (1,3 por cada 1000 pies) de aumento en la altitud sobre el nivel del mar. Las computadoras operadas en la cima de las montañas experimentan una tasa de errores suaves de un orden de magnitud mayor en comparación con el nivel del mar. La tasa de alteraciones en las aeronaves puede ser más de 300 veces la tasa de alteraciones a nivel del mar. Esto contrasta con los errores suaves inducidos por la descomposición del paquete, que no cambian con la ubicación. ^[5] A medida que aumenta la densidad de chips , Intel espera que los errores causados por los rayos cósmicos aumenten y se conviertan en un factor limitante en el diseño. ^[4]

La tasa media de errores leves de rayos cósmicos es inversamente proporcional a la actividad de las manchas solares. Es decir, el número medio de errores leves de rayos cósmicos disminuye durante la parte activa del ciclo de manchas solares y aumenta durante la parte tranquila. Este resultado contra-intuitivo se produce por dos razones. El Sol no suele producir partículas de rayos cósmicos con energía superior a 1 GeV que sean capaces de penetrar en la atmósfera superior de la Tierra y crear lluvias de partículas, por lo que los cambios en el flujo solar no influyen directamente en el número de errores. Además, el aumento del flujo solar durante un período solar activo tiene el efecto de remodelar el campo magnético de la Tierra, proporcionando un blindaje adicional contra los rayos cósmicos de mayor energía, lo que da como resultado una disminución en el número de partículas que crean lluvias. El efecto es bastante pequeño en cualquier caso, lo que resulta en una modulación de ±7% del flujo de neutrones energéticos en la ciudad de Nueva York. Otras ubicaciones se ven afectadas de manera similar. ^{[ cita requerida ]}

Un experimento midió la tasa de errores leves a nivel del mar y resultó ser de 5.950 fallos en el tiempo (FIT = fallos por mil millones de horas) por chip DRAM. Cuando la misma configuración de prueba se trasladó a una bóveda subterránea, protegida por más de 50 pies (15 m) de roca que eliminaba eficazmente todos los rayos cósmicos, no se registraron errores leves. ^[6] En esta prueba, todas las demás causas de errores leves son demasiado pequeñas para ser medidas, en comparación con la tasa de error causada por los rayos cósmicos.

Los neutrones energéticos producidos por los rayos cósmicos pueden perder la mayor parte de su energía cinética y alcanzar el equilibrio térmico con su entorno a medida que son dispersados por los materiales. Los neutrones resultantes se denominan simplemente neutrones térmicos y tienen una energía cinética promedio de aproximadamente 25 milielectronvoltios a 25 °C. Los neutrones térmicos también son producidos por fuentes de radiación ambiental, incluida la desintegración de elementos radiactivos naturales como el uranio y el torio . El flujo de neutrones térmicos de fuentes distintas a las lluvias de rayos cósmicos aún puede notarse en una ubicación subterránea y contribuir de manera importante a los errores leves de algunos circuitos.

Neutrones térmicos

Los neutrones que han perdido energía cinética hasta que están en equilibrio térmico con su entorno son una causa importante de errores suaves para algunos circuitos. A bajas energías, muchas reacciones de captura de neutrones se vuelven mucho más probables y dan como resultado la fisión de ciertos materiales creando secundarios cargados como subproductos de la fisión. Para algunos circuitos, la captura de un neutrón térmico por el núcleo del isótopo ¹⁰ B del boro es particularmente importante. Esta reacción nuclear es un productor eficiente de una partícula alfa , un núcleo de 7 Li y rayos gamma . Cualquiera de las partículas cargadas (alfa o ⁷ Li) puede causar un error suave si se produce en una proximidad muy cercana, aproximadamente 5 μm , a un nodo crítico del circuito. La sección eficaz de captura para ¹¹ B es 6 órdenes de magnitud más pequeña y no contribuye a los errores suaves. ^[7]

El boro se ha utilizado en BPSG , el aislante en las capas de interconexión de circuitos integrados, particularmente en la más baja. La inclusión de boro reduce la temperatura de fusión del vidrio proporcionando mejores características de reflujo y planarización. En esta aplicación, el vidrio está formulado con un contenido de boro de 4% a 5% en peso. El boro que se encuentra naturalmente es 20% ¹⁰ B y el resto el isótopo ^{11 B. Los errores suaves son causados por el alto nivel de}¹⁰ B en esta capa inferior crítica de algunos procesos de circuitos integrados más antiguos. El boro-11, utilizado en bajas concentraciones como un dopante de tipo p, no contribuye a los errores suaves. Los fabricantes de circuitos integrados eliminaron los dieléctricos borados cuando los componentes individuales del circuito disminuyeron de tamaño a 150 nm, en gran parte debido a este problema.

En los diseños críticos se utiliza boro empobrecido, compuesto casi en su totalidad de boro-11, para evitar este efecto y, por lo tanto, reducir la tasa de error blando. El boro-11 es un subproducto de la industria nuclear .

Para aplicaciones en dispositivos electrónicos médicos, este mecanismo de error leve puede ser extremadamente importante. Los neutrones se producen durante la radioterapia de alta energía contra el cáncer, utilizando energías de haz de fotones superiores a 10 MeV. Estos neutrones se moderan a medida que se dispersan desde el equipo y las paredes de la sala de tratamiento, lo que da como resultado un flujo de neutrones térmicos que es aproximadamente 40 × 10 ⁶ más alto que el flujo de neutrones ambiental normal. Este alto flujo de neutrones térmicos generalmente dará como resultado una tasa muy alta de errores leves y la consiguiente alteración del circuito. ^[8]^[9]

Otras causas

Los errores leves también pueden ser causados por ruido aleatorio o problemas de integridad de la señal , como diafonía inductiva o capacitiva . Sin embargo, en general, estas fuentes representan una pequeña contribución a la tasa general de errores leves en comparación con los efectos de la radiación.

Algunas pruebas concluyen que el aislamiento de las celdas de memoria DRAM puede ser sorteado por efectos secundarios no deseados de accesos especialmente diseñados a celdas adyacentes. Así, el acceso a los datos almacenados en DRAM hace que las celdas de memoria pierdan sus cargas e interactúen eléctricamente, como resultado de la alta densidad de celdas en la memoria moderna, alterando el contenido de las filas de memoria cercanas que en realidad no fueron abordadas en el acceso a la memoria original. ^[10] Este efecto se conoce como row hammer , y también se ha utilizado en algunos exploits de seguridad informática de escalada de privilegios . ^[11]^[12]

Diseñar en torno a errores leves

Mitigación de errores leves

Un diseñador puede intentar minimizar la tasa de errores leves mediante un diseño de dispositivo juicioso, eligiendo los materiales adecuados para el semiconductor, el encapsulado y el sustrato, y la geometría del dispositivo adecuada. Sin embargo, a menudo esto se ve limitado por la necesidad de reducir el tamaño y el voltaje del dispositivo, aumentar la velocidad de operación y reducir la disipación de energía. La susceptibilidad de los dispositivos a las perturbaciones se describe en la industria utilizando el estándar JEDEC JESD-89.

Una técnica que se puede utilizar para reducir la tasa de errores blandos en circuitos digitales se denomina endurecimiento por radiación . Esto implica aumentar la capacitancia en nodos de circuito seleccionados para aumentar su valor Q _crítico efectivo . Esto reduce el rango de energías de partículas a las que se puede alterar el valor lógico del nodo. El endurecimiento por radiación se logra a menudo aumentando el tamaño de los transistores que comparten una región de drenaje/fuente en el nodo. Dado que el área y la sobrecarga de energía del endurecimiento por radiación pueden ser restrictivas para el diseño, la técnica se aplica a menudo de forma selectiva a los nodos que se prevé que tengan la mayor probabilidad de generar errores blandos si se golpean. Las herramientas y los modelos que pueden predecir qué nodos son más vulnerables son el tema de la investigación pasada y actual en el área de errores blandos.

Detección de errores leves

Se han realizado trabajos para abordar errores blandos en los recursos de procesador y memoria utilizando técnicas tanto de hardware como de software. Varias investigaciones abordaron los errores blandos proponiendo la detección y recuperación de errores a través de subprocesos múltiples redundantes basados en hardware. ^[13]^[14]^[15] Estos enfoques utilizaban hardware especial para replicar la ejecución de una aplicación para identificar errores en la salida, lo que aumentaba la complejidad y el costo del diseño del hardware, incluida una sobrecarga de alto rendimiento. Por otro lado, los esquemas de tolerancia a errores blandos basados en software son flexibles y se pueden aplicar en microprocesadores comerciales listos para usar. Muchos trabajos proponen la replicación de instrucciones a nivel de compilador y la verificación de resultados para la detección de errores blandos. ^[16]^[17] ^[18]

Corrección de errores leves

Los diseñadores pueden optar por aceptar que se produzcan errores leves y diseñar sistemas con detección y corrección de errores adecuados para recuperarse sin problemas. Normalmente, un diseño de memoria de semiconductores puede utilizar corrección de errores hacia adelante , incorporando datos redundantes en cada palabra para crear un código de corrección de errores . Alternativamente, se puede utilizar la corrección de errores de reversión, detectando el error leve con un código de detección de errores como paridad y reescribiendo los datos correctos desde otra fuente. Esta técnica se utiliza a menudo para memorias caché de escritura simultánea .

Los errores leves en circuitos lógicos a veces se detectan y corrigen utilizando técnicas de diseño tolerante a fallas . Estas a menudo incluyen el uso de circuitos redundantes o el cálculo de datos, y generalmente se producen a costa del área del circuito, menor rendimiento y/o mayor consumo de energía. El concepto de redundancia modular triple (TMR) se puede emplear para garantizar una confiabilidad muy alta de errores leves en circuitos lógicos. En esta técnica, tres copias idénticas de un circuito calculan los mismos datos en paralelo y las salidas se alimentan a la lógica de votación por mayoría , devolviendo el valor que ocurrió en al menos dos de los tres casos. De esta manera, la falla de un circuito debido a un error leve se descarta suponiendo que los otros dos circuitos funcionaron correctamente. En la práctica, sin embargo, pocos diseñadores pueden permitirse el área del circuito y la sobrecarga de energía que se requieren, por lo que generalmente solo se aplica de forma selectiva. Otro concepto común para corregir errores leves en circuitos lógicos es la redundancia temporal (o de tiempo), en la que un circuito opera con los mismos datos varias veces y compara las evaluaciones posteriores para verificar su coherencia. Sin embargo, este enfoque a menudo implica sobrecarga de rendimiento, sobrecarga de área (si se utilizan copias de pestillos para almacenar datos) y sobrecarga de energía, aunque es considerablemente más eficiente en términos de área que la redundancia modular.

Tradicionalmente, la DRAM ha recibido la mayor atención en la búsqueda de reducir o solucionar los errores blandos, debido al hecho de que la DRAM ha comprendido la mayor parte del área de superficie de los dispositivos susceptibles en los sistemas informáticos de escritorio y servidor (ref. la prevalencia de RAM ECC en los servidores). Las cifras exactas de susceptibilidad de la DRAM son difíciles de conseguir y varían considerablemente entre diseños, procesos de fabricación y fabricantes. Tecnología de los años 1980 Las DRAM de 256 kilobits podían tener grupos de cinco o seis bits que se volteaban a partir de una sola partícula alfa . Las DRAM modernas tienen tamaños de características mucho más pequeños, por lo que la deposición de una cantidad similar de carga podría hacer que se voltearan fácilmente muchos más bits.

El diseño de circuitos de detección y corrección de errores se ve facilitado por el hecho de que los errores leves suelen estar localizados en una zona muy pequeña de un chip. Normalmente, sólo se ve afectada una celda de una memoria, aunque los eventos de alta energía pueden provocar una alteración de varias celdas. El diseño convencional de la memoria suele colocar un bit de muchas palabras de corrección diferentes adyacentes en un chip. Por tanto, incluso una alteración de varias celdas produce sólo una serie de alteraciones de un solo bit independientes en varias palabras de corrección, en lugar de una alteración de varios bits en una única palabra de corrección. Por tanto, un código de corrección de errores sólo necesita hacer frente a un único bit erróneo en cada palabra de corrección para hacer frente a todos los posibles errores leves. El término "multicelda" se utiliza para las alteraciones que afectan a varias celdas de una memoria, independientemente de las palabras de corrección en las que se encuentren dichas celdas. "Multibit" se utiliza cuando varios bits de una única palabra de corrección son erróneos.

Errores leves en lógica combinacional

Los tres efectos de enmascaramiento naturales en la lógica combinacional que determinan si un evento único alterado (SEU) se propagará para convertirse en un error leve son el enmascaramiento eléctrico, el enmascaramiento lógico y el enmascaramiento temporal (o de ventana de tiempo). Un SEU está enmascarado lógicamente si se bloquea su propagación para que no llegue a un pestillo de salida porque las entradas de compuerta fuera de la ruta impiden una transición lógica de la salida de esa compuerta. Un SEU está enmascarado eléctricamente si la señal se atenúa por las propiedades eléctricas de las compuertas en su ruta de propagación de modo que el pulso resultante es de magnitud insuficiente para ser enganchado de manera confiable. Un SEU está enmascarado temporalmente si el pulso erróneo llega a un pestillo de salida, pero no ocurre lo suficientemente cerca de cuando el pestillo se activa realmente para mantenerse.

Si no se producen los tres efectos de enmascaramiento, el pulso propagado se bloquea y la salida del circuito lógico será un valor erróneo. En el contexto del funcionamiento del circuito, este valor de salida erróneo puede considerarse un evento de error leve. Sin embargo, desde un punto de vista a nivel de microarquitectura, el resultado afectado puede no cambiar la salida del programa que se está ejecutando actualmente. Por ejemplo, los datos erróneos podrían sobrescribirse antes de su uso, enmascararse en operaciones lógicas posteriores o simplemente no usarse nunca. Si los datos erróneos no afectan la salida de un programa, se considera un ejemplo de enmascaramiento microarquitectónico .

Tasa de error leve

La tasa de errores leves (SER, por sus siglas en inglés) es la tasa a la que un dispositivo o sistema encuentra o se prevé que encuentre errores leves. Generalmente se expresa como el número de fallas en el tiempo (FIT, por sus siglas en inglés) o el tiempo medio entre fallas (MTBF, por sus siglas en inglés). La unidad adoptada para cuantificar las fallas en el tiempo se denomina FIT, que equivale a un error por cada mil millones de horas de funcionamiento del dispositivo. El MTBF se expresa generalmente en años de funcionamiento del dispositivo; para ponerlo en perspectiva, un FIT equivale aproximadamente a 1 000 000 000 / (24 × 365,25) = 114 077 veces más tiempo entre errores que un MTBF de un año.

Si bien muchos sistemas electrónicos tienen un MTBF que excede la vida útil esperada del circuito, el SER puede ser inaceptable para el fabricante o el cliente. Por ejemplo, se pueden esperar muchas fallas por millón de circuitos debido a errores leves en el campo si el sistema no tiene una protección adecuada contra errores leves. La falla de incluso unos pocos productos en el campo, particularmente si es catastrófica, puede empañar la reputación del producto y la compañía que lo diseñó. Además, en aplicaciones críticas para la seguridad o el costo donde el costo de la falla del sistema supera con creces el costo del sistema en sí, un riesgo del 1% de falla por error leve durante la vida útil puede ser demasiado alto para ser aceptable para el cliente. Por lo tanto, es ventajoso diseñar para un SER bajo cuando se fabrica un sistema en gran volumen o se requiere una confiabilidad extremadamente alta.

Véase también

Referencias

^ Artem Dinaburg (julio de 2011). "Bitsquatting: secuestro de DNS sin explotación" (PDF) . Archivado desde el original (PDF) el 2018-06-11 . Consultado el 2011-12-26 .
^ Gold (1995): "Esta carta es para informarle y felicitarlo por otra notable predicción científica del futuro; a saber, su previsión del problema de alteración de la lógica de la memoria de acceso aleatorio dinámico (DRAM) causado por la emisión de partículas alfa, observado por primera vez en 1977, pero sobre el que usted escribió en Caves of Steel en 1957". [Nota: En realidad, 1952.] ... "Estos fallos son causados por trazas de elementos radiactivos presentes en el material de embalaje utilizado para encapsular los dispositivos de silicio... en su libro, Caves of Steel, publicado en la década de 1950, utiliza un emisor de partículas alfa para 'asesinar' a uno de los robots de la historia, destruyendo ('aleatorizando') su cerebro positrónico. Ésta es, por supuesto, una forma tan buena de describir un trastorno lógico como cualquier otra que haya escuchado... nuestros millones de dólares de investigación, que culminaron en varios premios internacionales por la contribución científica más importante en el campo de la fiabilidad de los dispositivos semiconductores en 1978 y 1979, se predijeron de forma sustancialmente precisa veinte años [Nota: veinticinco años, en realidad] antes de que ocurrieran los hechos
^ Ziegler, JF (enero de 1996). "Rayos cósmicos terrestres". IBM Journal of Research and Development . 40 (1): 19–39. doi :10.1147/rd.401.0019. ISSN 0018-8646.
^ ab Simonite, Tom (marzo de 2008). "¿Debería cada chip de computadora tener un detector de rayos cósmicos?". New Scientist . Archivado desde el original el 2011-12-02 . Consultado el 2019-11-26 .
^ Gordon, MS; Goldhagen, P.; Rodbell, KP; Zabel, TH; Tang, HHK; Clem, JM; Bailey, P. (2004). "Medición del flujo y espectro de energía de neutrones inducidos por rayos cósmicos en tierra". IEEE Transactions on Nuclear Science . 51 (6): 3427–3434. Bibcode :2004ITNS...51.3427G. doi :10.1109/TNS.2004.839134. ISSN 0018-9499. S2CID 9573484.
^ Dell, Timothy J. (1997). "Un informe técnico sobre los beneficios de Chipkill-Correct ECC para la memoria principal de servidores de PC" (PDF) . ece.umd.edu . p. 13 . Consultado el 2021-11-03 .
^ Baumann, R.; Hossain, T.; Murata, S.; Kitagawa, H. (1995). "Compuestos de boro como fuente dominante de partículas alfa en dispositivos semiconductores". 33.° Simposio Internacional de Física de la Confiabilidad del IEEE . págs. 297–302. doi :10.1109/RELPHY.1995.513695. ISBN . 978-0-7803-2031-4.S2CID110078856 .
^ Wilkinson, JD; Bounds, C.; Brown, T.; Gerbi, BJ; Peltier, J. (2005). "Equipos de radioterapia contra el cáncer como causa de errores leves en equipos electrónicos". IEEE Transactions on Device and Materials Reliability . 5 (3): 449–451. doi :10.1109/TDMR.2005.858342. ISSN 1530-4388. S2CID 20789261.
^ Franco, L., Gómez, F., Iglesias, A., Pardo, J., Pazos, A., Peña, J., Zapata, M., SEU en SRAM comercial inducida por neutrones de baja energía producidos en un linac clínico instalación, Actas RADECS, septiembre de 2005
^ Park, Kyungbae; Baeg, Sanghyeon; Wen, ShiJie; Wong, Richard (octubre de 2014). "Falla inducida por precarga activa en una fila en memorias SDRAM DDR3 con tecnología de 3 nm". Informe final del taller internacional de confiabilidad integrada IEEE 2014 (IIRW) . IEEE . págs. 82–85. doi :10.1109/IIRW.2014.7049516. ISBN . 978-1-4799-7308-8.S2CID14464953 .
^ Kim, Yoongu; Daly, Ross; Kim, Jeremie; Fallin, Chris; Lee, Ji Hye; Lee, Donghyuk; Wilkerson, Chris; Lai, Konrad; Mutlu, Onur (24 de junio de 2014). "Cambio de bits en la memoria sin acceder a ellos: un estudio experimental de errores de perturbación de DRAM" (PDF) . ece.cmu.edu . IEEE . Consultado el 10 de marzo de 2015 .
^ Goodin, Dan (10 de marzo de 2015). "Un ataque de última generación otorga estatus de superusuario al explotar una debilidad de la memoria DRAM". Ars Technica . Consultado el 10 de marzo de 2015 .
^ Reinhardt, Steven K.; Mukherjee, Shubhendu S. (2000). "Detección de fallos transitorios mediante subprocesamiento simultáneo de múltiples hilos". ACM SIGARCH Computer Architecture News . 28 (2): 25–36. CiteSeerX 10.1.1.112.37 . doi :10.1145/342001.339652. ISSN 0163-5964.
^ Mukherjee, Shubhendu S.; Kontz, Michael; Reinhardt, Steven K. (2002). "Diseño detallado y evaluación de alternativas de subprocesamiento múltiple redundante". ACM SIGARCH Computer Architecture News . 30 (2): 99. CiteSeerX 10.1.1.13.2922 . doi :10.1145/545214.545227. ISSN 0163-5964. S2CID 1909214.
^ Vijaykumar, TN; Pomeranz, Irith ; Cheng, Karl (2002). "Recuperación de fallas transitorias mediante subprocesamiento simultáneo de múltiples hilos". ACM SIGARCH Computer Architecture News . 30 (2): 87. doi :10.1145/545214.545226. ISSN 0163-5964. S2CID 2270600.
^ Nahmsuk, Oh; Shirvani, Philip P.; McCluskey, Edward J. (2002). "Detección de errores mediante instrucciones duplicadas en procesadores superescalares". IEEE Transactions on Reliability . 51 : 63–75. doi :10.1109/24.994913.
^ Reis A., George A.; Chang, Jonathan; Vachharajani, Neil; Rangan, Ram; August, David I. (2005). "SWIFT: Tolerancia a fallos implementada en software". Simposio internacional sobre generación y optimización de código . Actas del simposio internacional sobre generación y optimización de código. págs. 243–254. CiteSeerX 10.1.1.472.4177 . doi :10.1109/CGO.2005.34. ISBN. 978-0-7695-2298-2. Número de identificación del sujeto 5746979.{{cite book}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
^ Didehban, Moslem; Shrivastava, Aviral (2016), "NZDC: una técnica de compilación para una corrupción de datos silenciosa casi nula", Actas de la 53.ª Conferencia anual de automatización del diseño , Actas de la 53.ª Conferencia anual de automatización del diseño (DAC): ACM, pág. 48, doi : 10.1145/2897937.2898054, ISBN 9781450342360, Número de identificación del sujeto 5618907{{citation}}: Mantenimiento de CS1: ubicación ( enlace )

Lectura adicional

Ziegler, JF; Lanford, WA (1979). "Efecto de los rayos cósmicos en las memorias de las computadoras". Science . 206 (4420): 776–788. Bibcode :1979Sci...206..776Z. doi :10.1126/science.206.4420.776. ISSN 0036-8075. PMID 17820742. S2CID 2000982.
Mukherjee, S., "Diseño de arquitectura para errores leves", Elsevier, Inc., febrero de 2008.
Mukherjee, S., "Fallos informáticos debidos a errores de software: un problema con múltiples soluciones", Microprocessor Report, 19 de mayo de 2008.

Enlaces externos

Errores suaves en la memoria electrónica: un libro blanco: un buen documento de resumen con muchas referencias: Tezzaron, enero de 2004. Concluye que 1000–5000 FIT por Mbit (0,2–1 error por día por Gbyte) es una tasa de error suave de DRAM típica.
Beneficios de Chipkill-Correct ECC para la memoria principal del servidor de PC: una discusión de 1997 sobre la confiabilidad de SDRAM: información interesante sobre "errores suaves" de rayos cósmicos , especialmente con respecto a los esquemas de código de corrección de errores
El impacto de los errores leves en la confiabilidad del sistema - Ritesh Mastipuram y Edwin C. Wee, Cypress Semiconductor, 2004
Cuestiones de escalabilidad y tecnología para las tasas de error blando - A Johnston - 4.ª Conferencia anual de investigación sobre fiabilidad, Universidad de Stanford, octubre de 2000
Evaluación de errores suaves LSI inducidos por rayos cósmicos terrestres y partículas alfa - H. Kobayashi, K. Shiraishi, H. Tsuchiya, H. Usuki (todos de Sony) y Y. Nagai, K. Takahisa (Universidad de Osaka), 2001.
Sitio web del taller SELSE: sitio web para el taller sobre los efectos del sistema de los errores lógicos