Un fallo intermitente , a menudo llamado simplemente "intermitente" [ cita requerida ] (o anecdóticamente "interfallo" [ cita requerida ] ), es un mal funcionamiento de un dispositivo o sistema que ocurre a intervalos, generalmente irregulares, en un dispositivo o sistema que funciona normalmente en otros momentos. Los fallos intermitentes son comunes a todas las ramas de la tecnología , incluido el software informático . Un fallo intermitente es causado por varios factores contribuyentes, algunos de los cuales pueden ser efectivamente aleatorios , que ocurren simultáneamente. Cuanto más complejo sea el sistema o mecanismo involucrado, mayor será la probabilidad de un fallo intermitente.
Las fallas intermitentes no son fácilmente repetibles debido a sus complicados patrones de comportamiento. A veces también se las denomina fallas “suaves”, ya que no se manifiestan todo el tiempo y desaparecen de manera impredecible. Por el contrario, las fallas “duras” son fallas permanentes que ocurren durante un período de tiempo (o, a veces, son instantáneas). Tienen un sitio de falla específico (ubicación de la falla), un modo (cómo se manifiesta la falla) y un mecanismo, y no existe una recuperación impredecible para el sistema que falló. Dado que las fallas intermitentes no son fácilmente repetibles, es más difícil realizar un análisis de fallas para ellas, comprender sus causas fundamentales o aislar el sitio de falla que para las fallas permanentes. [1]
Los fallos intermitentes pueden ser una causa de ocurrencias de fallas no encontradas (NFF) en productos y sistemas electrónicos. NFF implica que ocurrió una falla (falla) o se informó que ocurrió durante el uso de un producto. El producto fue analizado o probado para confirmar la falla, pero no se pudo encontrar "una falla o falla". Un ejemplo común del fenómeno NFF ocurre cuando su computadora "se cuelga". Claramente, ha ocurrido una "falla". Sin embargo, si la computadora se reinicia, a menudo funciona nuevamente. El impacto de NFF y las fallas intermitentes puede ser profundo. Debido a sus características, los fabricantes pueden suponer una causa o causas en lugar de dedicar el tiempo y el dinero necesarios para determinar una causa raíz. Por ejemplo, un proveedor de discos duros afirmó que las NFF no eran fallas y permitió que todos los productos NFF se devolvieran al campo. Más tarde se determinó que estos productos tenían una tasa de devolución significativamente más alta, lo que sugiere que la condición NFF era en realidad el resultado de fallas intermitentes en el producto. El resultado fue un aumento de los costos de mantenimiento, una menor disponibilidad de los equipos, mayores inconvenientes para los clientes, una menor confianza de los clientes, daños a la reputación de la empresa y, en algunos casos, posibles riesgos de seguridad. [2]
Un ejemplo simple de una causa efectivamente aleatoria en un sistema físico es una conexión eléctrica límite en el cableado o un componente de un circuito , donde ( causa 1 , la causa que debe identificarse y rectificarse) dos conductores pueden tocarse sujetos a ( causa 2 , que no necesita identificarse) un cambio menor en la temperatura, vibración, orientación, voltaje, etc. (A veces esto se describe como una "conexión intermitente" en lugar de "falla"). En el software de computadora, un programa puede ( causa 1 ) no inicializar una variable que se requiere que sea inicialmente cero; si el programa se ejecuta en circunstancias tales que la memoria casi siempre está limpia antes de comenzar, funcionará mal en las raras ocasiones en que ( causa 2 ) la memoria donde está almacenada la variable resulte ser distinta de cero de antemano.
Las fallas intermitentes son notoriamente difíciles de identificar y reparar (" solucionar problemas ") porque cada factor individual no crea el problema por sí solo, por lo que los factores solo se pueden identificar mientras se produce el mal funcionamiento. La persona capaz de identificar y resolver el problema rara vez es el operador habitual. Debido a que el momento del mal funcionamiento es impredecible, y tanto el tiempo de inactividad del dispositivo o sistema como el tiempo de los ingenieros implican costos , la falla a menudo simplemente se tolera si no es demasiado frecuente a menos que cause problemas o peligros inaceptables. Por ejemplo, algunas fallas intermitentes en equipos críticos, como el equipo de soporte vital médico , podrían provocar la muerte de un paciente o, en aeronáutica, provocar que se aborte un vuelo o, en algunos casos, se estrelle.
Técnicas de resolución de problemas
Algunas técnicas para solucionar fallas intermitentes son:
- El registro automático de parámetros relevantes durante un tiempo lo suficientemente largo como para que se manifieste la falla puede ayudar; los valores de los parámetros en el momento de la falla pueden identificar la causa para que se puedan tomar las medidas correctivas adecuadas.
- Cambiar las circunstancias de funcionamiento mientras la falla está presente para ver si la falla desaparece o cambia temporalmente. Por ejemplo, golpear los componentes, enfriarlos con spray congelador, calentarlos. Golpear el gabinete puede eliminar temporalmente la falla.
- una base de datos de fallos similares que se han resuelto en equipos idénticos o similares [3]
- Cambios preventivos, sin intentar localizar la falla. Por ejemplo, los capacitores electrolíticos sujetos a altas corrientes de ondulación se pueden cambiar como una medida rutinaria, sin molestarse en solucionar el problema. Los conectores se pueden desconectar y volver a colocar. Esto a veces es una medida de desesperación; se cambian las cosas hasta que la falla deja de ocurrir y se espera que realmente se resuelva en lugar de permanecer latente.
- En sistemas eléctricos y sistemas de cable, se pueden utilizar técnicas de reflectometría de dominio temporal: se envían pulsos a través del cableado eléctrico y los pulsos reflejados se examinan para detectar anomalías, por ejemplo, fugas intermitentes durante las tensiones de la operación de la aeronave; esto solo se puede hacer para un canal de prueba a la vez y generalmente se limita a fallas intermitentes >100 milisegundos. [4]
- En sistemas complejos de múltiples canales, donde la falla o fallas pueden estar en una interconexión, el método ideal para encontrar una falla intermitente es poder monitorear, detectar y aislar todos los canales o rutas eléctricas de manera continua y simultánea. Esta metodología permite que el sistema bajo prueba se beneficie de una cobertura de prueba continua y completa mientras se realiza cualquier estrés ambiental del sistema. Este tipo no se puede realizar mediante tecnología de prueba de escaneo, sino que necesita tener alguna forma de red neuronal electrónica que pueda realizar estas pruebas sin la necesidad de escaneo y/o promedio digital; este régimen de prueba está cubierto por la MIL-PRF-32516 del Departamento de Defensa publicada en marzo de 2015 y exige que la tecnología de prueba funcione en la categoría de Clase 1 para combatir fallas intermitentes de manera efectiva. [5]
- Tres metodologías principales para mitigar el comportamiento intermitente en circuitos integrados son el retraso dinámico de instrucciones, el escalado de frecuencia del núcleo y la migración de subprocesos. Cuando el procesador incurre en más tiempo del esperado para ejecutar un proceso, se produce un retraso de tiempo y una violación de la sincronización. Esta falla se puede evitar mediante el uso de técnicas como el retraso dinámico de instrucciones. Este es un tipo de algoritmo que calcula las prioridades de programación durante la ejecución del sistema. El objetivo es responder dinámicamente a las condiciones cambiantes y formar una configuración optimizada y autosostenida. Otro enfoque para mitigar el retraso es el escalado de frecuencia del núcleo, que reduce el rendimiento de la CPU a una frecuencia más baja cuando se necesita menos y lo aumenta a una frecuencia más alta cuando se necesita más. La migración de subprocesos es otra técnica utilizada para superar los fallos intermitentes. Un subproceso es un conjunto ordenado de instrucciones que le dice a una computadora exactamente qué hacer. Cuando un subproceso específico encuentra fallas, el contenido del subproceso dentro del núcleo de la computadora defectuoso se transfiere a otro subproceso dentro de un núcleo inactivo, donde se aborda y resuelve el problema. [1]
Referencias
- ^ ab Bakhshi, Roozbeh; Kunche, Surya; Pecht, Michael (18 de febrero de 2014). "Fallos intermitentes en hardware y software". Revista de empaquetado electrónico . 136 (1): 011014. doi :10.1115/1.4026639. ISSN 1043-7398.
- ^ Qi, H.; Ganesan, S.; Pecht, M. (mayo de 2008). "Fallas intermitentes y sin detección de fallas en productos electrónicos". Microelectronics Reliability . 48 (5): 663–674. doi :10.1016/j.microrel.2008.02.003.
- ^ Ejemplo de avería intermitente de un televisor en la base de datos «Highlandelectrix PANASONI.TV». Archivado desde el original el 13 de abril de 2009. Consultado el 19 de julio de 2010 .: "CHASIS Z3T - NO ARRANCA - INTERMITENTE. D1124 (5,1 V) FUGA DEL ZENER"
- ^ "Reflectometría de espectro ensanchado en el dominio del tiempo para localizar fallas intermitentes Archivado el 1 de mayo de 2010 en archive.today " Furse, Cynthia ; Smith, Paul; IEEE SENSORS JOURNAL, VOL. 5, N.º 6, DICIEMBRE DE 2005"
- ^ "No se encontró ningún fallo, se puede repetir la prueba, no se puede duplicar o no se encontró ningún fallo: hacia una taxonomía estandarizada [1]" Samir Khan, Paul Phillips, Chris Hockley, Ian Jennions
Enlaces externos
- Una discusión sobre la depuración de software
- Preguntas frecuentes sobre Sci.electronics.repair, consulte la sección "Solución de problemas intermitentes"