Filosofía de mantenimiento

La filosofía de mantenimiento es la combinación de estrategias que garantizan que un elemento funcione como se espera cuando es necesario. ^[1]^[2]

Definición

El mantenimiento es una forma de gestión de riesgos que se requiere si y solo si un elemento no cumple con el nivel mínimo de rendimiento de especificación cuando se requiere el elemento o el sistema.

El mantenimiento es opcional y puede no ser necesario si el elemento parcialmente averiado aún satisface el nivel mínimo de rendimiento de especificación o si el elemento no es necesario durante un período de tiempo.

El mantenimiento se realiza en cuatro fases.

Detección de fallos
Aislamiento de fallos
Acción correctiva
Verificación operativa

Se dice que un elemento está degradado cuando existen fallas pero el funcionamiento normal puede continuar.

Se utiliza la recuperación automática para evitar la necesidad de mantenimiento.

La recuperación automática en caso de fallo es necesaria para sistemas y recursos a los que no se puede acceder durante el despliegue, como cohetes, misiles, satélites, sumergibles y elementos enterrados o encapsulados. Existen múltiples enfoques.

Artículos personalizados diseñados específicamente para una confiabilidad ultra alta.
Elementos redundantes con funciones de reconfiguración que evitan automáticamente las fallas
Pruebas de lotes para reducir defectos de fabricación

Los elementos redundantes aumentan la tasa de fallas y reducen la confiabilidad si la recuperación no es automática.

Detección de fallos

La detección de fallas implica dos estrategias de mantenimiento diferentes que interactúan con el costo del ciclo de vida y la disponibilidad.

Condicional
Periódico

Condicional

El mantenimiento condicional se basa en indicadores que indican a los usuarios cuando un elemento falla.

El sistema está totalmente averiado y no puede funcionar como se esperaba
El sistema funcionará como se espera, pero está degradado.

Esto requiere detección y generación de informes automáticos de fallos.

El mantenimiento basado en condiciones (CBM) requiere una notificación claramente observable o audible que sea adecuada para usuarios no sofisticados y no capacitados, que incluye lo siguiente.

Indicador de color (luz roja o amarilla)
Pantalla que muestra la frase fallida o degradada junto al nombre del artículo
Calibre con bandas verdes, amarillas y rojas claramente definidas para normal versus fallado
Indicaciones audibles, como un timbre, una campana o una voz sintetizada.

Las acciones de mantenimiento de recuperación comienzan después de que se produce la notificación.

Se dice que los elementos están instrumentados cuando la notificación se realiza automáticamente en caso de falla. Existen dos enfoques.

De extremo a extremo (ETE)
Dispositivos de autoinforme

Las pruebas ETE implican un proceso automatizado que inyecta periódicamente algo en el elemento y luego se examinan los resultados para determinar si satisfacen el nivel de rendimiento requerido por la especificación. Esto puede ser intrusivo y podría interferir brevemente con el funcionamiento normal.

Los dispositivos de autorreporte incluyen funciones de prueba automática integradas (BIT) que son menos intrusivas.

Los elementos que no cuentan con los tipos de notificaciones adecuados para CBM tienen modos de falla silenciosos que requieren acciones periódicas de mantenimiento preventivo.

Periódico

En última instancia, se producirán fallos operativos cuando un elemento se utilice en su modo de funcionamiento normal si no se realiza ninguna intervención. Los procedimientos asociados con el mantenimiento periódico se denominan generalmente Sistema de mantenimiento periódico (SMP).

Existe el riesgo de que el sistema no funcione como se espera, y este riesgo crece a medida que pasa el tiempo debido a la creciente posibilidad de fallas silenciosas que causan fallas operativas.

Las acciones de mantenimiento periódico controlan el riesgo de fallas operativas. Se basan en procedimientos invasivos que dejan un sistema inoperativo por un breve período mientras los usuarios ejecutan procedimientos de diagnóstico o preventivos manuales. A continuación se presentan algunos ejemplos.

Calibración
Prueba incorporada (BIT)
Diagnóstico externo (instrumentación)
Prueba de funcionamiento del sistema (SOT)

El artículo está inactivo y no está disponible para su funcionamiento normal mientras se realiza un procedimiento de mantenimiento periódico.

El fracaso es estadístico. Existe una probabilidad aleatoria de que el sistema o el elemento no funcionen cuando se los necesita. La fiabilidad disminuye con el paso del tiempo y la probabilidad de fracaso aumenta hasta que se toman medidas.

El artículo eventualmente fallará si no hay intervención.

El mantenimiento periódico reduce cada vez más los riesgos de fallos operativos, ya que los procedimientos se utilizan con mayor frecuencia. La fiabilidad media mejora a medida que se reduce el tiempo entre las acciones de mantenimiento.

Reliability=0.5\times \left(1+e^{\left(-\lambda \times Time\ Between\ Maintenance\ Actions\right)}\right)

Por ejemplo, un elemento sin características CBM funcionará como se espera aproximadamente el 90 % del tiempo si se realiza un mantenimiento periódico con una frecuencia aproximadamente 5 veces mayor que el MTBF.

0.9\approx 0.5\times \left(1+e^{-0.2}\right)

Aislamiento de fallos

El aislamiento de fallas es la estrategia que se utiliza para identificar la causa raíz de una falla. Existen dos métodos.

Aislamiento automático de fallas
Aislamiento manual de fallas

Aislamiento automático de fallas

El aislamiento automático de fallas identifica la causa raíz de la falla sin intervención manual.

Esto generalmente se utiliza para controlar elementos redundantes cuando es necesario omitir fallas automáticamente.

Aislamiento manual de fallas

El aislamiento manual de fallas es cuando el personal de mantenimiento debe identificar la causa raíz de una falla. Esto generalmente requiere lo siguiente:

Pruebas diagnósticas manuales
Equipo de prueba
Piezas de repuesto
Documentación
Capacitación

La instrumentación del dispositivo utilizada con CBM generalmente se utiliza para reducir el tiempo y el esfuerzo necesarios para aislar la causa raíz.

Acción correctiva

La acción correctiva es la actividad que restaura el rendimiento del elemento o sistema después de una falla.

Hay dos tipos de acciones correctivas.

Automático
Manual

Acción correctiva automática

La corrección automática es posible para sistemas redundantes cuando la detección de fallas, el aislamiento de fallas y la derivación de fallas son todas automáticas.

La acción correctiva automática también se llama Recuperación Activa y Autocuración .

Esta técnica se puede utilizar para aumentar el MTBF al tiempo durante el cual será necesario utilizar un artículo sin mantenimiento.

A modo de ejemplo, se espera que fallen los vehículos espaciales que deben funcionar correctamente durante hasta 10 años en un entorno hostil.

La redundancia se puede lograr lanzando una gran cantidad de satélites, lo que constituye una solución práctica para cosas como el Sistema de Posicionamiento Global (GPS) porque cada vehículo ocupa una órbita ligeramente diferente.

Esto no es posible en órbita geoestacionaria, donde todas las funciones deben ser realizadas por un solo vehículo que mantenga una posición estable en un punto específico de la superficie terrestre. Los satélites destinados a operar en órbita geoestacionaria deben incorporar una recuperación activa que evite un fallo total cuando una o más partes fallan.

La Acción Correctiva Automática incorpora todas las piezas de repuesto en el diseño para dar cabida a todas las fallas que se puedan anticipar durante un período de tiempo específico.

Acción correctiva manual

La acción correctiva manual es cuando el personal de mantenimiento capacitado realiza una acción de calibración o reemplazo para restaurar el funcionamiento.

Las acciones correctivas para elementos redundantes incluyen la reconfiguración manual cuando la derivación automática de fallas no está disponible, lo que depende de la cobertura de mantenimiento.

El reemplazo de la pieza defectuosa depende de la unidad mínima reemplazable (LRU). Puede ser una pieza dentro de un artículo o puede ser el artículo completo. Esta decisión se toma en función de cuál es menos costoso de reemplazar.

Por ejemplo, una unidad de disco nueva cuesta unos 200 dólares, la asistencia técnica para sustituir la unidad de disco cuesta 500 dólares y una computadora reacondicionada cuesta unos 600 dólares. Si sustituye su propia unidad de disco e instala su propio sistema operativo, le resultará más económico comprar la unidad de disco. Si necesita asistencia técnica, le resultará más económico sustituir toda la computadora.

Verificación operativa

La verificación operacional es cualquier acción que se realiza para verificar que el artículo o sistema está operativo.

Generalmente, esto implica utilizar el sistema en su modo normal de operación, lo que podría implicar una operación real o una operación simulada.

Fiabilidad

El mantenimiento está estrechamente asociado con la confiabilidad porque el mantenimiento es necesario para restaurar la capacidad que se ha perdido debido a una falla.

Los dispositivos electrónicos se desintegran de una manera matemáticamente equivalente a los procesos de desintegración radiactiva de átomos inestables.

Los fallos electrónicos se rigen por procesos aleatorios, donde el tiempo medio entre fallos identifica la cantidad promedio de horas hasta que se produce el fallo. Lambda $\lambda$ identifica la cantidad de fallos esperados por hora.

\lambda ={\frac {1}{Mean\ Time\ Between\ Failure}}

La confiabilidad es la probabilidad de que no ocurra una falla durante un lapso de tiempo específico.

Reliability=e^{\left(-\lambda \times Time\right)}

Probability\ of\ Failure=1-Reliability

La tasa de fallas se basa en matemáticas logarítmicas para simplificar los cálculos utilizando un tipo de análisis muy similar al utilizado para los circuitos electrónicos. $\lambda$

La tasa de fallas total de un elemento complejo es la suma de todas las tasas de fallas de todos los componentes individuales del elemento. Esto se aplica a situaciones en las que la falla de un componente hace que falle todo el elemento. El tipo de cálculo es similar al de un circuito electrónico en serie.

\lambda =\lambda _{1}+\lambda _{2}+...+\lambda _{n}=\sum _{k=1}^{N}\lambda _{k}

La tasa de fallas general de los elementos con superposición redundante total es la inversa de la suma del MTBF de todos los elementos redundantes individuales. Esto se aplica a situaciones en las que todos los componentes del elemento deben fallar antes de que falle el elemento. El tipo de cálculo es similar al de un circuito electrónico paralelo.

\lambda =\left({\dfrac {1}{{\dfrac {1}{\lambda _{1}}}+{\dfrac {1}{\lambda _{2}}}+...+{\dfrac {1}{\lambda _{n}}}}}\right)=\left({\dfrac {1}{\sum _{k=1}^{N}{\dfrac {1}{\lambda _{k}}}}}\right)

Se utiliza un diagrama de bloques de confiabilidad para construir un modelo para artículos grandes. Esto permite trazabilidad cuando se identifican los requisitos de financiación y mano de obra mediante cálculos de confiabilidad.

La tasa de fallos de los dispositivos de silicio y carbono se duplica por cada aumento de temperatura de 1 ºC. Los dispositivos electrónicos que funcionan a 1 ºC fallan con una frecuencia 64 veces mayor que los mismos tipos de dispositivos que funcionan a 1 ºC. Esta relación se mantiene por encima de 1 ºC. $5^{o}$ $60^{o}$ $30^{o}$ $25^{o}$

La confiabilidad del transporte es similar, pero los valores se expresan en términos de distancia, como fallas por milla o fallas por kilómetro.

La tasa de fallas se puede expresar en términos de número de ciclos. El choque térmico causado por el calentamiento y el enfriamiento puede inducir fallas cuando se enciende y se apaga la energía. La mayoría de los interruptores mecánicos están diseñados para funcionar 10.000 ciclos antes de fallar, lo que equivale a unos 30 años para una tasa de ciclo de 1 acción por día.

La distancia, el ciclo y la confiabilidad de la descomposición tienen contribuciones independientes que afectan la tasa general de fallas.

Disponibilidad

La disponibilidad se utiliza generalmente con sistemas que incorporan mantenimiento periódico.

La disponibilidad es la probabilidad de que un artículo funcione correctamente durante un período de tiempo cuando se utiliza en momentos aleatorios durante ese período.

Availability={\frac {Available\ Time}{Total\ Time}}

Total\ Time=Available\ Time+Down\ Time

Down\ Time=Maintenance\ Time+Faulted\ Time

El tiempo disponible es el tiempo en el que el sistema está en pleno funcionamiento. El tiempo de inactividad es el tiempo en el que el sistema no está disponible para su uso normal y consiste en el tiempo en el que se realiza el mantenimiento periódico y el tiempo en el que el sistema presenta fallas.

Los cálculos de disponibilidad son significativos para los artículos con piezas reemplazables solo cuando los modos de falla tienen una cobertura adecuada.

Coverage>Availability

Preparación

La preparación es significativa cuando el artículo no requiere tiempo de inactividad para mantenimiento periódico. Esta es una medida útil para los artículos que incorporan recuperación automática o mantenimiento basado en la condición.

La preparación es la probabilidad de que un elemento funcione como se espera cuando se utiliza en cualquier momento aleatorio mientras el elemento está en el modo de funcionamiento correcto.

Readiness=1-\lambda \times Mean\ Time\ To\ Recover

El tiempo medio de recuperación de las acciones manuales se mide o estima generalmente. El siguiente es un ejemplo del tipo de valores que se podrían utilizar para estimar la parte mecánica del tiempo de recuperación asociado con el reemplazo de una tarjeta de circuito averiada.

Correa de muñeca estática

120 segundos

Pernos y tornillos con tuerca cautiva

quitar 15 segundos; reemplazar 30 segundos

Pernos y tornillos con tuerca suelta

quitar 30 segundos; reemplazar 60 segundos

Cables pequeños

Desconectar 15 segundos; volver a conectar 60 segundos

Tarjeta de circuito

quitar 30 segundos; insertar 120 segundos

Los cálculos de preparación son significativos para los artículos con piezas reemplazables solo cuando los modos de falla tienen una cobertura adecuada.

Coverage>Readiness

Cobertura

La cobertura de mantenimiento evalúa la proporción de fallas detectadas por CBM y PMS.

Coverage={\frac {Faults\ Detected\ By\ CBM+Faults\ Detected\ By\ PMS}{Total\ Possible\ Faults}}

Se puede realizar una estimación aproximada de la cobertura observando la relación entre fallas operacionales y acciones de mantenimiento.

Coverage\approx {\frac {Total\ Faults\ Excluding\ Operational\ Failure}{Total\ Faults\ Including\ Operational\ Failure}}

Los cálculos de disponibilidad, cálculos de preparación y reclamos relacionados solo son válidos si la cobertura excede la disponibilidad.

Militar versus comercial

Los sistemas militares y los grandes sistemas comerciales comparten restricciones de confiabilidad.

La capacidad de un sistema militar de continuar funcionando después de un daño en batalla se denomina capacidad de supervivencia .

La Política de Mantenimiento Militar (MMP) es necesaria para los sistemas de defensa. Los diseños suelen incluir redundancia con detección automática de fallas, aislamiento automático de fallas y derivación automática de fallas. Estas reconfiguran los sistemas sin intervención humana después de un daño en combate y una falla normal.

La mayoría de los artículos comerciales listos para usar (COTS) se implementan en un entorno benigno, pero los dispositivos electrónicos fallan de manera muy similar al daño aleatorio constante en batalla. Este efecto empeora a medida que aumenta el tamaño.

El tiempo de inactividad excesivo es un tipo de defecto de diseño que afecta a todos los sistemas grandes.

Por ejemplo, si un sistema está formado por 1000 ordenadores individuales, cada uno con un tiempo medio entre fallos (MTBF) de 3 años, el MTBF de todo el sistema será de 1 día. Si el tiempo medio de reparación (MTTR) es de 3 días, el sistema nunca funcionará.

Si el mismo sistema incluye 1.010 computadoras, entonces las fallas serán raras si el sistema incluye detección automática de fallas, aislamiento automático de fallas y derivación automática de fallas.

Esto demuestra por qué los grandes sistemas comerciales requieren el mismo tipo de filosofía de mantenimiento que los sistemas militares.

Véase también

Enlaces externos

Instrucción OPNAV 4790.13A, Mantenimiento de equipos electrónicos de buques de superficie, Departamento de la Marina
Instrucción OPNAV 4790.4E, Política del sistema de gestión de materiales y mantenimiento de buques (3-M), Departamento de la Marina (mantenimiento periódico)
Instrucción OPNAV 4790.16A, Política de mantenimiento basada en la condición, Departamento de la Marina
Instrucción OPNAV 4700.7L, Política de mantenimiento para buques de la Armada de los Estados Unidos, Departamento de la Armada
Instrucción OPNAV 3000.12A, Disponibilidad operativa de equipos y sistemas de armas, Departamento de la Marina
Instrucción OPNAV 3500.39C, Gestión de riesgos operacionales, Departamento de la Marina
Instrucción OPNAV 3501.316B, Política para la composición básica y las capacidades básicas de misión de los principales grupos navales y de la Armada a flote, Departamento de la Armada
Instrucción OPNAV 3501.383, Guía de informes de preparación de la flota, Departamento de la Marina
Instrucción OPNAV 8000.16C, Programa de gestión de mantenimiento de artillería naval, Departamento de la Marina
Instrucción OPNAV 9070.1, Política de supervivencia para buques de superficie de la Armada de los EE. UU., Departamento de la Armada

Referencias

^ "Se publica nueva política de confiabilidad". Universidad de Adquisiciones de Defensa.
^ "Emisiones del DoN". Departamento de la Marina. Archivado desde el original el 17 de marzo de 2013.