Calidad de robustez del hardware informático
La confiabilidad, disponibilidad y capacidad de servicio ( RAS ), también conocida como confiabilidad, disponibilidad y capacidad de mantenimiento ( RAM ), es un término de ingeniería de hardware de computadoras que involucra ingeniería de confiabilidad , alta disponibilidad y diseño de capacidad de servicio . La frase fue utilizada originalmente por IBM como un término para describir la robustez de sus computadoras mainframe . [1] [2]
Las computadoras diseñadas con niveles más altos de RAS tienen muchas características que protegen la integridad de los datos y las ayudan a permanecer disponibles durante largos períodos de tiempo sin fallas . [3] Esta integridad de los datos y el tiempo de actividad son un argumento de venta particular para los mainframes y los sistemas tolerantes a fallas .
Definiciones
Si bien RAS se originó como un término orientado al hardware [ cita requerida ] , el pensamiento sistémico ha extendido el concepto de confiabilidad-disponibilidad-capacidad de servicio a los sistemas en general, incluido el software : [4]
- La confiabilidad puede definirse como la probabilidad de que un sistema produzca resultados correctos hasta un tiempo determinado t . [5] La confiabilidad se mejora con características que ayudan a evitar, detectar y reparar fallas de hardware. Un sistema confiable no continúa silenciosamente y entrega resultados que incluyen datos corruptos sin corregir. En cambio, detecta y, si es posible, corrige la corrupción, por ejemplo: reintentando una operación para errores transitorios ( suaves ) o intermitentes, o bien, para errores incorregibles, aislando la falla y reportándola a mecanismos de recuperación de nivel superior (que pueden conmutar por error a hardware de reemplazo redundante, etc.), o bien deteniendo el programa afectado o todo el sistema e informando la corrupción. La confiabilidad puede caracterizarse en términos de tiempo medio entre fallas (MTBF), con confiabilidad = exp(−t/MTBF). [5]
- La disponibilidad es la probabilidad de que un sistema esté operativo en un momento dado, es decir, la cantidad de tiempo que un dispositivo está realmente funcionando como porcentaje del tiempo total que debería estar funcionando. Los sistemas de alta disponibilidad pueden informar la disponibilidad en términos de minutos u horas de inactividad por año. Las características de disponibilidad permiten que el sistema permanezca operativo incluso cuando ocurren fallas. Un sistema de alta disponibilidad deshabilitaría la parte que funciona mal y continuaría operando a una capacidad reducida. Por el contrario, un sistema menos capaz podría colapsar y volverse totalmente inoperativo. La disponibilidad generalmente se da como un porcentaje del tiempo que se espera que un sistema esté disponible, por ejemplo, 99,999 por ciento (" cinco nueves ").
- La facilidad de mantenimiento o mantenibilidad es la simplicidad y velocidad con la que se puede reparar o mantener un sistema; si aumenta el tiempo para reparar un sistema averiado, la disponibilidad disminuirá. La facilidad de mantenimiento incluye varios métodos para diagnosticar fácilmente el sistema cuando surgen problemas. La detección temprana de fallas puede reducir o evitar el tiempo de inactividad del sistema. Por ejemplo, algunos sistemas empresariales pueden llamar automáticamente a un centro de servicio (sin intervención humana) cuando el sistema experimenta una falla. El enfoque tradicional ha sido hacer las reparaciones correctas con la menor interrupción posible de las operaciones normales.
Obsérvese la distinción entre confiabilidad y disponibilidad: la confiabilidad mide la capacidad de un sistema para funcionar correctamente, lo que incluye evitar la corrupción de datos, mientras que la disponibilidad mide la frecuencia con la que el sistema está disponible para su uso, aunque no funcione correctamente. Por ejemplo, un servidor puede funcionar indefinidamente y, por lo tanto, tener una disponibilidad ideal, pero puede ser poco confiable y sufrir corrupción de datos con frecuencia. [6]
Tipos de fallos
Las fallas físicas pueden ser temporales o permanentes:
- Las fallas permanentes conducen a un error continuo y generalmente se deben a alguna falla física, como la electromigración del metal o una ruptura dieléctrica.
- Las fallas temporales incluyen fallas transitorias e intermitentes .
- Las fallas transitorias (también conocidas como suaves ) provocan errores únicos e independientes y no se deben a fallas permanentes de hardware: algunos ejemplos incluyen partículas alfa que invierten un bit de memoria, ruido electromagnético o fluctuaciones en la fuente de alimentación.
- Las fallas intermitentes ocurren debido a un componente débil del sistema, por ejemplo, la degradación de los parámetros del circuito, lo que genera errores que probablemente se repitan. [5]
Respuestas ante fallos
Las fallas transitorias e intermitentes pueden ser manejadas típicamente por detección y corrección mediante, por ejemplo, códigos ECC o reproducción de instrucciones (ver abajo). Las fallas permanentes darán lugar a errores incorregibles que pueden ser manejados por reemplazo por hardware duplicado, por ejemplo, reemplazo de procesador, o por el paso del error incorregible a mecanismos de recuperación de alto nivel. Una falla intermitente corregida exitosamente también puede ser reportada al sistema operativo (OS) para proporcionar información para el análisis predictivo de fallas .
Características del hardware
Entre los ejemplos de características de hardware para mejorar el RAS se incluyen los siguientes, enumerados por subsistema:
Los diseños tolerantes a fallos ampliaron la idea al hacer que el RAS fuera la característica definitoria de sus computadoras para aplicaciones como bolsas de valores o control de tráfico aéreo , donde las caídas del sistema serían catastróficas. Las computadoras tolerantes a fallos (por ejemplo, consulte Tandem Computers y Stratus Technologies ), que tienden a tener componentes duplicados funcionando al unísono para mayor confiabilidad, se han vuelto menos populares debido a su alto costo. Los sistemas de alta disponibilidad , que utilizan técnicas de computación distribuida como clústeres de computadoras , a menudo se utilizan como alternativas más económicas. [ cita requerida ]
Véase también
Referencias
- ^ Siewiorek, Daniel P.; Swarz, Robert S. (1998). Sistemas informáticos fiables: diseño y evaluación. Taylor & Francis. pág. 508. ISBN 9781568810928."El acrónimo RAS (confiabilidad, accesibilidad y facilidad de servicio) fue ampliamente aceptado en IBM como reemplazo del concepto de subconjunto de gestión de recuperación".
- ^ División de procesamiento de datos, International Business Machines Corp., 1970 (1970). "Procesador de datos, números 13-17". ; - "La confiabilidad [...] experimentada por otros usuarios del Sistema/370 es el resultado de una estrategia basada en RAS (Confiabilidad-Disponibilidad-Capacidad de Servicio)"Mantenimiento CS1: nombres múltiples: lista de autores ( enlace ) Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
- ^ Siewert, Sam (marzo de 2005). "Grandes lecciones sobre el hierro, parte 2: confiabilidad y disponibilidad: ¿cuál es la diferencia?" (PDF) .
- ^
Por ejemplo: Laros III, James H. (4 de septiembre de 2012). Computación de alto rendimiento y eficiencia energética: medición y ajuste. SpringerBriefs in Computer Science. et al. Springer Science & Business Media (publicado en 2012). pág. 8. ISBN 9781447144922. Recuperado el 8 de julio de 2014.
Históricamente, los sistemas de confiabilidad, disponibilidad y capacidad de servicio (RAS) eran comúnmente proporcionados por los proveedores en sistemas de clase mainframe. [...] El sistema RAS debe ser una unión sistemática de software y hardware con el propósito de administrar y monitorear todos los componentes de hardware y software del sistema en su potencial individual.
- ^ abc EJ McClusky y S. Mitra (2004). "Tolerancia a fallos" en Computer Science Handbook 2.ª edición, AB Tucker. CRC Press .
- ^ Spencer, Richard H.; Floyd, Raymond E. (11 de julio de 2011). Perspectivas sobre ingeniería. Bloomington, Indiana: AuthorHouse (publicado en 2011). pág. 33. ISBN 9781463410919. Recuperado el 5 de mayo de 2014.
[...] un servidor de sistema puede tener una disponibilidad excelente (funciona indefinidamente), pero continúa teniendo una corrupción frecuente de datos (no es muy confiable).
- ^ Daniel Lipetz y Eric Schwarz (2011). "Autocomprobación en unidades de coma flotante actuales. Actas del 20.º Simposio IEEE sobre aritmética informática de 2011" (PDF) . Archivado desde el original (PDF) el 24 de enero de 2012. Consultado el 6 de mayo de 2012 .
- ^ L. Spainhower y TA Gregg (septiembre de 1999). "Tolerancia a fallos del servidor empresarial paralelo IBM S/390 G5: una perspectiva histórica. IBM Journal of Research and Development. Volumen 43, número 5" (PDF) . CiteSeerX 10.1.1.85.5994 .
- ^ "La tecnología de reproducción de instrucciones de Intel detecta y corrige errores" . Consultado el 7 de diciembre de 2012 .
- ^ HP. "Evolución de la tecnología de memoria: una descripción general de las tecnologías de memoria del sistema Resumen tecnológico, 9.ª edición (página 8)" (PDF) . Archivado desde el original (PDF) el 24 de julio de 2011.
- ^ Intel Corp. (2003). "PCI Express ofrece confiabilidad, disponibilidad y facilidad de servicio a las empresas".
- ^ "Mejores prácticas para la confiabilidad de los datos con Oracle VM Server for SPARC" (PDF) . Consultado el 2 de julio de 2013 .
- ^ "Consideraciones sobre redundancia de energía de IBM" . Consultado el 2 de julio de 2013 .
Enlaces externos
- Características de confiabilidad, disponibilidad y capacidad de servicio (RAS) de Itanium Descripción general de las características RAS en general y características específicas del procesador Itanium .
- Aspectos clave de los sistemas de potencia RAS: confiabilidad, disponibilidad y capacidad de servicio. Daniel Henderson, Jim Mitchell y George Ahrens. 10 de febrero de 2012 Descripción general de las características de RAS en los procesadores de potencia .
- Intel Corp. Confiabilidad, disponibilidad y capacidad de servicio para empresas siempre activas (apéndice B) y familia de procesadores Intel Xeon E7: compatibilidad con servidores RAS de próxima generación. Documento técnico. Descripción general de las características RAS en los procesadores Xeon .
- Descripción general del sistema zEnterprise 196. IBM Corp. (Capítulo 10) Descripción general de las características RAS del procesador IBM z196 y del servidor zEnterprise 196 .
- Maximización de la confiabilidad y disponibilidad de las aplicaciones con el servidor SPARC M5-32 Características RAS del servidor SPARC M5-32 de Oracle