Calidad de robustez del hardware informático.
Fiabilidad, disponibilidad y capacidad de servicio ( RAS ), también conocida como confiabilidad, disponibilidad y mantenibilidad ( RAM ), es un término de ingeniería de hardware informático que implica ingeniería de confiabilidad , alta disponibilidad y diseño de capacidad de servicio . La frase fue utilizada originalmente por International Business Machines ( IBM ) como término para describir la robustez de sus computadoras centrales . [1] [2]
Las computadoras diseñadas con niveles más altos de RAS tienen muchas características que protegen la integridad de los datos y los ayudan a permanecer disponibles durante largos períodos de tiempo sin fallas [3] Esta integridad de los datos y tiempo de actividad es un punto de venta particular para mainframes y sistemas tolerantes a fallas .
Definiciones
Si bien RAS se originó como un término [ cita necesaria ] orientado al hardware , el pensamiento sistémico ha extendido el concepto de confiabilidad-disponibilidad-capacidad de servicio a los sistemas en general, incluido el software : [4]
- La confiabilidad se puede definir como la probabilidad de que un sistema produzca resultados correctos en un momento dado t . [5] La confiabilidad se ve reforzada por características que ayudan a evitar, detectar y reparar fallas de hardware. Un sistema confiable no continúa silenciosamente ni entrega resultados que incluyan datos corruptos sin corregir. En cambio, detecta y, si es posible, corrige la corrupción, por ejemplo: reintentando una operación para errores transitorios ( suaves ) o intermitentes, o bien, para errores incorregibles, aislando la falla e informándola a mecanismos de recuperación de nivel superior (que puede realizar una conmutación por error a hardware de reemplazo redundante, etc.), o bien detener el programa afectado o todo el sistema e informar la corrupción. La confiabilidad se puede caracterizar en términos de tiempo medio entre fallas (MTBF), con confiabilidad = exp(-t/MTBF). [5]
- Disponibilidad significa la probabilidad de que un sistema esté operativo en un momento dado, es decir, la cantidad de tiempo que un dispositivo está realmente funcionando como porcentaje del tiempo total que debería estar funcionando. Los sistemas de alta disponibilidad pueden informar la disponibilidad en términos de minutos u horas de inactividad por año. Las funciones de disponibilidad permiten que el sistema permanezca operativo incluso cuando ocurren fallas. Un sistema de alta disponibilidad desactivaría la parte que funciona mal y continuaría funcionando a una capacidad reducida. Por el contrario, un sistema menos capaz podría fallar y dejar de funcionar por completo. La disponibilidad normalmente se expresa como un porcentaje del tiempo que se espera que un sistema esté disponible, por ejemplo, 99,999 por ciento (" cinco nueves ").
- La capacidad de servicio o mantenimiento es la simplicidad y velocidad con la que se puede reparar o mantener un sistema; Si aumenta el tiempo necesario para reparar un sistema averiado, la disponibilidad disminuirá. La capacidad de servicio incluye varios métodos para diagnosticar fácilmente el sistema cuando surgen problemas. La detección temprana de fallas puede disminuir o evitar el tiempo de inactividad del sistema. Por ejemplo, algunos sistemas empresariales pueden llamar automáticamente a un centro de servicio (sin intervención humana) cuando el sistema experimenta una falla. El enfoque tradicional ha sido realizar las reparaciones correctas con la menor interrupción posible de las operaciones normales.
Tenga en cuenta la distinción entre confiabilidad y disponibilidad: la confiabilidad mide la capacidad de un sistema para funcionar correctamente, incluso evitando la corrupción de datos, mientras que la disponibilidad mide la frecuencia con la que el sistema está disponible para su uso, aunque no esté funcionando correctamente. Por ejemplo, un servidor puede funcionar indefinidamente y, por tanto, tener una disponibilidad ideal, pero puede no ser fiable y provocar daños frecuentes en los datos. [6]
Tipos de falla
Las fallas físicas pueden ser temporales o permanentes:
- Las fallas permanentes conducen a un error continuo y generalmente se deben a alguna falla física, como la electromigración del metal o una falla dieléctrica.
- Las fallas temporales incluyen fallas transitorias e intermitentes .
- Las fallas transitorias (también conocidas como suaves ) conducen a errores únicos e independientes y no se deben a fallas permanentes del hardware: los ejemplos incluyen partículas alfa que cambian un bit de memoria, ruido electromagnético o fluctuaciones en el suministro de energía.
- Las fallas intermitentes ocurren debido a un componente débil del sistema, por ejemplo, la degradación de los parámetros del circuito, lo que genera errores que probablemente se repitan. [5]
Respuestas fallidas
Las fallas transitorias e intermitentes generalmente se pueden manejar mediante detección y corrección mediante, por ejemplo, códigos ECC o repetición de instrucciones (ver más abajo). Las fallas permanentes conducirán a errores incorregibles que pueden manejarse mediante el reemplazo por hardware duplicado, por ejemplo, repuesto de procesador, o pasando el error incorregible a mecanismos de recuperación de alto nivel. Una falla intermitente corregida exitosamente también se puede informar al sistema operativo (OS) para proporcionar información para el análisis predictivo de fallas .
Funciones de hardware
Las características de hardware de ejemplo para mejorar RAS incluyen las siguientes, enumeradas por subsistema:
Los diseños tolerantes a fallos ampliaron la idea al hacer que RAS fuera la característica definitoria de sus computadoras para aplicaciones como bolsas de valores o control de tráfico aéreo , donde las fallas del sistema serían catastróficas. Las computadoras tolerantes a fallas (por ejemplo, ver Tandem Computers y Stratus Technologies ), que tienden a tener componentes duplicados ejecutándose al mismo tiempo para mayor confiabilidad, se han vuelto menos populares debido a su alto costo. Los sistemas de alta disponibilidad , que utilizan técnicas informáticas distribuidas como grupos de ordenadores , suelen utilizarse como alternativas más económicas. [ cita necesaria ]
Ver también
Referencias
- ^ Siewiorek, Daniel P.; Swarz, Robert S. (1998). Sistemas informáticos confiables: diseño y evaluación. Taylor y Francisco. pag. 508.ISBN 9781568810928.. "El acrónimo RAS (confiabilidad, accesibilidad y capacidad de servicio) tuvo una amplia aceptación en IBM como reemplazo de la noción subconjunto de gestión de recuperación".
- ^ División de Procesamiento de Datos, International Business Machines Corp., 1970 (1970). "Procesador de datos, números 13 a 17". ; : "La confiabilidad [...] experimentada por otros usuarios de System/370 es el resultado de una estrategia basada en RAS (Reliability-Availability-Serviceability)"Mantenimiento CS1: varios nombres: lista de autores ( enlace ) Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
- ^ Siewert, Sam (marzo de 2005). "Grandes lecciones de hierro, Parte 2: Fiabilidad y disponibilidad: ¿Cuál es la diferencia?" (PDF) .
- ^
Por ejemplo: Laros III, James H. (4 de septiembre de 2012). Computación de alto rendimiento con eficiencia energética: medición y ajuste. SpringerBriefs en informática. et al. Springer Science & Business Media (publicado en 2012). pag. 8.ISBN 9781447144922. Consultado el 8 de julio de 2014 .
Históricamente, los proveedores solían proporcionar sistemas de confiabilidad, disponibilidad y capacidad de servicio (RAS) en sistemas de clase mainframe. [...] El sistema RAS será una unión sistemática de software y hardware con el fin de gestionar y monitorear todos los componentes de hardware y software del sistema hasta su potencial individual.
- ^ a b C EJ McClusky y S. Mitra (2004). "Tolerancia a fallos" en el Manual de informática 2ed. ed. AB Tucker. Prensa CRC .
- ^ Spencer, Richard H.; Floyd, Raymond E. (11 de julio de 2011). Perspectivas de la ingeniería. Bloomington, Indiana: AuthorHouse (publicado en 2011). pag. 33.ISBN 9781463410919. Consultado el 5 de mayo de 2014 .
[...] servidor del sistema puede tener una excelente disponibilidad (se ejecuta para siempre), pero continúa teniendo datos dañados frecuentemente (no es muy confiable).
- ^ Daniel Lipetz y Eric Schwarz (2011). "Autocomprobación en unidades de punto flotante actuales. Actas del vigésimo simposio del IEEE sobre aritmética informática de 2011" (PDF) . Archivado desde el original (PDF) el 24 de enero de 2012 . Consultado el 6 de mayo de 2012 .
- ^ L. Spainhower y TA Gregg (septiembre de 1999). "Tolerancia a fallos G5 del servidor empresarial paralelo IBM S/390: una perspectiva histórica. IBM Journal of Research and Development. Volumen 43 Número 5" (PDF) . CiteSeerX 10.1.1.85.5994 .
- ^ "La tecnología Intel de reproducción de instrucciones detecta y corrige errores" . Consultado el 7 de diciembre de 2012 .
- ^ CV. "Evolución de la tecnología de la memoria: una descripción general de las tecnologías de memoria del sistema Resumen tecnológico, novena edición (página 8)" (PDF) . Archivado desde el original (PDF) el 24 de julio de 2011.
- ^ Intel Corp. (2003). "PCI Express proporciona confiabilidad, disponibilidad y capacidad de servicio empresarial".
- ^ "Mejores prácticas para la confiabilidad de los datos con Oracle VM Server para SPARC" (PDF) . Consultado el 2 de julio de 2013 .
- ^ "Consideraciones sobre redundancia de energía de IBM" . Consultado el 2 de julio de 2013 .
enlaces externos
- Características de confiabilidad, disponibilidad y capacidad de servicio (RAS) de Itanium Descripción general de las características de RAS en general y características específicas del procesador Itanium .
- Aspectos clave del sistema POWER7 RAS de la confiabilidad, disponibilidad y capacidad de servicio de los sistemas de energía. Daniel Henderson, Jim Mitchell y George Ahrens. 10 de febrero de 2012 Descripción general de las funciones RAS en los procesadores Power .
- Confiabilidad, disponibilidad y capacidad de servicio de Intel Corp. para la empresa siempre activa (apéndice B) y la familia de procesadores Intel Xeon E7: compatibilidad con servidores RAS de próxima generación. Papel blanco. Descripción general de las funciones RAS en los procesadores Xeon .
- zEnterprise 196 Descripción general del sistema. IBM Corp. (Capítulo 10) Descripción general de las funciones RAS del procesador IBM z196 y del servidor zEnterprise 196 .
- Maximización de la confiabilidad y disponibilidad de las aplicaciones con las funciones RAS del servidor SPARC M5-32 del servidor SPARC M5-32 de Oracle