stringtranslate.com

Fiabilidad, disponibilidad y facilidad de servicio

La confiabilidad, disponibilidad y capacidad de servicio ( RAS ), también conocida como confiabilidad, disponibilidad y capacidad de mantenimiento ( RAM ), es un término de ingeniería de hardware de computadoras que involucra ingeniería de confiabilidad , alta disponibilidad y diseño de capacidad de servicio . La frase fue utilizada originalmente por IBM como un término para describir la robustez de sus computadoras mainframe . [1] [2]

Las computadoras diseñadas con niveles más altos de RAS tienen muchas características que protegen la integridad de los datos y las ayudan a permanecer disponibles durante largos períodos de tiempo sin fallas . [3] Esta integridad de los datos y el tiempo de actividad son un argumento de venta particular para los mainframes y los sistemas tolerantes a fallas .

Definiciones

Si bien RAS se originó como un término orientado al hardware [ cita requerida ] , el pensamiento sistémico ha extendido el concepto de confiabilidad-disponibilidad-capacidad de servicio a los sistemas en general, incluido el software : [4]

Obsérvese la distinción entre confiabilidad y disponibilidad: la confiabilidad mide la capacidad de un sistema para funcionar correctamente, lo que incluye evitar la corrupción de datos, mientras que la disponibilidad mide la frecuencia con la que el sistema está disponible para su uso, aunque no funcione correctamente. Por ejemplo, un servidor puede funcionar indefinidamente y, por lo tanto, tener una disponibilidad ideal, pero puede ser poco confiable y sufrir corrupción de datos con frecuencia. [6]

Tipos de fallos

Las fallas físicas pueden ser temporales o permanentes:

Respuestas ante fallos

Las fallas transitorias e intermitentes pueden ser manejadas típicamente por detección y corrección mediante, por ejemplo, códigos ECC o reproducción de instrucciones (ver abajo). Las fallas permanentes darán lugar a errores incorregibles que pueden ser manejados por reemplazo por hardware duplicado, por ejemplo, reemplazo de procesador, o por el paso del error incorregible a mecanismos de recuperación de alto nivel. Una falla intermitente corregida exitosamente también puede ser reportada al sistema operativo (OS) para proporcionar información para el análisis predictivo de fallas .

Características del hardware

Entre los ejemplos de características de hardware para mejorar el RAS se incluyen los siguientes, enumerados por subsistema:

Los diseños tolerantes a fallos ampliaron la idea al hacer que el RAS fuera la característica definitoria de sus computadoras para aplicaciones como bolsas de valores o control de tráfico aéreo , donde las caídas del sistema serían catastróficas. Las computadoras tolerantes a fallos (por ejemplo, consulte Tandem Computers y Stratus Technologies ), que tienden a tener componentes duplicados funcionando al unísono para mayor confiabilidad, se han vuelto menos populares debido a su alto costo. Los sistemas de alta disponibilidad , que utilizan técnicas de computación distribuida como clústeres de computadoras , a menudo se utilizan como alternativas más económicas. [ cita requerida ]

Véase también

Referencias

  1. ^ Siewiorek, Daniel P.; Swarz, Robert S. (1998). Sistemas informáticos fiables: diseño y evaluación. Taylor & Francis. pág. 508. ISBN 9781568810928."El acrónimo RAS (confiabilidad, accesibilidad y facilidad de servicio) fue ampliamente aceptado en IBM como reemplazo del concepto de subconjunto de gestión de recuperación".
  2. ^ División de procesamiento de datos, International Business Machines Corp., 1970 (1970). "Procesador de datos, números 13-17". {{cite journal}}: |author=tiene nombre genérico ( ayuda ) ; Citar revista requiere |journal=( ayuda ) - "La confiabilidad [...] experimentada por otros usuarios del Sistema/370 es el resultado de una estrategia basada en RAS (Confiabilidad-Disponibilidad-Capacidad de Servicio)"Mantenimiento CS1: nombres múltiples: lista de autores ( enlace ) Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  3. ^ Siewert, Sam (marzo de 2005). "Grandes lecciones sobre el hierro, parte 2: confiabilidad y disponibilidad: ¿cuál es la diferencia?" (PDF) .
  4. ^ Por ejemplo: Laros III, James H. (4 de septiembre de 2012). Computación de alto rendimiento y eficiencia energética: medición y ajuste. SpringerBriefs in Computer Science. et al. Springer Science & Business Media (publicado en 2012). pág. 8. ISBN 9781447144922. Recuperado el 8 de julio de 2014. Históricamente, los sistemas de confiabilidad, disponibilidad y capacidad de servicio (RAS) eran comúnmente proporcionados por los proveedores en sistemas de clase mainframe. [...] El sistema RAS debe ser una unión sistemática de software y hardware con el propósito de administrar y monitorear todos los componentes de hardware y software del sistema en su potencial individual.
  5. ^ abc EJ McClusky y S. Mitra (2004). "Tolerancia a fallos" en Computer Science Handbook 2.ª edición, AB Tucker. CRC Press .
  6. ^ Spencer, Richard H.; Floyd, Raymond E. (11 de julio de 2011). Perspectivas sobre ingeniería. Bloomington, Indiana: AuthorHouse (publicado en 2011). pág. 33. ISBN 9781463410919. Recuperado el 5 de mayo de 2014. [...] un servidor de sistema puede tener una disponibilidad excelente (funciona indefinidamente), pero continúa teniendo una corrupción frecuente de datos (no es muy confiable).
  7. ^ Daniel Lipetz y Eric Schwarz (2011). "Autocomprobación en unidades de coma flotante actuales. Actas del 20.º Simposio IEEE sobre aritmética informática de 2011" (PDF) . Archivado desde el original (PDF) el 24 de enero de 2012. Consultado el 6 de mayo de 2012 .
  8. ^ L. Spainhower y TA Gregg (septiembre de 1999). "Tolerancia a fallos del servidor empresarial paralelo IBM S/390 G5: una perspectiva histórica. IBM Journal of Research and Development. Volumen 43, número 5" (PDF) . CiteSeerX 10.1.1.85.5994 . 
  9. ^ "La tecnología de reproducción de instrucciones de Intel detecta y corrige errores" . Consultado el 7 de diciembre de 2012 .
  10. ^ HP. "Evolución de la tecnología de memoria: una descripción general de las tecnologías de memoria del sistema Resumen tecnológico, 9.ª edición (página 8)" (PDF) . Archivado desde el original (PDF) el 24 de julio de 2011.
  11. ^ Intel Corp. (2003). "PCI Express ofrece confiabilidad, disponibilidad y facilidad de servicio a las empresas".
  12. ^ "Mejores prácticas para la confiabilidad de los datos con Oracle VM Server for SPARC" (PDF) . Consultado el 2 de julio de 2013 .
  13. ^ "Consideraciones sobre redundancia de energía de IBM" . Consultado el 2 de julio de 2013 .

Enlaces externos