stringtranslate.com

Fiabilidad, disponibilidad y capacidad de servicio.

Fiabilidad, disponibilidad y capacidad de servicio ( RAS ), también conocida como confiabilidad, disponibilidad y mantenibilidad ( RAM ), es un término de ingeniería de hardware informático que implica ingeniería de confiabilidad , alta disponibilidad y diseño de capacidad de servicio . La frase fue utilizada originalmente por International Business Machines ( IBM ) como término para describir la robustez de sus computadoras centrales . [1] [2]

Las computadoras diseñadas con niveles más altos de RAS tienen muchas características que protegen la integridad de los datos y los ayudan a permanecer disponibles durante largos períodos de tiempo sin fallas [3] Esta integridad de los datos y tiempo de actividad es un punto de venta particular para mainframes y sistemas tolerantes a fallas .

Definiciones

Si bien RAS se originó como un término [ cita necesaria ] orientado al hardware , el pensamiento sistémico ha extendido el concepto de confiabilidad-disponibilidad-capacidad de servicio a los sistemas en general, incluido el software : [4]

Tenga en cuenta la distinción entre confiabilidad y disponibilidad: la confiabilidad mide la capacidad de un sistema para funcionar correctamente, incluso evitando la corrupción de datos, mientras que la disponibilidad mide la frecuencia con la que el sistema está disponible para su uso, aunque no esté funcionando correctamente. Por ejemplo, un servidor puede funcionar indefinidamente y, por tanto, tener una disponibilidad ideal, pero puede no ser fiable y provocar daños frecuentes en los datos. [6]

Tipos de falla

Las fallas físicas pueden ser temporales o permanentes:

Respuestas fallidas

Las fallas transitorias e intermitentes generalmente se pueden manejar mediante detección y corrección mediante, por ejemplo, códigos ECC o repetición de instrucciones (ver más abajo). Las fallas permanentes conducirán a errores incorregibles que pueden manejarse mediante el reemplazo por hardware duplicado, por ejemplo, repuesto de procesador, o pasando el error incorregible a mecanismos de recuperación de alto nivel. Una falla intermitente corregida exitosamente también se puede informar al sistema operativo (OS) para proporcionar información para el análisis predictivo de fallas .

Funciones de hardware

Las características de hardware de ejemplo para mejorar RAS incluyen las siguientes, enumeradas por subsistema:

Los diseños tolerantes a fallos ampliaron la idea al hacer que RAS fuera la característica definitoria de sus computadoras para aplicaciones como bolsas de valores o control de tráfico aéreo , donde las fallas del sistema serían catastróficas. Las computadoras tolerantes a fallas (por ejemplo, ver Tandem Computers y Stratus Technologies ), que tienden a tener componentes duplicados ejecutándose al mismo tiempo para mayor confiabilidad, se han vuelto menos populares debido a su alto costo. Los sistemas de alta disponibilidad , que utilizan técnicas informáticas distribuidas como grupos de ordenadores , suelen utilizarse como alternativas más económicas. [ cita necesaria ]

Ver también

Referencias

  1. ^ Siewiorek, Daniel P.; Swarz, Robert S. (1998). Sistemas informáticos confiables: diseño y evaluación. Taylor y Francisco. pag. 508.ISBN​ 9781568810928.. "El acrónimo RAS (confiabilidad, accesibilidad y capacidad de servicio) tuvo una amplia aceptación en IBM como reemplazo de la noción subconjunto de gestión de recuperación".
  2. ^ División de Procesamiento de Datos, International Business Machines Corp., 1970 (1970). "Procesador de datos, números 13 a 17". {{cite journal}}: |author=tiene nombre genérico ( ayuda ) ; Cite Journal requiere |journal=( ayuda ) : "La confiabilidad [...] experimentada por otros usuarios de System/370 es el resultado de una estrategia basada en RAS (Reliability-Availability-Serviceability)"Mantenimiento CS1: varios nombres: lista de autores ( enlace ) Mantenimiento CS1: nombres numéricos: lista de autores ( enlace )
  3. ^ Siewert, Sam (marzo de 2005). "Grandes lecciones de hierro, Parte 2: Fiabilidad y disponibilidad: ¿Cuál es la diferencia?" (PDF) .
  4. ^ Por ejemplo: Laros III, James H. (4 de septiembre de 2012). Computación de alto rendimiento con eficiencia energética: medición y ajuste. SpringerBriefs en informática. et al. Springer Science & Business Media (publicado en 2012). pag. 8.ISBN 9781447144922. Consultado el 8 de julio de 2014 . Históricamente, los proveedores solían proporcionar sistemas de confiabilidad, disponibilidad y capacidad de servicio (RAS) en sistemas de clase mainframe. [...] El sistema RAS será una unión sistemática de software y hardware con el fin de gestionar y monitorear todos los componentes de hardware y software del sistema hasta su potencial individual.
  5. ^ a b C EJ McClusky y S. Mitra (2004). "Tolerancia a fallos" en el Manual de informática 2ed. ed. AB Tucker. Prensa CRC .
  6. ^ Spencer, Richard H.; Floyd, Raymond E. (11 de julio de 2011). Perspectivas de la ingeniería. Bloomington, Indiana: AuthorHouse (publicado en 2011). pag. 33.ISBN 9781463410919. Consultado el 5 de mayo de 2014 . [...] servidor del sistema puede tener una excelente disponibilidad (se ejecuta para siempre), pero continúa teniendo datos dañados frecuentemente (no es muy confiable).
  7. ^ Daniel Lipetz y Eric Schwarz (2011). "Autocomprobación en unidades de punto flotante actuales. Actas del vigésimo simposio del IEEE sobre aritmética informática de 2011" (PDF) . Archivado desde el original (PDF) el 24 de enero de 2012 . Consultado el 6 de mayo de 2012 .
  8. ^ L. Spainhower y TA Gregg (septiembre de 1999). "Tolerancia a fallos G5 del servidor empresarial paralelo IBM S/390: una perspectiva histórica. IBM Journal of Research and Development. Volumen 43 Número 5" (PDF) . CiteSeerX 10.1.1.85.5994 . 
  9. ^ "La tecnología Intel de reproducción de instrucciones detecta y corrige errores" . Consultado el 7 de diciembre de 2012 .
  10. ^ CV. "Evolución de la tecnología de la memoria: una descripción general de las tecnologías de memoria del sistema Resumen tecnológico, novena edición (página 8)" (PDF) . Archivado desde el original (PDF) el 24 de julio de 2011.
  11. ^ Intel Corp. (2003). "PCI Express proporciona confiabilidad, disponibilidad y capacidad de servicio empresarial".
  12. ^ "Mejores prácticas para la confiabilidad de los datos con Oracle VM Server para SPARC" (PDF) . Consultado el 2 de julio de 2013 .
  13. ^ "Consideraciones sobre redundancia de energía de IBM" . Consultado el 2 de julio de 2013 .

enlaces externos