Confianza

En ingeniería de sistemas , la confiabilidad es una medida de la disponibilidad , fiabilidad , mantenibilidad y, en algunos casos, otras características de un sistema como durabilidad , seguridad y protección . ^[1] En informática en tiempo real , la confiabilidad es la capacidad de proporcionar servicios en los que se pueda confiar dentro de un período de tiempo. ^[2] Las garantías del servicio deben mantenerse incluso cuando el sistema está sujeto a ataques o fallos naturales.

La Comisión Electrotécnica Internacional (IEC), a través de su Comité Técnico TC 56 , desarrolla y mantiene normas internacionales que proporcionan métodos y herramientas sistemáticos para la evaluación y gestión de la confiabilidad de equipos, servicios y sistemas a lo largo de sus ciclos de vida. El Grupo de Trabajo 10.4 ^[3] de la IFIP sobre "Computación confiable y tolerancia a fallas" desempeña un papel en la síntesis del progreso de la comunidad técnica en el campo y organiza dos talleres cada año para difundir los resultados.

La confiabilidad se puede dividir en tres elementos:

Atributos : una forma de evaluar la confiabilidad de un sistema
Amenazas : una comprensión de las cosas que pueden afectar la confiabilidad de un sistema.
Medios : formas de aumentar la confiabilidad de un sistema

Historia

Algunas fuentes sostienen que la palabra se acuñó en la década de 1910 en la publicidad impresa de automóviles de Dodge Brothers, pero es anterior a ese período: el Oxford English Dictionary la encontró por primera vez en 1901.

A medida que el interés en la tolerancia a fallas y la confiabilidad del sistema aumentó en las décadas de 1960 y 1970, la confiabilidad pasó a ser una medida de [x] a medida que las medidas de confiabilidad comenzaron a abarcar medidas adicionales como seguridad e integridad. ^[4] A principios de la década de 1980, Jean-Claude Laprie eligió la confiabilidad como el término para abarcar los estudios de tolerancia a fallas y confiabilidad del sistema sin la extensión del significado inherente a la confiabilidad . ^[5]

El campo de la confiabilidad ha evolucionado desde estos inicios hasta convertirse en un campo de investigación internacionalmente activo, promovido por una serie de conferencias internacionales importantes, en particular la Conferencia Internacional sobre Sistemas y Redes Confiables , el Simposio Internacional sobre Sistemas Distribuidos Confiables y el Simposio Internacional sobre Ingeniería de Confiabilidad del Software .

Tradicionalmente, la confiabilidad de un sistema incorpora disponibilidad , fiabilidad y mantenibilidad , pero desde los años 1980, se han añadido seguridad y protección a las medidas de confiabilidad. ^[6]

Elementos de confiabilidad

Atributos

Los atributos son cualidades de un sistema. Se pueden evaluar para determinar su confiabilidad general mediante medidas cualitativas o cuantitativas . Avizienis et al. definen los siguientes atributos de confiabilidad:

Disponibilidad - preparación para un servicio correcto
Confiabilidad - continuidad del servicio correcto
Seguridad : ausencia de consecuencias catastróficas para el usuario o usuarios y el medio ambiente.
Integridad : ausencia de alteraciones indebidas del sistema
Mantenibilidad : capacidad de fácil mantenimiento (reparación)

Como sugieren estas definiciones, solo la disponibilidad y la confiabilidad son cuantificables mediante mediciones directas, mientras que otras son más subjetivas. Por ejemplo, la seguridad no se puede medir directamente mediante métricas, sino que es una evaluación subjetiva que requiere que se aplique información basada en juicios para brindar un nivel de confianza, mientras que la confiabilidad se puede medir como fallas a lo largo del tiempo.

La confidencialidad , es decir, la ausencia de divulgación no autorizada de información, también se utiliza cuando se habla de seguridad. La seguridad es una combinación de confidencialidad , integridad y disponibilidad . La seguridad a veces se clasifica como un atributo ^[7] , pero la visión actual es agregarla junto con la fiabilidad y tratar la fiabilidad como un término compuesto llamado fiabilidad y seguridad. ^[2]

En la práctica, la aplicación de medidas de seguridad a los dispositivos de un sistema generalmente mejora la confiabilidad al limitar el número de errores de origen externo.

Amenazas

Las amenazas son elementos que pueden afectar a un sistema y provocar una disminución de la confiabilidad. Hay tres términos principales que deben entenderse claramente:

Fallo: Un fallo (que por razones históricas suele denominarse error) es un defecto en un sistema. La presencia de un fallo en un sistema puede provocar o no un fallo. Por ejemplo, aunque un sistema pueda contener un fallo, sus condiciones de entrada y estado pueden no provocar nunca que se ejecute dicho fallo de modo que se produzca un error; por lo tanto, ese fallo en particular nunca se manifiesta como un fallo.
Error: Un error es una discrepancia entre el comportamiento previsto de un sistema y su comportamiento real dentro de los límites del sistema. Los errores ocurren en tiempo de ejecución cuando alguna parte del sistema entra en un estado inesperado debido a la activación de una falla. Dado que los errores se generan a partir de estados no válidos, son difíciles de observar sin mecanismos especiales, como depuradores o salidas de depuración en registros.
Fallo: Un fallo es un momento en el que un sistema muestra un comportamiento contrario a su especificación. Un error no necesariamente causa un fallo; por ejemplo, un sistema puede generar una excepción, pero esta puede detectarse y manejarse mediante técnicas de tolerancia a fallos, de modo que el funcionamiento general del sistema se ajuste a la especificación.

Es importante tener en cuenta que las fallas se registran en el límite del sistema. Básicamente, son errores que se han propagado al límite del sistema y se han vuelto observables. Las fallas, los errores y las fallas operan de acuerdo con un mecanismo. Este mecanismo a veces se conoce como cadena de falla-error-falla. ^[8] Como regla general, una falla, cuando se activa, puede conducir a un error (que es un estado inválido) y el estado inválido generado por un error puede conducir a otro error o una falla (que es una desviación observable del comportamiento especificado en el límite del sistema). ^[9]

Una vez que se activa una falla, se crea un error. Un error puede actuar de la misma manera que una falla, ya que puede crear más condiciones de error; por lo tanto, un error puede propagarse varias veces dentro de los límites del sistema sin causar una falla observable. Si un error se propaga fuera de los límites del sistema, se dice que se produce una falla. Una falla es básicamente el punto en el que se puede decir que un servicio no cumple con su especificación. Dado que los datos de salida de un servicio pueden ingresarse en otro, una falla en un servicio puede propagarse a otro servicio como una falla, por lo que se puede formar una cadena de la forma: Falla que conduce a Error que conduce a Falla que conduce a Error, etc.

Medio

Una vez que se comprende el mecanismo de una cadena de fallas y errores, es posible construir medios para romper estas cadenas y, de ese modo, aumentar la confiabilidad de un sistema. Hasta ahora se han identificado cuatro medios:

Prevención
Eliminación
Pronóstico
Tolerancia

La prevención de fallos se ocupa de evitar que se introduzcan fallos en un sistema. Esto se puede lograr mediante el uso de metodologías de desarrollo y buenas técnicas de implementación.

La eliminación de fallas se puede subdividir en dos subcategorías: eliminación durante el desarrollo y eliminación durante el uso.
La eliminación durante el desarrollo requiere verificación para que se puedan detectar y eliminar las fallas antes de que un sistema se ponga en producción. Una vez que los sistemas se han puesto en producción, se necesita un sistema para registrar las fallas y eliminarlas mediante un ciclo de mantenimiento.

La previsión de fallas predice fallas probables para que puedan eliminarse o evitarse sus efectos. ^[10]^[11]

La tolerancia a fallos se ocupa de poner en marcha mecanismos que permitan que un sistema siga prestando el servicio requerido en presencia de fallos, aunque dicho servicio pueda estar en un nivel degradado.

Los medios de confiabilidad tienen como objetivo reducir el número de fallas visibles para los usuarios finales de un sistema.

Persistencia

Según cómo aparezcan o persistan las fallas, se clasifican en:

Transitorios: Aparecen sin causa aparente y desaparecen nuevamente sin causa aparente
Intermitentes: aparecen varias veces, posiblemente sin un patrón discernible, y desaparecen por sí solos.
Permanentes: Una vez que aparecen, no se resuelven por sí solas.

Confiabilidad de los sistemas de información y capacidad de supervivencia

Algunos trabajos sobre confiabilidad ^{[12] utilizan}sistemas de información estructurados , por ejemplo con SOA , para introducir el atributo capacidad de supervivencia , tomando así en cuenta los servicios degradados que un sistema de información mantiene o reanuda después de un fallo no enmascarable.

La flexibilidad de los marcos actuales alienta a los arquitectos de sistemas a habilitar mecanismos de reconfiguración que reorienten los recursos disponibles y seguros para respaldar los servicios más críticos en lugar de aprovisionarlos en exceso para construir un sistema a prueba de fallas.

Con la generalización de los sistemas de información en red, se introdujo la accesibilidad para dar mayor importancia a la experiencia de los usuarios.

Para tener en cuenta el nivel de rendimiento, la medición de la ejecutabilidad se define como "cuantificar qué tan bien se desempeña el sistema objeto en presencia de fallas durante un período de tiempo específico". ^[13]

Véase también

Conferencia internacional sobre sistemas y redes confiables – Conferencia sobre redes de computadoras
Inyección de fallas : prueba de cómo se comportan los sistemas informáticos bajo tensiones inusuales
Tolerancia a fallos : resiliencia de los sistemas ante fallos o errores de los componentes.
Métodos formales – Especificaciones de programas matemáticos
Lista de atributos de calidad del sistema – Requisitos no funcionales para la evaluación del sistema
RAMS – Caracterización ingenieril de un producto o sistema
Ingeniería de confiabilidad : subdisciplina de la ingeniería de sistemas que enfatiza la confiabilidad.
Ingeniería de seguridad : disciplina de ingeniería que garantiza que los sistemas diseñados proporcionen niveles aceptables de seguridad.

Lectura adicional

Papeles

Wilfredo Torres-Pomales: Tolerancia a fallos de software: un tutorial , 2002
Stefano Porcarelli, Marco Castaldi, Felicita Di Giandomenico, Andrea Bondavalli, Paola Inverardi Un enfoque para gestionar la reconfiguración en sistemas distribuidos tolerantes a fallos

Conferencias

Simposio Internacional sobre Sistemas y Redes Confiables (DSN): ^[14] Conferencia insignia de la comunidad, que se celebra anualmente desde 1970.
Simposio Internacional sobre Sistemas Distribuidos Confiables (SRDS): ^[15] Su edición número 40 se realizará en 2021.

Conferencias con enfoque regional:

Simposio Latinoamericano de Computación Confiable (LADC): Su décima edición será en 2021.
Simposio Internacional de la Cuenca del Pacífico sobre Computación Confiable (PRDC): su 25.ª edición se celebrará en 2021.

Revistas

IEEE Transactions on Dependable and Secure Computing (TDSC) es la revista insignia que se encuentra bajo la supervisión del Comité Técnico del IEEE sobre Computación Tolerante a Fallas (TCFTC).
Prognostics Journal es una revista de acceso abierto que ofrece un foro internacional para la publicación electrónica de artículos originales de investigación y experiencia industrial en todas las áreas de confiabilidad de sistemas y pronósticos.
Revista internacional de sistemas críticos basados en computadoras

Libros

JC Laprie, Confiabilidad: conceptos básicos y terminología , Springer-Verlag, 1992. ISBN 0-387-82296-8
Daniel P. Siewiorek, Robert S. Swarz, Sistemas informáticos fiables: diseño y evaluación , AK Peters/CRC Press, 1998. ISBN 978-1568810928

Proyectos de investigación

DESEREC, Confiabilidad y seguridad mediante una reconfigurabilidad mejorada , proyecto integrado FP6 /IST 2006-2008
NODOS ^{[ enlace muerto permanente ]} , Red en sistemas confiables
ESFORS, Foro Europeo de Seguridad para Servicios Web, Software y Sistemas , acción de coordinación FP6/IST
HIDENETS Redes y servicios basados en IP altamente fiables , proyecto específico del FP6/IST 2006-2008
Red de Excelencia RESIST FP6/IST 2006-2007
RODIN Entorno de desarrollo abierto y riguroso para sistemas complejos Proyecto objetivo FP6/IST 2004–2007
Ingeniería de sistemas SERENITY para seguridad y confiabilidad , proyecto integrado FP6/IST 2006–2008
Arquitectura de supervivencia de Willow y STILT, sistema de intervención contra el terrorismo y trabajo en equipo a gran escala 2002-2004
ANIKETOS Archivado el 2 de diciembre de 2019 en Wayback Machine Composición de servicios confiable y segura , proyecto integrado FP7/IST 2010–2014

Referencias

^ IEC, Electropedia del 192 Confiabilidad , http://www.electropedia.org, seleccione 192 Confiabilidad, consulte 192-01-22 Confiabilidad.
^ ab A. Avizienis, J.-C. Laprie, Brian Randell y C. Landwehr, "Conceptos básicos y taxonomía de la informática confiable y segura", IEEE Transactions on Dependable and Secure Computing, vol. 1, págs. 11-33, 2004.
^ "Sistemas y redes confiables". www.dependability.org . Consultado el 8 de junio de 2021 .
^ Brian Randell , "Confiabilidad del software: una visión personal", en las Actas del 25º Simposio Internacional sobre Computación Tolerante a Fallos (FTCS-25), California, EE. UU., págs. 35-41, junio de 1995.
^ JC Laprie. "Computación confiable y tolerancia a fallas: conceptos y terminología", en Actas del 15.° Simposio internacional IEEE sobre computación tolerante a fallas, 1985
^ A. Avizienis, J.-C. Laprie y Brian Randell : Conceptos fundamentales de confiabilidad . Informe de investigación n.° 1145, Lydford g DrAAS-CNRS , abril de 2001
^ I. Sommerville, Ingeniería de software: Addison-Wesley, 2004.
^ A. Avizienis, V. Magnus U, JC Laprie y Brian Randell , "Conceptos fundamentales de confiabilidad", presentado en ISW-2000, Cambridge, MA, 2000.
^ Moradi, Mehrdad; Van Acker, Bert; Vanherpen, Ken; Denil, Joachim (2019). Chamberlain, Roger; Taha, Walid; Törngren, Martin (eds.). "Inyección de fallas híbridas implementadas por modelos para Simulink (demostraciones de herramientas)". Sistemas ciberfísicos. Diseño basado en modelos . Apuntes de clase en informática. 11615. Cham: Springer International Publishing: 71–90. doi :10.1007/978-3-030-23703-5_4. ISBN. 978-3-030-23703-5.S2CID 195769468 .
^ "Optimización de la inyección de fallas en la co-simulación FMI mediante partición de sensibilidad | Actas de la Conferencia de Simulación de Verano de 2019". dl.acm.org . Consultado el 15 de junio de 2020 .
^ Moradi, Mehrdad, Bentley James Oakes, Mustafa Saraoglu, Andrey Morozov, Klaus Janschek y Joachim Denil. "Exploración del espacio de parámetros de fallas mediante inyección de fallas basada en aprendizaje de refuerzo" (2020).
^ John C. Knight, Elisabeth A. Strunk, Kevin J. Sullivan: Hacia una definición rigurosa de la capacidad de supervivencia de los sistemas de información Archivado el 29 de octubre de 2006 en Wayback Machine.
^ John F. Meyer, William H. Sanders Especificación y construcción de modelos de performance
^ "DSN 2022". dsn2022.github.io . Consultado el 1 de agosto de 2021 .
^ "SRDS-2021". srds-conference.org . Consultado el 1 de agosto de 2021 .