stringtranslate.com

Gestión de fallos

En la gestión de redes , la gestión de fallos es el conjunto de funciones que detectan, aíslan y corrigen fallos en una red de telecomunicaciones, compensan los cambios ambientales e incluyen el mantenimiento y examen de registros de errores , la aceptación y actuación sobre notificaciones de detección de errores, el seguimiento e identificación de fallos, la realización de secuencias de pruebas de diagnóstico, la corrección de fallos, el informe de condiciones de error y la localización y seguimiento de fallos mediante el examen y la manipulación de la información de la base de datos . [1]

Cuando se produce un fallo o un evento, un componente de red suele enviar una notificación al operador de red mediante un protocolo como SNMP . Una alarma es una indicación persistente de un fallo que desaparece solo cuando se ha resuelto la condición que lo provocó. A menudo se mantiene una lista actualizada de los problemas que ocurren en el componente de red en forma de una lista de alarmas activas, como se define en RFC 3877, Alarm MIB . La mayoría de los sistemas de gestión de red también mantienen una lista de fallos eliminados . [2]

Los sistemas de gestión de fallos pueden utilizar sistemas de filtrado complejos para asignar alarmas a niveles de gravedad, que pueden variar desde depuración hasta emergencia, como en el protocolo syslog . [3] Como alternativa, podrían utilizar el campo de gravedad percibida de la función de notificación de alarmas ITU X.733, que adopta los valores de borrado, indeterminado, crítico, importante, menor o advertencia. Cabe señalar que la última versión del borrador del protocolo syslog que se está desarrollando en el IETF incluye una correlación entre estos dos conjuntos diferentes de gravedades. Se considera una buena práctica enviar una notificación no solo cuando se ha producido un problema, sino también cuando se ha resuelto. La última notificación tendría una gravedad de borrado.

Una consola de gestión de fallos permite a un administrador de red o un operador de sistema supervisar los eventos de varios sistemas y realizar acciones en función de esta información. Idealmente, un sistema de gestión de fallos debería poder identificar correctamente los eventos y tomar medidas automáticamente, ya sea iniciando un programa o secuencia de comandos para tomar medidas correctivas o activando un software de notificación que permita a un humano tomar la intervención adecuada (es decir, enviar un correo electrónico o un mensaje de texto SMS a un teléfono móvil ). Algunos sistemas de notificación también tienen reglas de escalamiento que notificarán a una cadena de personas en función de la disponibilidad y la gravedad de la alarma.

Tipos

Existen dos formas principales de realizar la gestión de fallas: activa y pasiva. La gestión de fallas pasiva se realiza mediante la recopilación de alarmas de los dispositivos (normalmente a través de trampas SNMP ) cuando algo sucede en los dispositivos. En este modo, el sistema de gestión de fallas solo sabe si un dispositivo que está monitoreando es lo suficientemente inteligente como para generar un error e informarlo a la herramienta de administración. Sin embargo, si el dispositivo que se está monitoreando falla por completo o se bloquea, no emitirá una alarma y no se detectará el problema. La gestión de fallas activa aborda este problema mediante la supervisión activa de los dispositivos a través de herramientas como ping para determinar si el dispositivo está activo y responde. Si el dispositivo deja de responder, la supervisión activa emitirá una alarma que mostrará que el dispositivo no está disponible y permitirá la corrección proactiva del problema.

La gestión de fallas incluye cualquier herramienta o procedimiento para probar, diagnosticar o reparar la red cuando ocurre una falla.

Véase también

Notas

  1. ^ "¿Qué es la gestión de fallos? - Definición de WhatIs.com" . Consultado el 6 de octubre de 2015 .
  2. ^ "¿Qué es la gestión de fallos? Definición y guía introductoria". Análisis, gestión y visualización de registros de XpoLog . 2020-04-07 . Consultado el 2020-11-15 .
  3. ^ RFC 3164

Referencias