En el campo de la física y la probabilidad , un campo aleatorio de Markov ( MRF ), red de Markov o modelo gráfico no dirigido es un conjunto de variables aleatorias que tienen una propiedad de Markov descrita por un grafo no dirigido . En otras palabras, se dice que un campo aleatorio es un campo aleatorio de Markov si satisface las propiedades de Markov. El concepto se origina en el modelo de Sherrington-Kirkpatrick . [1]
Una red de Markov o MRF es similar a una red bayesiana en su representación de dependencias; las diferencias son que las redes bayesianas son dirigidas y acíclicas , mientras que las redes de Markov no son dirigidas y pueden ser cíclicas. Por lo tanto, una red de Markov puede representar ciertas dependencias que una red bayesiana no puede (como dependencias cíclicas [ se necesita más explicación ] ); por otro lado, no puede representar ciertas dependencias que una red bayesiana sí puede (como dependencias inducidas [ se necesita más explicación ] ). El gráfico subyacente de un campo aleatorio de Markov puede ser finito o infinito.
Cuando la densidad de probabilidad conjunta de las variables aleatorias es estrictamente positiva, también se denomina campo aleatorio de Gibbs , porque, según el teorema de Hammersley-Clifford , puede representarse mediante una medida de Gibbs para una función de energía apropiada (definida localmente). El campo aleatorio de Markov prototípico es el modelo de Ising ; de hecho, el campo aleatorio de Markov se introdujo como la configuración general para el modelo de Ising. [2] En el dominio de la inteligencia artificial , un campo aleatorio de Markov se utiliza para modelar varias tareas de nivel bajo a medio en el procesamiento de imágenes y la visión por computadora . [3]
Dado un gráfico no dirigido , un conjunto de variables aleatorias indexadas por forman un campo aleatorio de Markov con respecto a si satisfacen las propiedades locales de Markov:
La propiedad global de Markov es más fuerte que la propiedad local de Markov, que a su vez es más fuerte que la propiedad de pares. [4] Sin embargo, las tres propiedades de Markov anteriores son equivalentes para distribuciones positivas [5] (aquellas que asignan solo probabilidades distintas de cero a las variables asociadas).
La relación entre las tres propiedades de Markov es particularmente clara en la siguiente formulación:
Como la propiedad de Markov de una distribución de probabilidad arbitraria puede ser difícil de establecer, una clase comúnmente utilizada de campos aleatorios de Markov son aquellos que se pueden factorizar de acuerdo con las camarillas del gráfico.
Dado un conjunto de variables aleatorias , sea la probabilidad de una configuración de campo particular en —es decir, es la probabilidad de encontrar que las variables aleatorias toman el valor particular . Debido a que es un conjunto, la probabilidad de debe entenderse como tomada con respecto a una distribución conjunta de .
Si esta densidad conjunta se puede factorizar sobre las camarillas de como
luego forma un campo aleatorio de Markov con respecto a . Aquí, es el conjunto de camarillas de . La definición es equivalente si solo se utilizan camarillas máximas. Las funciones a veces se denominan potenciales factoriales o potenciales de camarilla . Sin embargo, tenga en cuenta que se utiliza una terminología contradictoria: la palabra potencial se aplica a menudo al logaritmo de . Esto se debe a que, en mecánica estadística , tiene una interpretación directa como la energía potencial de una configuración .
Algunas MRF no se factorizan: se puede construir un ejemplo simple en un ciclo de 4 nodos con algunas energías infinitas, es decir, configuraciones de probabilidades cero, [6] incluso si uno, más apropiadamente, permite que las energías infinitas actúen sobre el gráfico completo en . [7]
Los MRF se factorizan si se cumple al menos una de las siguientes condiciones:
Cuando existe tal factorización, es posible construir un gráfico de factores para la red.
Cualquier campo aleatorio positivo de Markov se puede escribir como una familia exponencial en forma canónica con funciones características tales que la distribución conjunta completa se puede escribir como
donde la notación
es simplemente un producto escalar sobre configuraciones de campo, y Z es la función de partición :
Aquí, denota el conjunto de todas las asignaciones posibles de valores a todas las variables aleatorias de la red. Por lo general, las funciones de característica se definen de modo que sean indicadores de la configuración de la camarilla, es decir , si corresponde a la i -ésima configuración posible de la k -ésima camarilla y 0 en caso contrario. Este modelo es equivalente al modelo de factorización de camarilla dado anteriormente, si es la cardinalidad de la camarilla y el peso de una característica corresponde al logaritmo del factor de camarilla correspondiente, es decir , donde es la i -ésima configuración posible de la k -ésima camarilla, es decir, el i -ésimo valor en el dominio de la camarilla .
La probabilidad P se denomina a menudo medida de Gibbs. Esta expresión de un campo de Markov como modelo logístico solo es posible si todos los factores de clique son distintos de cero, es decir , si a ninguno de los elementos de se les asigna una probabilidad de 0. Esto permite aplicar técnicas del álgebra matricial, por ejemplo , que la traza de una matriz sea el logaritmo del determinante , y que la representación matricial de un gráfico surja de la matriz de incidencia del gráfico .
La importancia de la función de partición Z es que muchos conceptos de la mecánica estadística , como la entropía , se generalizan directamente al caso de las redes de Markov, y de ese modo se puede obtener una comprensión intuitiva . Además, la función de partición permite aplicar métodos variacionales a la solución del problema: se puede asociar una fuerza impulsora a una o más de las variables aleatorias y explorar la reacción de la red en respuesta a esta perturbación . Así, por ejemplo, se puede añadir un término impulsor J v , para cada vértice v del grafo, a la función de partición para obtener:
Derivando formalmente con respecto a J v se obtiene el valor esperado de la variable aleatoria X v asociada al vértice v :
Las funciones de correlación se calculan de la misma manera; la correlación de dos puntos es:
Desafortunadamente, aunque la probabilidad de una red logística de Markov es convexa, evaluar la probabilidad o el gradiente de la probabilidad de un modelo requiere inferencia en el modelo, lo que generalmente es computacionalmente inviable (ver "Inferencia" a continuación).
Una distribución normal multivariada forma un campo aleatorio de Markov con respecto a un gráfico si los bordes faltantes corresponden a ceros en la matriz de precisión (la matriz de covarianza inversa ):
de tal manera que
Al igual que en una red bayesiana , se puede calcular la distribución condicional de un conjunto de nodos a partir de valores dados en otro conjunto de nodos en el campo aleatorio de Markov sumando todas las asignaciones posibles a ; esto se llama inferencia exacta . Sin embargo, la inferencia exacta es un problema #P-completo y, por lo tanto, computacionalmente intratable en el caso general. Las técnicas de aproximación como el Monte Carlo de cadena de Markov y la propagación de creencias en bucle suelen ser más factibles en la práctica. Algunas subclases particulares de MRF, como los árboles (ver árbol de Chow-Liu ), tienen algoritmos de inferencia de tiempo polinomial; descubrir tales subclases es un tema de investigación activo. También hay subclases de MRF que permiten una inferencia MAP eficiente , o más probablemente de asignación; ejemplos de estos incluyen redes asociativas. [9] [10] Otra subclase interesante es la de los modelos descomponibles (cuando el grafo es cordal ): al tener una forma cerrada para el MLE , es posible descubrir una estructura consistente para cientos de variables. [11]
Una variante notable de un campo aleatorio de Markov es un campo aleatorio condicional , en el que cada variable aleatoria también puede estar condicionada a un conjunto de observaciones globales . En este modelo, cada función es una aplicación de todas las asignaciones tanto a la clique k como de las observaciones a los números reales no negativos. Esta forma de la red de Markov puede ser más apropiada para producir clasificadores discriminativos , que no modelan la distribución sobre las observaciones. Los CRF fueron propuestos por John D. Lafferty , Andrew McCallum y Fernando CN Pereira en 2001. [12]
Los campos aleatorios de Markov encuentran aplicación en una variedad de campos, que van desde gráficos de computadora hasta visión por computadora, aprendizaje automático o biología computacional , [13] [14] y recuperación de información . [15] Los MRF se utilizan en el procesamiento de imágenes para generar texturas, ya que pueden usarse para generar modelos de imágenes flexibles y estocásticos. En el modelado de imágenes, la tarea es encontrar una distribución de intensidad adecuada de una imagen dada, donde la idoneidad depende del tipo de tarea y los MRF son lo suficientemente flexibles para usarse para síntesis de imágenes y texturas, compresión y restauración de imágenes, segmentación de imágenes , inferencia de imágenes 3D a partir de imágenes 2D, registro de imágenes , síntesis de texturas , superresolución , coincidencia estéreo y recuperación de información . Se pueden usar para resolver varios problemas de visión por computadora que pueden plantearse como problemas de minimización de energía o problemas en los que se deben distinguir diferentes regiones utilizando un conjunto de características discriminantes, dentro de un marco de campo aleatorio de Markov, para predecir la categoría de la región. [16] Los campos aleatorios de Markov fueron una generalización del modelo de Ising y, desde entonces, se han utilizado ampliamente en optimizaciones y redes combinatorias.