red bayesiana

Una red bayesiana (también conocida como red Bayes , red Bayes , red de creencias o red de decisión ) es un modelo gráfico probabilístico que representa un conjunto de variables y sus dependencias condicionales mediante un gráfico acíclico dirigido (DAG). ^[1] Si bien es una de varias formas de notación causal , las redes causales son casos especiales de redes bayesianas. Las redes bayesianas son ideales para tomar un evento que ocurrió y predecir la probabilidad de que cualquiera de las varias posibles causas conocidas fuera el factor contribuyente. Por ejemplo, una red bayesiana podría representar las relaciones probabilísticas entre enfermedades y síntomas. Dados los síntomas, la red se puede utilizar para calcular las probabilidades de presencia de diversas enfermedades.

Los algoritmos eficientes pueden realizar inferencias y aprendizaje en redes bayesianas. Las redes bayesianas que modelan secuencias de variables ( por ejemplo, señales de voz o secuencias de proteínas ) se denominan redes bayesianas dinámicas . Las generalizaciones de redes bayesianas que pueden representar y resolver problemas de decisión en condiciones de incertidumbre se denominan diagramas de influencia .

modelo grafico

Formalmente, las redes bayesianas son gráficos acíclicos dirigidos (DAG) cuyos nodos representan variables en el sentido bayesiano : pueden ser cantidades observables, variables latentes , parámetros desconocidos o hipótesis. Cada borde representa una dependencia condicional directa. Cualquier par de nodos que no estén conectados (es decir, ninguna ruta conecta un nodo con el otro) representa variables que son condicionalmente independientes entre sí. Cada nodo está asociado con una función de probabilidad que toma, como entrada, un conjunto particular de valores para las variables principales del nodo y proporciona (como salida) la probabilidad (o distribución de probabilidad, si corresponde) de la variable representada por el nodo. Por ejemplo, si los nodos principales representan variables booleanas , entonces la función de probabilidad podría representarse mediante una tabla de entradas, una entrada para cada una de las posibles combinaciones principales. Se pueden aplicar ideas similares a gráficos no dirigidos y posiblemente cíclicos, como las redes de Markov . $m$ $m$ $2^{m}$ $2^{m}$

Ejemplo

Una red bayesiana simple con tablas de probabilidad condicional

Usemos una ilustración para hacer cumplir los conceptos de una red bayesiana. Supongamos que queremos modelar las dependencias entre tres variables: el aspersor (o más apropiadamente, su estado, si está encendido o no), la presencia o ausencia de lluvia y si el césped está mojado o no. Observe que dos eventos pueden hacer que el césped se moje: un aspersor activo o la lluvia. La lluvia tiene un efecto directo sobre el uso del aspersor (es decir, cuando llueve, el aspersor normalmente no está activo). Esta situación se puede modelar con una red bayesiana (que se muestra a la derecha). Cada variable tiene dos valores posibles, T (para verdadero) y F (para falso).

La función de probabilidad conjunta es, según la regla de la cadena de probabilidad ,

\Pr(G,S,R)=\Pr(G\mid S,R)\Pr(S\mid R)\Pr(R)

donde G = "Pasto mojado (verdadero/falso)", S = "Aspersor encendido (verdadero/falso)" y R = "Lloviendo (verdadero/falso)".

El modelo puede responder preguntas sobre la presencia de una causa dada la presencia de un efecto (la llamada probabilidad inversa) como "¿Cuál es la probabilidad de que esté lloviendo, dado que el pasto está mojado?" utilizando la fórmula de probabilidad condicional y sumando todas las variables molestas :

\Pr(R=T\mid G=T)={\frac {\Pr(G=T,R=T)}{\Pr(G=T)}}={\frac {\sum _{x\in \{T,F\}}\Pr(G=T,S=x,R=T)}{\sum _{x,y\in \{T,F\}}\Pr(G=T,S=x,R=y)}}

Utilizando la expansión de la función de probabilidad conjunta y las probabilidades condicionales de las tablas de probabilidad condicional (CPT) indicadas en el diagrama, se puede evaluar cada término en las sumas del numerador y denominador. Por ejemplo, $\Pr(G,S,R)$

{\begin{aligned}\Pr(G=T,S=T,R=T)&=\Pr(G=T\mid S=T,R=T)\Pr(S=T\mid R=T)\Pr(R=T)\\&=0.99\times 0.01\times 0.2\\&=0.00198.\end{aligned}}

Luego, los resultados numéricos (subíndices de los valores de las variables asociadas) son

\Pr(R=T\mid G=T)={\frac {0.00198_{TTT}+0.1584_{TFT}}{0.00198_{TTT}+0.288_{TTF}+0.1584_{TFT}+0.0_{TFF}}}={\frac {891}{2491}}\approx 35.77\%.

Para responder a una pregunta de intervención, como "¿Cuál es la probabilidad de que llueva, dado que mojamos el césped?" la respuesta se rige por la función de distribución conjunta post-intervención

\Pr(S,R\mid {\text{do}}(G=T))=\Pr(S\mid R)\Pr(R)

se obtiene eliminando el factor de la distribución previa a la intervención. El operador do fuerza que el valor de G sea verdadero. La probabilidad de lluvia no se ve afectada por la acción: $\Pr(G\mid S,R)$

\Pr(R\mid {\text{do}}(G=T))=\Pr(R).

Para predecir el impacto de encender el aspersor:

\Pr(R,G\mid {\text{do}}(S=T))=\Pr(R)\Pr(G\mid R,S=T)

con el término eliminado, mostrando que la acción afecta al césped pero no a la lluvia. $\Pr(S=T\mid R)$

Estas predicciones pueden no ser factibles dadas variables no observadas, como ocurre en la mayoría de los problemas de evaluación de políticas. Sin embargo, el efecto de la acción aún se puede predecir siempre que se cumpla el criterio de la puerta trasera. ^[2]^[3] Afirma que, si se puede observar un conjunto Z de nodos que d-separa ^[4] (o bloquea) todas las rutas de puerta trasera de X a Y , entonces ${\text{do}}(x)$

\Pr(Y,Z\mid {\text{do}}(x))={\frac {\Pr(Y,Z,X=x)}{\Pr(X=x\mid Z)}}.

Un camino de puerta trasera es aquel que termina con una flecha hacia X . Los conjuntos que satisfacen el criterio de la puerta trasera se denominan "suficientes" o "admisibles". Por ejemplo, el conjunto Z = R es admisible para predecir el efecto de S = T en G , porque R d -separa el (único) camino de puerta trasera S ← R → G . Sin embargo, si no se observa S , ningún otro conjunto d separa este camino y el efecto de encender el aspersor ( S = T ) sobre el césped ( G ) no se puede predecir a partir de observaciones pasivas. En ese caso P ( G | do ( S = T )) no está "identificado". Esto refleja el hecho de que, a falta de datos de intervención, la dependencia observada entre S y G se debe a una conexión causal o es espuria (dependencia aparente que surge de una causa común, R ). (ver la paradoja de Simpson )

Para determinar si una relación causal se identifica a partir de una red bayesiana arbitraria con variables no observadas, se pueden usar las tres reglas del " cálculo do " ^[2]^[5] y probar si todos los términos do se pueden eliminar de la expresión de esa relación. , confirmando así que la cantidad deseada es estimable a partir de datos de frecuencia. ^[6]

El uso de una red bayesiana puede ahorrar cantidades considerables de memoria en tablas de probabilidad exhaustivas, si las dependencias en la distribución conjunta son escasas. Por ejemplo, una forma ingenua de almacenar las probabilidades condicionales de 10 variables de dos valores como una tabla requiere espacio de almacenamiento para los valores. Si la distribución local de ninguna variable depende de más de tres variables principales, la representación de la red bayesiana almacena como máximo los valores. $2^{10}=1024$ $10\cdot 2^{3}=80$

Una ventaja de las redes bayesianas es que es intuitivamente más fácil para un humano comprender (un conjunto disperso de) dependencias directas y distribuciones locales que distribuciones conjuntas completas.

Inferencia y aprendizaje

Las redes bayesianas realizan tres tareas principales de inferencia:

Inferir variables no observadas

Debido a que una red bayesiana es un modelo completo para sus variables y sus relaciones, puede usarse para responder consultas probabilísticas sobre ellas. Por ejemplo, la red se puede utilizar para actualizar el conocimiento del estado de un subconjunto de variables cuando se observan otras variables (las variables de evidencia ). Este proceso de calcular la distribución posterior de variables dada la evidencia se llama inferencia probabilística. La posterior proporciona una estadística universal suficiente para aplicaciones de detección, al elegir valores para el subconjunto de variables que minimicen alguna función de pérdida esperada, por ejemplo, la probabilidad de error de decisión. Por tanto, una red bayesiana puede considerarse un mecanismo para aplicar automáticamente el teorema de Bayes a problemas complejos.

Los métodos de inferencia exacta más comunes son: eliminación de variables , que elimina (por integración o sumatoria) una a una las variables no observadas y no consultadas distribuyendo la suma sobre el producto; propagación de árbol de camarilla , que almacena en caché el cálculo para que se puedan consultar muchas variables al mismo tiempo y se puedan propagar nuevas pruebas rápidamente; y el condicionamiento recursivo y la búsqueda AND/OR, que permiten un equilibrio espacio-temporal y igualan la eficiencia de la eliminación de variables cuando se utiliza suficiente espacio. Todos estos métodos tienen una complejidad exponencial en el ancho del árbol de la red . Los algoritmos de inferencia aproximada más comunes son el muestreo de importancia , la simulación estocástica de MCMC , la eliminación de minicubos, la propagación de creencias descabelladas , la propagación de creencias generalizada y los métodos variacionales .

Aprendizaje de parámetros

Para especificar completamente la red bayesiana y así representar completamente la distribución de probabilidad conjunta , es necesario especificar para cada nodo X la distribución de probabilidad para X condicionada a los padres de X. La distribución de X condicionada a sus padres puede tener cualquier forma. Es común trabajar con distribuciones discretas o gaussianas ya que eso simplifica los cálculos. A veces sólo se conocen restricciones a la distribución; Luego se puede utilizar el principio de máxima entropía para determinar una distribución única, la que tiene la mayor entropía dadas las restricciones. (De manera análoga, en el contexto específico de una red bayesiana dinámica , la distribución condicional para la evolución temporal del estado oculto se especifica comúnmente para maximizar la tasa de entropía del proceso estocástico implícito).

A menudo, estas distribuciones condicionales incluyen parámetros que se desconocen y deben estimarse a partir de datos, por ejemplo, mediante el enfoque de máxima verosimilitud . La maximización directa de la probabilidad (o de la probabilidad posterior ) suele ser compleja dadas las variables no observadas. Un enfoque clásico para este problema es el algoritmo de maximización de expectativas , que alterna el cálculo de los valores esperados de las variables no observadas condicionadas a los datos observados, con la maximización de la probabilidad completa (o posterior) asumiendo que los valores esperados calculados previamente son correctos. En condiciones de regularidad leve, este proceso converge en valores de máxima verosimilitud (o máximo posterior) para los parámetros.

Un enfoque más completamente bayesiano de los parámetros es tratarlos como variables adicionales no observadas y calcular una distribución posterior completa sobre todos los nodos condicionada a los datos observados, para luego integrar los parámetros. Este enfoque puede resultar costoso y dar lugar a modelos de grandes dimensiones, lo que hace que los enfoques clásicos de establecimiento de parámetros sean más manejables.

Aprendizaje estructurado

En el caso más simple, un experto especifica una red bayesiana y luego la utiliza para realizar inferencias. En otras aplicaciones, la tarea de definir la red es demasiado compleja para los humanos. En este caso, la estructura de la red y los parámetros de las distribuciones locales deben aprenderse de los datos.

Aprender automáticamente la estructura gráfica de una red bayesiana (BN) es un desafío que se persigue dentro del aprendizaje automático . La idea básica se remonta a un algoritmo de recuperación desarrollado por Rebane y Pearl ^[7] y se basa en la distinción entre los tres posibles patrones permitidos en un DAG de 3 nodos:

Los primeros 2 representan las mismas dependencias ( y son independientes ) y, por lo tanto, son indistinguibles. El colisionador, sin embargo, puede identificarse de forma única, ya que y son marginalmente independientes y todos los demás pares son dependientes. Así, si bien los esqueletos (los gráficos despojados de flechas) de estos tres tripletes son idénticos, la direccionalidad de las flechas es parcialmente identificable. La misma distinción se aplica cuando y tienen padres comunes, excepto que primero se debe condicionar a esos padres. Se han desarrollado algoritmos para determinar sistemáticamente el esqueleto del gráfico subyacente y, luego, orientar todas las flechas cuya direccionalidad está dictada por las independencias condicionales observadas. ^[2]^[8]^[9]^[10] $X$ $Z$ $Y$ $X$ $Z$ $X$ $Z$

Un método alternativo de aprendizaje estructural utiliza la búsqueda basada en optimización. Requiere una función de puntuación y una estrategia de búsqueda. Una función de puntuación común es la probabilidad posterior de la estructura dados los datos de entrenamiento, como el BIC o el BDeu. El requerimiento de tiempo de una búsqueda exhaustiva que devuelva una estructura que maximice la puntuación es superexponencial en el número de variables. Una estrategia de búsqueda local realiza cambios incrementales destinados a mejorar la puntuación de la estructura. Un algoritmo de búsqueda global como la cadena de Markov Monte Carlo puede evitar quedar atrapado en mínimos locales . Friedman et al. ^[11]^[12] analizan el uso de información mutua entre variables y la búsqueda de una estructura que maximice esto. Lo hacen restringiendo el conjunto de candidatos principales a k nodos y buscando exhaustivamente en ellos.

Un método particularmente rápido para el aprendizaje exacto de BN es plantear el problema como un problema de optimización y resolverlo mediante programación entera . Las restricciones de aciclicidad se agregan al programa de números enteros (IP) durante la resolución en forma de planos de corte . ^[13] Este método puede manejar problemas con hasta 100 variables.

Para abordar problemas con miles de variables, es necesario un enfoque diferente. Una es muestrear primero un orden y luego encontrar la estructura BN óptima con respecto a ese orden. Esto implica trabajar en el espacio de búsqueda de los posibles ordenamientos, lo cual es conveniente ya que es más pequeño que el espacio de las estructuras de red. Luego se muestrean y evalúan varios pedidos. Se ha demostrado que este método es el mejor disponible en la literatura cuando el número de variables es enorme. ^[14]

Otro método consiste en centrarse en la subclase de modelos descomponibles, para los cuales los MLE tienen una forma cerrada. Entonces es posible descubrir una estructura consistente para cientos de variables. ^[15]

Es necesario aprender redes bayesianas con un ancho de árbol acotado para permitir una inferencia exacta y manejable, ya que la complejidad de la inferencia en el peor de los casos es exponencial en el ancho del árbol k (según la hipótesis del tiempo exponencial). Sin embargo, como propiedad global del gráfico, aumenta considerablemente la dificultad del proceso de aprendizaje. En este contexto, es posible utilizar K-tree para un aprendizaje eficaz. ^[dieciséis]

Introducción estadística

Dados los datos y los parámetros , un análisis bayesiano simple comienza con una probabilidad previa ( prior ) y una probabilidad para calcular una probabilidad posterior . $x\,\!$ $\theta$ $p(\theta )$ $p(x\mid \theta )$ $p(\theta \mid x)\propto p(x\mid \theta )p(\theta )$

Muchas veces el a priori depende a su vez de otros parámetros que no se mencionan en la verosimilitud. Por lo tanto, el prior debe ser reemplazado por una probabilidad , y se requiere un prior en los parámetros recién introducidos , lo que resulta en una probabilidad posterior. $\theta$ $\varphi$ $p(\theta )$ $p(\theta \mid \varphi )$ $p(\varphi )$ $\varphi$

p(\theta ,\varphi \mid x)\propto p(x\mid \theta )p(\theta \mid \varphi )p(\varphi ).

Este es el ejemplo más simple de un modelo Bayes jerárquico .

El proceso puede repetirse; por ejemplo, los parámetros pueden depender a su vez de parámetros adicionales , que requieren su propio previo. Eventualmente el proceso debe terminar, con antecedentes que no dependen de parámetros no mencionados. $\varphi$ $\psi \,\!$

Ejemplos introductorios

Dadas las cantidades medidas , cada una con errores distribuidos normalmente de desviación estándar conocida , $x_{1},\dots ,x_{n}\,\!$ $\sigma \,\!$

x_{i}\sim N(\theta _{i},\sigma ^{2})

Supongamos que estamos interesados en estimar el . Un enfoque sería estimar el uso de un enfoque de máxima verosimilitud ; dado que las observaciones son independientes, la probabilidad se factoriza y la estimación de máxima verosimilitud es simplemente $\theta _{i}$ $\theta _{i}$

\theta _{i}=x_{i}.

Sin embargo, si las cantidades están relacionadas, de modo que, por ejemplo, los propios individuos han sido extraídos de una distribución subyacente, entonces esta relación destruye la independencia y sugiere un modelo más complejo, por ejemplo, $\theta _{i}$

x_{i}\sim N(\theta _{i},\sigma ^{2}),

\theta _{i}\sim N(\varphi ,\tau ^{2}),

con antecedentes indebidos , . Cuando , se trata de un modelo identificado (es decir, existe una solución única para los parámetros del modelo), y las distribuciones posteriores del individuo tenderán a moverse o alejarse de las estimaciones de máxima verosimilitud hacia su media común. Esta contracción es un comportamiento típico en los modelos jerárquicos de Bayes. $\varphi \sim {\text{flat}}$ $\tau \sim {\text{flat}}\in (0,\infty )$ $n\geq 3$ $\theta _{i}$

Restricciones a los antecedentes

Se necesita cierto cuidado al elegir prioridades en un modelo jerárquico, particularmente en variables de escala en niveles superiores de la jerarquía, como la variable del ejemplo. Las prioridades habituales, como la de Jeffreys, a menudo no funcionan, porque la distribución posterior no será normalizable y las estimaciones realizadas minimizando la pérdida esperada serán inadmisibles . $\tau \,\!$

Definiciones y conceptos

Se han ofrecido varias definiciones equivalentes de una red bayesiana. Para lo siguiente, sea G = ( V , E ) un gráfico acíclico dirigido (DAG) y sea X = ( X _v ), v ∈ V un conjunto de variables aleatorias indexadas por V .

Definición de factorización

X es una red bayesiana con respecto a G si su función de densidad de probabilidad conjunta (con respecto a una medida del producto ) se puede escribir como un producto de las funciones de densidad individuales, condicionada a sus variables principales: ^[17]

p(x)=\prod _{v\in V}p\left(x_{v}\,{\big |}\,x_{\operatorname {pa} (v)}\right)

donde pa( v ) es el conjunto de padres de v (es decir, aquellos vértices que apuntan directamente a v a través de un solo borde).

Para cualquier conjunto de variables aleatorias, la probabilidad de cualquier miembro de una distribución conjunta se puede calcular a partir de probabilidades condicionales utilizando la regla de la cadena (dado un orden topológico de X ) de la siguiente manera: ^[17]

\operatorname {P} (X_{1}=x_{1},\ldots ,X_{n}=x_{n})=\prod _{v=1}^{n}\operatorname {P} \left(X_{v}=x_{v}\mid X_{v+1}=x_{v+1},\ldots ,X_{n}=x_{n}\right)

Usando la definición anterior, esto se puede escribir como:

\operatorname {P} (X_{1}=x_{1},\ldots ,X_{n}=x_{n})=\prod _{v=1}^{n}\operatorname {P} (X_{v}=x_{v}\mid X_{j}=x_{j}{\text{ for each }}X_{j}\,{\text{ that is a parent of }}X_{v}\,)

La diferencia entre las dos expresiones es la independencia condicional de las variables de cualquiera de sus no descendientes, dados los valores de sus variables principales.

Propiedad local de Markov

X es una red bayesiana con respecto a G si satisface la propiedad local de Markov : cada variable es condicionalmente independiente de sus no descendientes dadas sus variables principales: ^[18]

X_{v}\perp \!\!\!\perp X_{V\,\smallsetminus \,\operatorname {de} (v)}\mid X_{\operatorname {pa} (v)}\quad {\text{for all }}v\in V

donde de( v ) es el conjunto de descendientes y V \ de( v ) es el conjunto de no descendientes de v .

Esto se puede expresar en términos similares a la primera definición, como

{\begin{aligned}&\operatorname {P} (X_{v}=x_{v}\mid X_{i}=x_{i}{\text{ for each }}X_{i}{\text{ that is not a descendant of }}X_{v}\,)\\[6pt]={}&P(X_{v}=x_{v}\mid X_{j}=x_{j}{\text{ for each }}X_{j}{\text{ that is a parent of }}X_{v}\,)\end{aligned}}

El conjunto de padres es un subconjunto del conjunto de no descendientes porque la gráfica es acíclica .

Desarrollo de redes bayesianas

El desarrollo de una red bayesiana a menudo comienza con la creación de un DAG G tal que X satisfaga la propiedad local de Markov con respecto a G. A veces este es un DAG causal . Se evalúan las distribuciones de probabilidad condicional de cada variable dados sus padres en G. En muchos casos, en particular cuando las variables son discretas, si la distribución conjunta de X es el producto de estas distribuciones condicionales, entonces X es una red bayesiana con respecto a G. ^[19]

manta de markov

La manta de Markov de un nodo es el conjunto de nodos que consta de sus padres, sus hijos y cualquier otro padre de sus hijos. La manta de Markov hace que el nodo sea independiente del resto de la red; La distribución conjunta de las variables en el manto de Markov de un nodo es conocimiento suficiente para calcular la distribución del nodo. X es una red bayesiana con respecto a G si cada nodo es condicionalmente independiente de todos los demás nodos de la red, dada su manta de Markov . ^[18]

d -separación

Esta definición se puede hacer más general definiendo la separación "d" de dos nodos, donde d significa direccional. ^[2] Primero definimos la separación "d" de un sendero y luego definiremos la separación "d" de dos nodos en términos de eso.

Sea P un camino desde el nodo u hasta v . Un camino es un camino sin bucles y no dirigido (es decir, se ignoran todas las direcciones de los bordes) entre dos nodos. Entonces se dice que P está d -separado por un conjunto de nodos Z si se cumple alguna de las siguientes condiciones:

P contiene (pero no es necesario que sea completamente) una cadena dirigida, o , tal que el nodo medio m esté en Z , $u\cdots \leftarrow m\leftarrow \cdots v$ $u\cdots \rightarrow m\rightarrow \cdots v$
P contiene una bifurcación, tal que el nodo medio m está en Z , o $u\cdots \leftarrow m\rightarrow \cdots v$
P contiene una bifurcación invertida (o colisionador), de modo que el nodo medio m no está en Z y ningún descendiente de m está en Z. $u\cdots \rightarrow m\leftarrow \cdots v$

Los nodos u y v están separados por d por Z si todos los caminos entre ellos están separados por d . Si u y v no están separados por d, están conectados por d.

X es una red bayesiana con respecto a G si, para dos nodos cualesquiera u , v :

X_{u}\perp \!\!\!\perp X_{v}\mid X_{Z}

donde Z es un conjunto que d -separa u y v . (La manta de Markov es el conjunto mínimo de nodos que separa el nodo v de todos los demás nodos).

Redes causales

Aunque las redes bayesianas se utilizan a menudo para representar relaciones causales , este no tiene por qué ser el caso: un borde dirigido de u a v no requiere que X _v sea causalmente dependiente de X _u . Esto se demuestra por el hecho de que las redes bayesianas en los gráficos:

a\rightarrow b\rightarrow c\qquad {\text{and}}\qquad a\leftarrow b\leftarrow c

son equivalentes: es decir, imponen exactamente los mismos requisitos de independencia condicional.

Una red causal es una red bayesiana con el requisito de que las relaciones sean causales. La semántica adicional de las redes causales especifica que si se hace que un nodo X esté activamente en un estado dado x (una acción escrita como hacer ( X = x )), entonces la función de densidad de probabilidad cambia a la de la red obtenida al cortar el enlaces de los padres de X a X y estableciendo X en el valor causado x . ^[2] Utilizando esta semántica, se puede predecir el impacto de las intervenciones externas a partir de datos obtenidos antes de la intervención.

Complejidad de inferencia y algoritmos de aproximación.

En 1990, mientras trabajaba en la Universidad de Stanford en grandes aplicaciones bioinformáticas, Cooper demostró que la inferencia exacta en redes bayesianas es NP-dura . ^[20] Este resultado impulsó la investigación sobre algoritmos de aproximación con el objetivo de desarrollar una aproximación manejable a la inferencia probabilística. En 1993, Paul Dagum y Michael Luby demostraron dos resultados sorprendentes sobre la complejidad de la aproximación de la inferencia probabilística en redes bayesianas. ^[21] Primero, demostraron que ningún algoritmo determinista manejable puede aproximarse a la inferencia probabilística dentro de un error absoluto ɛ < 1/2. En segundo lugar, demostraron que ningún algoritmo aleatorio manejable puede aproximarse a la inferencia probabilística dentro de un error absoluto ɛ < 1/2 con una probabilidad de confianza mayor que 1/2.

Casi al mismo tiempo, Roth demostró que la inferencia exacta en redes bayesianas es de hecho #P-completa (y por lo tanto tan difícil como contar el número de asignaciones satisfactorias de una fórmula de forma normal conjuntiva (CNF)) y que la inferencia aproximada dentro de un factor 2 ^{n ^{1− ɛ}} para cada ɛ > 0, incluso para redes bayesianas con arquitectura restringida, es NP-duro. ^[22]^[23]

En términos prácticos, estos resultados de complejidad sugirieron que, si bien las redes bayesianas eran representaciones ricas para aplicaciones de inteligencia artificial y aprendizaje automático, su uso en grandes aplicaciones del mundo real debería verse atenuado por restricciones estructurales topológicas, como redes Bayes ingenuas, o por restricciones. sobre las probabilidades condicionales. El algoritmo de varianza acotada ^[24] desarrollado por Dagum y Luby fue el primer algoritmo de aproximación rápida demostrable para aproximar eficientemente la inferencia probabilística en redes bayesianas con garantías sobre la aproximación del error. Este poderoso algoritmo requería que la restricción menor de las probabilidades condicionales de la red bayesiana estuviera acotada desde cero y uno por dónde estaba cualquier polinomio del número de nodos en la red . $1/p(n)$ $p(n)$ $n$

Software

El software notable para redes bayesianas incluye:

Sólo otra muestra de Gibbs (JAGS): alternativa de código abierto a WinBUGS. Utiliza muestreo de Gibbs.
OpenBUGS : desarrollo de código abierto de WinBUGS.
SPSS Modeler : software comercial que incluye una implementación para redes bayesianas.
Stan (software) : Stan es un paquete de código abierto para obtener inferencia bayesiana utilizando el muestreador No-U-Turn (NUTS), ^[25] una variante del hamiltoniano Monte Carlo.
PyMC3 : una biblioteca de Python que implementa un lenguaje integrado de dominio específico para representar redes bayesianas y una variedad de muestras (incluidas NUTS)
WinBUGS : una de las primeras implementaciones computacionales de muestreadores MCMC. Ya no se mantiene.

Historia

El término red bayesiana fue acuñado por Judea Pearl en 1985 para enfatizar: ^[26]

la naturaleza a menudo subjetiva de la información de entrada
la dependencia del condicionamiento de Bayes como base para actualizar la información
la distinción entre modos de razonamiento causal y evidencial ^[27]

A finales de la década de 1980, el Razonamiento probabilístico en sistemas inteligentes de Pearl ^[28] y el Razonamiento probabilístico en sistemas expertos de Napolitan ^[29] resumieron sus propiedades y las establecieron como un campo de estudio.

Ver también

Notas

^ Ruggeri, Fabrizio; Kenett, Ron S.; Faltin, Frederick W., eds. (14 de diciembre de 2007). Enciclopedia de estadísticas en calidad y confiabilidad (1 ed.). Wiley. pag. 1. doi : 10.1002/9780470061572.eqr089. ISBN 978-0-470-01861-3.
^ abcde Perla, Judea (2000). Causalidad: modelos, razonamiento e inferencia. Prensa de la Universidad de Cambridge . ISBN 978-0-521-77362-1. OCLC 42291253.
^ "El criterio de la puerta trasera" (PDF) . Consultado el 18 de septiembre de 2014 .
^ "d-Separación sin lágrimas" (PDF) . Consultado el 18 de septiembre de 2014 .
^ Perla J (1994). "Un cálculo probabilístico de acciones". En López de Mantaras R, Poole D (eds.). UAI'94 Actas de la Décima Conferencia Internacional sobre Incertidumbre en Inteligencia Artificial . San Mateo CA: Morgan Kaufmann . págs. 454–462. arXiv : 1302.6835 . Código Bib : 2013arXiv1302.6835P. ISBN 1-55860-332-8.
^ Shpitser I, Pearl J (2006). "Identificación de Distribuciones Intervencionistas Condicionales". En Dechter R, Richardson TS (eds.). Actas de la XXII Conferencia sobre la incertidumbre en la inteligencia artificial . Corvallis, Oregón: AUAI Press. págs. 437–444. arXiv : 1206.6876 .
^ Rebane G, Perla J (1987). "La recuperación de poliárboles causales a partir de datos estadísticos". Actas, 3er taller sobre incertidumbre en IA . Seattle, WA. págs. 222-228. arXiv : 1304.2736 .{{cite book}}: CS1 maint: location missing publisher (link)
^ Espíritus P, Glymour C (1991). "Un algoritmo para la recuperación rápida de gráficos causales dispersos" (PDF) . Revisión de informática de ciencias sociales . 9 (1): 62–72. CiteSeerX 10.1.1.650.2922 . doi :10.1177/089443939100900106. S2CID 38398322.
^ Spirtes P, Glymour CN, Scheines R (1993). Causación, predicción y búsqueda (1ª ed.). Springer-Verlag. ISBN 978-0-387-97979-3.
^ Verma T, Perla J (1991). "Equivalencia y síntesis de modelos causales". En Bonissone P, Henrion M, Kanal LN, Lemmer JF (eds.). Actas de la UAI '90 de la Sexta Conferencia Anual sobre Incertidumbre en Inteligencia Artificial . Elsevier. págs. 255–270. ISBN 0-444-89264-8.
^ Friedman N, Geiger D, Goldszmidt M (noviembre de 1997). "Clasificadores de redes bayesianas". Aprendizaje automático . 29 (2–3): 131–163. doi : 10.1023/A:1007465528199 .
^ Friedman N, Linial M, Nachman I, Pe'er D (agosto de 2000). "Uso de redes bayesianas para analizar datos de expresión". Revista de biología computacional . 7 (3–4): 601–20. CiteSeerX 10.1.1.191.139 . doi :10.1089/106652700750050961. PMID 11108481.
^ Cussens J (2011). "Aprendizaje de redes bayesianas con planos de corte" (PDF) . Actas de la 27ª Conferencia Anual sobre la incertidumbre en la inteligencia artificial : 153–160. arXiv : 1202.3713 . Código Bib : 2012arXiv1202.3713C.
^ Scanagatta M, de Campos CP, Corani G, Zaffalon M (2015). "Aprendizaje de redes bayesianas con miles de variables". NIPS-15: Avances en sistemas de procesamiento de información neuronal . vol. 28. Asociados Curran. págs. 1855–1863.
^ Petitjean F, Webb GI, Nicholson AE (2013). Escalado del análisis log-lineal a datos de alta dimensión (PDF) . Congreso Internacional sobre Minería de Datos. Dallas, TX, Estados Unidos: IEEE.
^ M. Scanagatta, G. Corani, CP de Campos y M. Zaffalon. Aprendizaje de redes bayesianas delimitadas por ancho de árbol con miles de variables. En NIPS-16: Avances en los sistemas de procesamiento de información neuronal 29, 2016.
^ ab Russell y Norvig 2003, pág. 496.
^ ab Russell y Norvig 2003, pág. 499.
^ RE napolitano (2004). Aprendizaje de redes bayesianas. Prentice Hall. ISBN 978-0-13-012534-7.
^ Cooper GF (1990). "La complejidad computacional de la inferencia probabilística utilizando redes de creencias bayesianas" (PDF) . Inteligencia artificial . 42 (2–3): 393–405. doi :10.1016/0004-3702(90)90060-d. S2CID 43363498.
^ Dagum P, Luby M (1993). "La aproximación a la inferencia probabilística en redes de creencias bayesianas es NP-difícil". Inteligencia artificial . 60 (1): 141-153. CiteSeerX 10.1.1.333.1586 . doi :10.1016/0004-3702(93)90036-b.
^ D. Roth, Sobre la dureza del razonamiento aproximado, IJCAI (1993)
^ D. Roth, Sobre la dureza del razonamiento aproximado, Inteligencia artificial (1996)
^ Dagum P, Luby M (1997). "Un algoritmo de aproximación óptimo para la inferencia bayesiana". Inteligencia artificial . 93 (1–2): 1–27. CiteSeerX 10.1.1.36.7946 . doi :10.1016/s0004-3702(97)00013-1. Archivado desde el original el 6 de julio de 2017 . Consultado el 19 de diciembre de 2015 .
^ Hoffman, Mateo D.; Gelman, Andrés (2011). "El muestreador sin giro en U: establecimiento adaptativo de longitudes de camino en el Monte Carlo hamiltoniano". arXiv : 1111.4246 [estad.CO].
^ Perla J (1985). Redes bayesianas: un modelo de memoria autoactivada para el razonamiento probatorio (Informe técnico de UCLA CSD-850017) . Actas de la Séptima Conferencia de la Sociedad de Ciencias Cognitivas, Universidad de California, Irvine, CA. págs. 329–334 . Consultado el 1 de mayo de 2009 .
^ Bayes T , Precio (1763). "Un ensayo para la solución de un problema en la doctrina de las posibilidades" . Transacciones filosóficas de la Royal Society . 53 : 370–418. doi : 10.1098/rstl.1763.0053 .
^ Perla J (15 de septiembre de 1988). Razonamiento probabilístico en sistemas inteligentes. San Francisco CA: Morgan Kaufmann . pag. 1988.ISBN 978-1-55860-479-7.
^ RE napolitano (1989). Razonamiento probabilístico en sistemas expertos: teoría y algoritmos. Wiley. ISBN 978-0-471-61840-9.

Referencias

Ben Gal I (2007). "Redes bayesianas" (PDF) . En Ruggeri F, Kennett RS, Faltin FW (eds.). Pagina de soporte . Enciclopedia de Estadísticas en Calidad y Confiabilidad . John Wiley e hijos . doi : 10.1002/9780470061572.eqr089 . ISBN 978-0-470-01861-3. Archivado desde el original (PDF) el 23 de noviembre de 2016 . Consultado el 27 de agosto de 2007 .
Bertsch McGrayne S (2011). La teoría que no moriría . New Haven: Prensa de la Universidad de Yale .
Borgelt C, Kruse R (marzo de 2002). Modelos gráficos: métodos de análisis y minería de datos. Chichester, Reino Unido : Wiley . ISBN 978-0-470-84337-6.
Borsuk ME (2008). "Informática ecológica: redes bayesianas". En Jørgensen, Sven Erik , Fath, Brian (eds.). Enciclopedia de Ecología . Elsevier. ISBN 978-0-444-52033-3.
Castillo E, Gutiérrez JM, Hadi AS (1997). "Aprendizaje de redes bayesianas". Sistemas expertos y modelos de redes probabilísticas . Monografías en informática. Nueva York: Springer-Verlag . págs. 481–528. ISBN 978-0-387-94858-4.
Comley JW, Dowe DL (junio de 2003). "Redes bayesianas generales y lenguajes asimétricos". Actas de la Segunda Conferencia Internacional de Hawái sobre Estadística y Campos Afines .
Comley JW, Dowe DL (2005). "Longitud mínima del mensaje y redes bayesianas generalizadas con lenguajes asimétricos". En Grünwald PD, Myung IJ, Pitt MA (eds.). Avances en la longitud mínima de la descripción: teoría y aplicaciones . Serie de procesamiento de información neuronal. Cambridge, Massachusetts : Bradford Books ( MIT Press ) (publicado en abril de 2005). págs. 265–294. ISBN 978-0-262-07262-5.(Este artículo coloca árboles de decisión en nodos internos de redes Bayes utilizando la longitud mínima de mensaje ( MML ).
Darwiche A (2009). Modelado y Razonamiento con Redes Bayesianas. Prensa de la Universidad de Cambridge . ISBN 978-0-521-88438-9.
Dowe, David L. (31 de mayo de 2011). "Modelos gráficos de redes bayesianas híbridas, coherencia estadística, invariancia y unicidad" (PDF) . Filosofía de la Estadística. Elsevier. págs. 901–982. ISBN 978-0-08-093096-1.
Fenton N, Neil ME (noviembre de 2007). "Gestión del riesgo en el mundo moderno: aplicaciones de redes bayesianas" (PDF) . Un informe de transferencia de conocimientos de la Sociedad Matemática de Londres y la Red de transferencia de conocimientos para matemáticas industriales . Londres (Inglaterra) : Sociedad Matemática de Londres . Archivado desde el original (PDF) el 14 de mayo de 2008 . Consultado el 29 de octubre de 2008 .
Fenton N, Neil ME (23 de julio de 2004). "Combinación de evidencia en análisis de riesgos mediante redes bayesianas" (PDF) . Boletín del Club de sistemas críticos para la seguridad . vol. 13, núm. 4. Newcastle upon Tyne , Inglaterra. págs. 8-13. Archivado desde el original (PDF) el 27 de septiembre de 2007.
Gelman A, Carlin JB, Stern HS, Rubin DB (2003). "Parte II: Fundamentos del análisis de datos bayesianos: Modelos jerárquicos del capítulo 5". Análisis de datos bayesianos. Prensa CRC . págs.120–. ISBN 978-1-58488-388-3.
Heckerman, David (1 de marzo de 1995). "Tutorial sobre Aprendizaje con Redes Bayesianas". En Jordania, Michael Irwin (ed.). Aprendizaje en Modelos Gráficos . Computación adaptativa y aprendizaje automático. Cambridge, Massachusetts : MIT Press (publicado en 1998). págs. 301–354. ISBN 978-0-262-60032-3. Archivado desde el original el 19 de julio de 2006 . Consultado el 15 de septiembre de 2006 .{{cite book}}: CS1 maint: bot: original URL status unknown (link):También aparece como Heckerman, David (marzo de 1997). "Redes bayesianas para minería de datos". Minería de datos y descubrimiento de conocimientos . 1 (1): 79-119. doi :10.1023/A:1009730122752. S2CID 6294315.

Una versión anterior aparece como Microsoft Research , 1 de marzo de 1995. El artículo trata sobre el aprendizaje de parámetros y estructuras en redes bayesianas.

Jensen FV, Nielsen TD (6 de junio de 2007). Redes bayesianas y gráficos de decisión. Serie Ciencias de la información y estadística (2ª ed.). Nueva York : Springer-Verlag . ISBN 978-0-387-68281-5.
Karimi K, Hamilton HJ (2000). "Encontrar relaciones temporales: redes bayesianas causales frente a C4. 5" (PDF) . Duodécimo Simposio Internacional sobre Metodologías para Sistemas Inteligentes .
Korb KB, Nicholson AE (diciembre de 2010). Inteligencia artificial bayesiana. CRC Informática y análisis de datos (2ª ed.). Chapman y Hall ( Prensa CRC ). doi :10.1007/s10044-004-0214-5. ISBN 978-1-58488-387-6. S2CID 22138783.
Lunn D, Spiegelhalter D, Thomas A, Best N (noviembre de 2009). "El proyecto BUGS: Evolución, crítica y direcciones futuras". Estadística en Medicina . 28 (25): 3049–67. doi :10.1002/sim.3680. PMID 19630097. S2CID 7717482.
Neil M, Fenton N, Tailor M (agosto de 2005). Greenberg, Michael R. (ed.). "Uso de redes bayesianas para modelar pérdidas operativas esperadas e inesperadas" (PDF) . Análisis de riesgo . 25 (4): 963–72. doi :10.1111/j.1539-6924.2005.00641.x. PMID 16268944. S2CID 3254505.
Pearl J (septiembre de 1986). "Fusión, propagación y estructuración en redes de creencias". Inteligencia artificial . 29 (3): 241–288. doi :10.1016/0004-3702(86)90072-X.
Perla J (1988). Razonamiento probabilístico en sistemas inteligentes: redes de inferencia plausible. Serie Representación y Razonamiento (2ª edición). San Francisco, California : Morgan Kaufmann . ISBN 978-0-934613-73-6.
Pearl J , Russell S (noviembre de 2002). "Redes bayesianas". En Arbib MA (ed.). Manual de teoría del cerebro y redes neuronales. Cambridge, Massachusetts : Bradford Books ( MIT Press ). págs. 157-160. ISBN 978-0-262-01197-6.
Russell, Stuart J .; Norvig, Peter (2003), Inteligencia artificial: un enfoque moderno (2ª ed.), Upper Saddle River, Nueva Jersey: Prentice Hall, ISBN 0-13-790395-2.
Zhang NL, Poole D (mayo de 1994). "Un enfoque sencillo para los cálculos de redes bayesianas" (PDF) . Actas de la Décima Conferencia Bienal Canadiense sobre Inteligencia Artificial (AI-94). : 171–178.Este artículo presenta la eliminación de variables para redes de creencias.

Otras lecturas

Conrady S, Jouffe L (1 de julio de 2015). Bayesian Networks y BayesiaLab: una introducción práctica para investigadores. Franklin, Tennessee: Estados Unidos bayesianos. ISBN 978-0-9965333-0-0.
Charniak E (invierno de 1991). «Redes bayesianas sin lágrimas» (PDF) . Revista AI .
Kruse R, Borgelt C, Klawonn F, Moewes C, Steinbrecher M, Held P (2013). Inteligencia computacional Una introducción metodológica. Londres: Springer-Verlag. ISBN 978-1-4471-5012-1.
Borgelt C, Steinbrecher M, Kruse R (2009). Modelos gráficos: representaciones para el aprendizaje, el razonamiento y la minería de datos (Segunda ed.). Chichester: Wiley. ISBN 978-0-470-74956-2.

enlaces externos

Una introducción a las redes bayesianas y sus aplicaciones contemporáneas
Tutorial en línea sobre redes bayesianas y probabilidad
Aplicación web para crear redes bayesianas y ejecutarlas con el método Monte Carlo
Redes bayesianas de tiempo continuo
Redes bayesianas: explicación y analogía
Un tutorial en vivo sobre el aprendizaje de redes bayesianas.
Un modelo de Bayes jerárquico para manejar la heterogeneidad de muestras en problemas de clasificación proporciona un modelo de clasificación que toma en consideración la incertidumbre asociada con la medición de muestras replicadas.
Modelo jerárquico Naive Bayes para manejar la incertidumbre de la muestra Archivado el 28 de septiembre de 2007 en Wayback Machine , muestra cómo realizar clasificación y aprendizaje con variables continuas y discretas con mediciones replicadas.