Programación bayesiana

La programación bayesiana es un formalismo y una metodología para tener una técnica para especificar modelos probabilísticos y resolver problemas cuando se dispone de menos información de la necesaria.

Edwin T. Jaynes propuso que la probabilidad podía considerarse como una alternativa y una extensión de la lógica para el razonamiento racional con información incompleta e incierta. En su libro fundacional Probability Theory: The Logic of Science ^[1] desarrolló esta teoría y propuso lo que llamó “el robot”, que no era un dispositivo físico, sino un motor de inferencia para automatizar el razonamiento probabilístico, una especie de Prolog para la probabilidad en lugar de la lógica. La programación bayesiana ^[2] es una implementación formal y concreta de este “robot”.

La programación bayesiana también puede ser vista como un formalismo algebraico para especificar modelos gráficos como, por ejemplo, redes bayesianas , redes bayesianas dinámicas , filtros de Kalman o modelos ocultos de Markov . De hecho, la programación bayesiana es más general que las redes bayesianas y tiene un poder de expresión equivalente a los grafos de factores probabilísticos . ^[3]

Formalismo

Un programa bayesiano es un medio para especificar una familia de distribuciones de probabilidad.

A continuación se presentan los elementos constitutivos de un programa bayesiano: ^[4]

{\text{Program}}{\begin{cases}{\text{Description}}{\begin{cases}{\text{Specification}}(\pi ){\begin{cases}{\text{Variables}}\\{\text{Decomposition}}\\{\text{Forms}}\\\end{cases}}\\{\text{Identification (based on }}\delta )\end{cases}}\\{\text{Question}}\end{cases}}

Un programa se construye a partir de una descripción y una pregunta.
Una descripción se construye utilizando alguna especificación ( ) dada por el programador y un proceso de identificación o aprendizaje para los parámetros no completamente especificados por la especificación, utilizando un conjunto de datos ( ). $\pi$ $\delta$
Una especificación se construye a partir de un conjunto de variables pertinentes, una descomposición y un conjunto de formas.
Los formularios son formas paramétricas o preguntas a otros programas bayesianos.
Una pregunta especifica qué distribución de probabilidad debe calcularse.

Descripción

El propósito de una descripción es especificar un método eficaz para calcular una distribución de probabilidad conjunta sobre un conjunto de variables dado un conjunto de datos experimentales y cierta especificación . Esta distribución conjunta se denota como: . ^[5] $\left\{X_{1},X_{2},\cdots ,X_{N}\right\}$ $\delta$ $\pi$ $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)$

Para especificar conocimientos preliminares , el programador debe realizar lo siguiente: $\pi$

Definir el conjunto de variables relevantes sobre las que se define la distribución conjunta. $\left\{X_{1},X_{2},\cdots ,X_{N}\right\}$
Descomponer la distribución conjunta (dividirla en probabilidades independientes o condicionales relevantes ).
Definir las formas de cada una de las distribuciones (por ejemplo, para cada variable, una de la lista de distribuciones de probabilidad ).

Descomposición

Dada una partición de subconjuntos que la contienen , se definen variables , cada una de las cuales corresponde a uno de estos subconjuntos. Cada variable se obtiene como la conjunción de las variables pertenecientes al subconjunto. La aplicación recursiva del teorema de Bayes conduce a: $\left\{X_{1},X_{2},\ldots ,X_{N}\right\}$ $K$ $K$ $L_{1},\cdots ,L_{K}$ $L_{k}$ $\left\{X_{k_{1}},X_{k_{2}},\cdots \right\}$ $k^{th}$

{\begin{aligned}&P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)\\={}&P\left(L_{1}\wedge \cdots \wedge L_{K}\mid \delta \wedge \pi \right)\\={}&P\left(L_{1}\mid \delta \wedge \pi \right)\times P\left(L_{2}\mid L_{1}\wedge \delta \wedge \pi \right)\times \cdots \times P\left(L_{K}\mid L_{K-1}\wedge \cdots \wedge L_{1}\wedge \delta \wedge \pi \right)\end{aligned}}

Las hipótesis de independencia condicional permiten, por tanto, simplificaciones adicionales. Una hipótesis de independencia condicional para una variable se define eligiendo una variable entre las variables que aparecen en la conjunción , etiquetándola como la conjunción de estas variables elegidas y estableciendo: $L_{k}$ $X_{n}$ $L_{k-1}\wedge \cdots \wedge L_{2}\wedge L_{1}$ $R_{k}$

P\left(L_{k}\mid L_{k-1}\wedge \cdots \wedge L_{1}\wedge \delta \wedge \pi \right)=P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)

Obtenemos entonces:

{\begin{aligned}&P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)\\={}&P\left(L_{1}\mid \delta \wedge \pi \right)\times P\left(L_{2}\mid R_{2}\wedge \delta \wedge \pi \right)\times \cdots \times P\left(L_{K}\mid R_{K}\wedge \delta \wedge \pi \right)\end{aligned}}

Esta simplificación de la distribución conjunta como producto de distribuciones más simples se denomina descomposición y se deriva utilizando la regla de la cadena .

Esto garantiza que cada variable aparezca como máximo una vez a la izquierda de una barra de condicionamiento, que es la condición necesaria y suficiente para escribir descomposiciones matemáticamente válidas. ^{[ cita requerida ]}

Formularios

Cada distribución que aparece en el producto se asocia luego con una forma paramétrica (es decir, una función ) o con una pregunta a otro programa bayesiano . $P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)$ $f_{\mu }\left(L_{k}\right)$ $P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)=P\left(L\mid R\wedge {\widehat {\delta }}\wedge {\widehat {\pi }}\right)$

Cuando se trata de una forma , en general, es un vector de parámetros que pueden depender de o o de ambos. El aprendizaje se produce cuando algunos de estos parámetros se calculan utilizando el conjunto de datos . $f_{\mu }\left(L_{k}\right)$ $\mu$ $R_{k}$ $\delta$ $\delta$

Una característica importante de la programación bayesiana es la capacidad de utilizar preguntas a otros programas bayesianos como componentes de la definición de un nuevo programa bayesiano. Se obtiene mediante algunas inferencias realizadas por otro programa bayesiano definido por las especificaciones y los datos . Esto es similar a llamar a una subrutina en la programación clásica y proporciona una forma sencilla de construir modelos jerárquicos . $P\left(L_{k}\mid R_{k}\wedge \delta \wedge \pi \right)$ ${\widehat {\pi }}$ ${\widehat {\delta }}$

Pregunta

Dada una descripción (es decir, ), se obtiene una pregunta dividiéndola en tres conjuntos: las variables buscadas, las variables conocidas y las variables libres. $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)$ $\left\{X_{1},X_{2},\cdots ,X_{N}\right\}$

Las 3 variables , y se definen como la conjunción de las variables pertenecientes a estos conjuntos. $Searched$ $Known$ $Free$

Una pregunta se define como el conjunto de distribuciones:

P\left(Searched\mid {\text{Known}}\wedge \delta \wedge \pi \right)

compuesta de muchas "preguntas instanciadas" como el cardinal de , siendo cada pregunta instanciada la distribución: $Known$

P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)

Inferencia

Dada la distribución conjunta , siempre es posible calcular cualquier pregunta posible utilizando la siguiente inferencia general: $P\left(X_{1}\wedge X_{2}\wedge \cdots \wedge X_{N}\mid \delta \wedge \pi \right)$

{\begin{aligned}&P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)\\={}&\sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)\right]\\={}&{\frac {\displaystyle \sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}\mid \delta \wedge \pi \right)\right]}{\displaystyle P\left({\text{Known}}\mid \delta \wedge \pi \right)}}\\={}&{\frac {\displaystyle \sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}\mid \delta \wedge \pi \right)\right]}{\displaystyle \sum _{{\text{Free}}\wedge {\text{Searched}}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}\mid \delta \wedge \pi \right)\right]}}\\={}&{\frac {1}{Z}}\times \sum _{\text{Free}}\left[P\left({\text{Searched}}\wedge {\text{Free}}\wedge {\text{Known}}\mid \delta \wedge \pi \right)\right]\end{aligned}}

donde la primera igualdad resulta de la regla de marginalización, la segunda resulta del teorema de Bayes y la tercera corresponde a una segunda aplicación de la marginalización. El denominador parece ser un término de normalización y puede reemplazarse por una constante . $Z$

En teoría, esto permite resolver cualquier problema de inferencia bayesiana. Sin embargo, en la práctica, el coste de realizar un cálculo exhaustivo y exacto es demasiado elevado en casi todos los casos. $P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)$

Reemplazando la distribución conjunta por su descomposición obtenemos:

{\begin{aligned}&P\left({\text{Searched}}\mid {\text{Known}}\wedge \delta \wedge \pi \right)\\={}&{\frac {1}{Z}}\sum _{\text{Free}}\left[\prod _{k=1}^{K}\left[P\left(L_{i}\mid K_{i}\wedge \pi \right)\right]\right]\end{aligned}}

que suele ser una expresión mucho más sencilla de calcular, ya que la dimensionalidad del problema se reduce considerablemente mediante la descomposición en un producto de distribuciones de menor dimensión.

Ejemplo

Detección de spam bayesiana

El propósito del filtrado bayesiano de spam es eliminar los correos electrónicos basura.

El problema es muy fácil de formular. Los correos electrónicos deben clasificarse en una de dos categorías: spam o no spam. La única información disponible para clasificar los correos electrónicos es su contenido: un conjunto de palabras. El uso de estas palabras sin tener en cuenta el orden se denomina comúnmente modelo de bolsa de palabras .

Además, el clasificador debe poder adaptarse a su usuario y aprender de la experiencia. Partiendo de una configuración estándar inicial, el clasificador debe modificar sus parámetros internos cuando el usuario no esté de acuerdo con su propia decisión. De este modo, se adaptará a los criterios del usuario para diferenciar entre correo no deseado y correo basura. Mejorará sus resultados a medida que encuentre cada vez más correos electrónicos clasificados.

Variables

Las variables necesarias para escribir este programa son las siguientes:

$Spam$ :una variable binaria, falsa si el correo electrónico no es spam y verdadera en caso contrario.
$W_{0},W_{1},\ldots ,W_{N-1}$ : variables binarias . es verdadero si la palabra del diccionario está presente en el texto. $N$ $W_{n}$ $n^{th}$

Estas variables binarias resumen toda la información sobre un correo electrónico. $N+1$

Descomposición

Partiendo de la distribución conjunta y aplicando recursivamente el teorema de Bayes obtenemos:

{\begin{aligned}&P({\text{Spam}}\wedge W_{0}\wedge \cdots \wedge W_{N-1})\\={}&P({\text{Spam}})\times P(W_{0}\mid {\text{Spam}})\times P(W_{1}\mid {\text{Spam}}\wedge W_{0})\\&\times \cdots \\&\times P\left(W_{N-1}\mid {\text{Spam}}\wedge W_{0}\wedge \cdots \wedge W_{N-2}\right)\end{aligned}}

Esta es una expresión matemática exacta.

Se puede simplificar drásticamente suponiendo que la probabilidad de aparición de una palabra conociendo la naturaleza del texto (spam o no) es independiente de la aparición de las otras palabras. Esta es la hipótesis bayesiana ingenua y hace que este filtro de spam sea un modelo bayesiano ingenuo .

Por ejemplo, el programador puede asumir que:

P(W_{1}\mid {\text{Spam}}\land W_{0})=P(W_{1}\mid {\text{Spam}})

Para finalmente obtener:

P({\text{Spam}}\land W_{0}\land \ldots \land W_{N-1})=P({\text{Spam}})\prod _{n=0}^{N-1}[P(W_{n}\mid {\text{Spam}})]

Este tipo de suposición se conoce como la suposición de Bayes ingenuo . Es "ingenuo" en el sentido de que la independencia entre palabras claramente no es completamente cierta. Por ejemplo, ignora por completo que la aparición de pares de palabras puede ser más significativa que las apariciones aisladas. Sin embargo, el programador puede asumir esta hipótesis y puede desarrollar el modelo y las inferencias asociadas para probar cuán confiable y eficiente es.

Formas paramétricas

Para poder calcular la distribución conjunta, el programador ahora debe especificar las distribuciones que aparecen en la descomposición: $N+1$

$P({\text{Spam}})$ es un prior definido, por ejemplo, por $P([{\text{Spam}}=1])=0.75$
Cada una de las formas se puede especificar utilizando la regla de sucesión de Laplace (esta es una técnica de suavizado basada en pseudoconteos para contrarrestar el problema de frecuencia cero de palabras nunca vistas antes): $N$ $P(W_{n}\mid {\text{Spam}})$
1. $P(W_{n}\mid [{\text{Spam}}={\text{false}}])={\frac {1+a_{f}^{n}}{2+a_{f}}}$
2. $P(W_{n}\mid [{\text{Spam}}={\text{true}}])={\frac {1+a_{t}^{n}}{2+a_{t}}}$

donde representa el número de apariciones de la palabra en correos electrónicos que no son spam y representa el número total de correos electrónicos que no son spam. De manera similar, representa el número de apariciones de la palabra en correos electrónicos spam y representa el número total de correos electrónicos spam. $a_{f}^{n}$ $n^{th}$ $a_{f}$ $a_{t}^{n}$ $n^{th}$ $a_{t}$

Identificación

Los formularios aún no están completamente especificados porque los parámetros , , y aún no tienen valores. $N$ $P(W_{n}\mid {\text{Spam}})$ $2N+2$ $a_{f}^{n=0,\ldots ,N-1}$ $a_{t}^{n=0,\ldots ,N-1}$ $a_{f}$ $a_{t}$

La identificación de estos parámetros se puede realizar ya sea mediante el procesamiento por lotes de una serie de correos electrónicos clasificados o mediante una actualización incremental de los parámetros utilizando las clasificaciones que hace el usuario de los correos electrónicos a medida que llegan.

Ambos métodos podrían combinarse: el sistema podría comenzar con valores estándar iniciales de estos parámetros emitidos desde una base de datos genérica y luego un aprendizaje incremental personaliza el clasificador para cada usuario individual.

Pregunta

La pregunta que se le hace al programa es: "¿cuál es la probabilidad de que un texto dado sea spam sabiendo qué palabras aparecen y cuáles no aparecen en ese texto?" Se puede formalizar así:

P({\text{Spam}}\mid w_{0}\wedge \cdots \wedge w_{N-1})

que puede calcularse de la siguiente manera:

{\begin{aligned}&P({\text{Spam}}\mid w_{0}\wedge \cdots \wedge w_{N-1})\\={}&{\frac {\displaystyle P({\text{Spam}})\prod _{n=0}^{N-1}[P(w_{n}\mid {\text{Spam}})]}{\displaystyle \sum _{\text{Spam}}[P({\text{Spam}})\prod _{n=0}^{N-1}[P(w_{n}\mid {\text{Spam}})]]}}\end{aligned}}

El denominador parece ser una constante de normalización . No es necesario calcularlo para decidir si se trata de correo basura. Por ejemplo, un truco fácil es calcular la proporción:

{\begin{aligned}&{\frac {P([{\text{Spam}}={\text{true}}]\mid w_{0}\wedge \cdots \wedge w_{N-1})}{P([{\text{Spam}}={\text{false}}]\mid w_{0}\wedge \cdots \wedge w_{N-1})}}\\={}&{\frac {P([{\text{Spam}}={\text{true}}])}{P([{\text{Spam}}={\text{false}}])}}\times \prod _{n=0}^{N-1}\left[{\frac {P(w_{n}\mid [{\text{Spam}}={\text{true}}])}{P(w_{n}\mid [{\text{Spam}}={\text{false}}])}}\right]\end{aligned}}

Este cálculo es más rápido y sencillo porque sólo requiere productos. $2N$

Programa bayesiano

El programa de filtro de spam bayesiano está completamente definido por:

\Pr {\begin{cases}Ds{\begin{cases}Sp(\pi ){\begin{cases}Va:{\text{Spam}},W_{0},W_{1}\ldots W_{N-1}\\Dc:{\begin{cases}P({\text{Spam}}\land W_{0}\land \ldots \land W_{n}\land \ldots \land W_{N-1})\\=P({\text{Spam}})\prod _{n=0}^{N-1}P(W_{n}\mid {\text{Spam}})\end{cases}}\\Fo:{\begin{cases}P({\text{Spam}}):{\begin{cases}P([{\text{Spam}}={\text{false}}])=0.25\\P([{\text{Spam}}={\text{true}}])=0.75\end{cases}}\\P(W_{n}\mid {\text{Spam}}):{\begin{cases}P(W_{n}\mid [{\text{Spam}}={\text{false}}])\\={\frac {1+a_{f}^{n}}{2+a_{f}}}\\P(W_{n}\mid [{\text{Spam}}={\text{true}}])\\={\frac {1+a_{t}^{n}}{2+a_{t}}}\end{cases}}\\\end{cases}}\\\end{cases}}\\{\text{Identification (based on }}\delta )\end{cases}}\\Qu:P({\text{Spam}}\mid w_{0}\land \ldots \land w_{n}\land \ldots \land w_{N-1})\end{cases}}

Filtro bayesiano, filtro de Kalman y modelo oculto de Markov

Los filtros bayesianos (a menudo denominados estimación bayesiana recursiva ) son modelos probabilísticos genéricos para procesos que evolucionan en el tiempo. Numerosos modelos son ejemplos particulares de este enfoque genérico, por ejemplo: el filtro de Kalman o el modelo oculto de Markov (HMM).

Variables

Las variables son una serie temporal de variables de estado que se consideran en un horizonte temporal que va desde hasta . $S^{0},\ldots ,S^{T}$ $0$ $T$
Las variables son una serie temporal de variables de observación en el mismo horizonte. $O^{0},\ldots ,O^{T}$

Descomposición

La descomposición se basa:

en , llamado modelo de sistema, modelo de transición o modelo dinámico, que formaliza la transición del estado en el momento al estado en el momento ; $P(S^{t}\mid S^{t-1})$ $t-1$ $t$
en , llamado modelo de observación, que expresa lo que se puede observar en el momento en que el sistema está en el estado ; $P(O^{t}\mid S^{t})$ $t$ $S^{t}$
en un estado inicial en el tiempo : . $0$ $P(S^{0}\wedge O^{0})$

Formas paramétricas

Las formas paramétricas no están restringidas y diferentes elecciones conducen a diferentes modelos conocidos: consulte los filtros de Kalman y los modelos ocultos de Markov a continuación.

Pregunta

La pregunta típica para tales modelos es : ¿cuál es la distribución de probabilidad para el estado en el momento conociendo las observaciones desde el instante hasta el momento ? $P\left(S^{t+k}\mid O^{0}\wedge \cdots \wedge O^{t}\right)$ $t+k$ $0$ $t$

El caso más común es el filtrado bayesiano donde , que busca el estado actual, conociendo observaciones pasadas. $k=0$

Sin embargo, también es posible extrapolar un estado futuro a partir de observaciones pasadas, o hacer un suavizado , para recuperar un estado pasado a partir de observaciones realizadas antes o después de ese instante. $(k>0)$ $(k<0)$

También se pueden hacer preguntas más complicadas como se muestra a continuación en la sección HMM.

Los filtros bayesianos tienen una propiedad recursiva muy interesante, que contribuye en gran medida a su atractivo. puede calcularse simplemente con la siguiente fórmula: $(k=0)$ $P\left(S^{t}|O^{0}\wedge \cdots \wedge O^{t}\right)$ $P\left(S^{t-1}\mid O^{0}\wedge \cdots \wedge O^{t-1}\right)$

{\begin{array}{ll}&P\left(S^{t}|O^{0}\wedge \cdots \wedge O^{t}\right)\\=&P\left(O^{t}|S^{t}\right)\times \sum _{S^{t-1}}\left[P\left(S^{t}|S^{t-1}\right)\times P\left(S^{t-1}|O^{0}\wedge \cdots \wedge O^{t-1}\right)\right]\end{array}}

Otro punto de vista interesante para esta ecuación es considerar que hay dos fases: una fase de predicción y una fase de estimación:

Durante la fase de predicción, el estado se predice utilizando el modelo dinámico y la estimación del estado en el momento anterior:

{\begin{array}{ll}&P\left(S^{t}|O^{0}\wedge \cdots \wedge O^{t-1}\right)\\=&\sum _{S^{t-1}}\left[P\left(S^{t}|S^{t-1}\right)\times P\left(S^{t-1}|O^{0}\wedge \cdots \wedge O^{t-1}\right)\right]\end{array}}

Durante la fase de estimación, la predicción se confirma o invalida utilizando la última observación:

{\begin{aligned}&P\left(S^{t}\mid O^{0}\wedge \cdots \wedge O^{t}\right)\\={}&P\left(O^{t}\mid S^{t}\right)\times P\left(S^{t}|O^{0}\wedge \cdots \wedge O^{t-1}\right)\end{aligned}}

Programa bayesiano

Pr{\begin{cases}Ds{\begin{cases}Sp(\pi ){\begin{cases}Va:\\S^{0},\cdots ,S^{T},O^{0},\cdots ,O^{T}\\Dc:\\{\begin{cases}&P\left(S^{0}\wedge \cdots \wedge S^{T}\wedge O^{0}\wedge \cdots \wedge O^{T}|\pi \right)\\=&P\left(S^{0}\wedge O^{0}\right)\times \prod _{t=1}^{T}\left[P\left(S^{t}|S^{t-1}\right)\times P\left(O^{t}|S^{t}\right)\right]\end{cases}}\\Fo:\\{\begin{cases}P\left(S^{0}\wedge O^{0}\right)\\P\left(S^{t}|S^{t-1}\right)\\P\left(O^{t}|S^{t}\right)\end{cases}}\end{cases}}\\Id\end{cases}}\\Qu:\\{\begin{cases}{\begin{array}{l}P\left(S^{t+k}|O^{0}\wedge \cdots \wedge O^{t}\right)\\\left(k=0\right)\equiv {\text{Filtering}}\\\left(k>0\right)\equiv {\text{Prediction}}\\\left(k<0\right)\equiv {\text{Smoothing}}\end{array}}\end{cases}}\end{cases}}

Filtro Kalman

Los conocidos filtros de Kalman ^[6] son un caso especial de filtros bayesianos.

Se definen mediante el siguiente programa bayesiano:

Pr{\begin{cases}Ds{\begin{cases}Sp(\pi ){\begin{cases}Va:\\S^{0},\cdots ,S^{T},O^{0},\cdots ,O^{T}\\Dc:\\{\begin{cases}&P\left(S^{0}\wedge \cdots \wedge O^{T}|\pi \right)\\=&\left[{\begin{array}{c}P\left(S^{0}\wedge O^{0}|\pi \right)\\\prod _{t=1}^{T}\left[P\left(S^{t}|S^{t-1}\wedge \pi \right)\times P\left(O^{t}|S^{t}\wedge \pi \right)\right]\end{array}}\right]\end{cases}}\\Fo:\\{\begin{cases}P\left(S^{t}\mid S^{t-1}\wedge \pi \right)\equiv G\left(S^{t},A\bullet S^{t-1},Q\right)\\P\left(O^{t}\mid S^{t}\wedge \pi \right)\equiv G\left(O^{t},H\bullet S^{t},R\right)\end{cases}}\end{cases}}\\Id\end{cases}}\\Qu:\\P\left(S^{T}\mid O^{0}\wedge \cdots \wedge O^{T}\wedge \pi \right)\end{cases}}

Las variables son continuas.
Tanto el modelo de transición como el modelo de observación se especifican utilizando leyes gaussianas con medias que son funciones lineales de las variables condicionantes. $P(S^{t}\mid S^{t-1}\wedge \pi )$ $P(O^{t}\mid S^{t}\wedge \pi )$

Con estas hipótesis y utilizando la fórmula recursiva, es posible resolver analíticamente el problema de inferencia para responder a la pregunta habitual. Esto conduce a un algoritmo extremadamente eficiente, lo que explica la popularidad de los filtros de Kalman y la cantidad de sus aplicaciones cotidianas. $P(S^{T}\mid O^{0}\wedge \cdots \wedge O^{T}\wedge \pi )$

Cuando no existen modelos de transición y observación lineales obvios, aún es posible, utilizando una expansión de Taylor de primer orden, tratar estos modelos como localmente lineales. Esta generalización se denomina comúnmente filtro de Kalman extendido .

Modelo oculto de Markov

Los modelos ocultos de Markov (HMM) son otra especialización muy popular de los filtros bayesianos.

Se definen mediante el siguiente programa bayesiano:

\Pr {\begin{cases}Ds{\begin{cases}Sp(\pi ){\begin{cases}Va:\\S^{0},\ldots ,S^{T},O^{0},\ldots ,O^{T}\\Dc:\\{\begin{cases}&P\left(S^{0}\wedge \cdots \wedge O^{T}\mid \pi \right)\\=&\left[{\begin{array}{c}P\left(S^{0}\wedge O^{0}\mid \pi \right)\\\prod _{t=1}^{T}\left[P\left(S^{t}\mid S^{t-1}\wedge \pi \right)\times P\left(O^{t}\mid S^{t}\wedge \pi \right)\right]\end{array}}\right]\end{cases}}\\Fo:\\{\begin{cases}P\left(S^{0}\wedge O^{0}\mid \pi \right)\equiv {\text{Matrix}}\\P\left(S^{t}\mid S^{t-1}\wedge \pi \right)\equiv {\text{Matrix}}\\P\left(O^{t}\mid S^{t}\wedge \pi \right)\equiv {\text{Matrix}}\end{cases}}\end{cases}}\\Id\end{cases}}\\Qu:\\\max _{S^{1}\wedge \cdots \wedge S^{T-1}}\left[P\left(S^{1}\wedge \cdots \wedge S^{T-1}\mid S^{T}\wedge O^{0}\wedge \cdots \wedge O^{T}\wedge \pi \right)\right]\end{cases}}

Las variables se tratan como discretas.
El modelo de transición y el modelo de observación son $P\left(S^{t}\mid S^{t-1}\wedge \pi \right)$ $P\left(O^{t}\mid S^{t}\wedge \pi \right)$

Ambos se especifican mediante matrices de probabilidad.

La pregunta que más frecuentemente se les hace a los HMM es:

\max _{S^{1}\wedge \cdots \wedge S^{T-1}}\left[P\left(S^{1}\wedge \cdots \wedge S^{T-1}\mid S^{T}\wedge O^{0}\wedge \cdots \wedge O^{T}\wedge \pi \right)\right]

¿Cuál es la serie de estados más probable que conduce al estado actual, conociendo las observaciones pasadas?

Esta pregunta en particular puede responderse con un algoritmo específico y muy eficiente llamado algoritmo de Viterbi .

El algoritmo Baum-Welch ha sido desarrollado para HMM.

Aplicaciones

Aplicaciones académicas

Desde el año 2000, la programación bayesiana se ha utilizado para desarrollar aplicaciones robóticas y modelos de ciencias de la vida. ^[7]

Robótica

En robótica, la programación bayesiana se aplicó a la robótica autónoma , ^[8]^[9]^[10]^[11]^[12] sistemas CAD robóticos , ^[13] sistemas avanzados de asistencia al conductor , ^[14] control de brazos robóticos , robótica móvil , ^[15]^[16] interacción humano-robot, ^[17] interacción humano-vehículo (modelos de conductor autónomo bayesiano) ^[18]^[19]^[20]^[21]^[22] programación y entrenamiento de avatares de videojuegos ^[23] y juegos de estrategia en tiempo real (IA). ^[24]

Ciencias de la vida

En las ciencias de la vida, la programación bayesiana se utilizó en la visión para reconstruir la forma a partir del movimiento, ^[25] para modelar la interacción visovestibular ^[26] y para estudiar los movimientos sacádicos de los ojos; ^[27] en la percepción y el control del habla para estudiar la adquisición temprana del habla ^[28] y el surgimiento de sistemas articulatorios y acústicos; ^[29] y para modelar la percepción y el control de la escritura a mano. ^[30]

Reconocimiento de patrones

El aprendizaje de programas bayesianos tiene aplicaciones potenciales en el reconocimiento y síntesis de voz , el reconocimiento de imágenes y el procesamiento del lenguaje natural. Emplea los principios de composicionalidad (construcción de representaciones abstractas a partir de partes), causalidad (construcción de complejidad a partir de partes) y aprendizaje a aprender (utilización de conceptos previamente reconocidos para facilitar la creación de nuevos conceptos). ^[31]

Teorías de posibilidad

La comparación entre los enfoques probabilísticos (no sólo la programación bayesiana) y las teorías de posibilidad continúa siendo objeto de debate.

Las teorías de posibilidad, como por ejemplo los conjuntos difusos ^[32] , la lógica difusa ^[33] y la teoría de la posibilidad ^[34] son alternativas a la probabilidad para modelar la incertidumbre. Argumentan que la probabilidad es insuficiente o incómoda para modelar ciertos aspectos del conocimiento incompleto/incierto.

La defensa de la probabilidad se basa principalmente en el teorema de Cox , que parte de cuatro postulados relativos al razonamiento racional en presencia de incertidumbre. Demuestra que el único marco matemático que satisface estos postulados es la teoría de la probabilidad. El argumento es que cualquier enfoque distinto de la probabilidad infringe necesariamente uno de estos postulados y el valor de esa infracción.

Programación probabilística

El propósito de la programación probabilística es unificar el alcance de los lenguajes de programación clásicos con el modelado probabilístico (especialmente las redes bayesianas ) para lidiar con la incertidumbre y aprovechar la expresividad de los lenguajes de programación para codificar la complejidad.

Los lenguajes de programación clásicos extendidos incluyen lenguajes lógicos como los propuestos en Probabilistic Horn Abduction , ^[35] Independent Choice Logic, ^[36] PRISM, ^[37] y ProbLog, que propone una extensión de Prolog.

También pueden ser extensiones de lenguajes de programación funcionales (esencialmente Lisp y Scheme ) como IBAL o CHURCH. Los lenguajes de programación subyacentes pueden ser orientados a objetos como en BLOG y FACTORIE o más estándar como en CES y FIGARO. ^[38]

El propósito de la programación bayesiana es diferente. El precepto de Jaynes de "probabilidad como lógica" sostiene que la probabilidad es una extensión y una alternativa a la lógica sobre la cual se puede reconstruir una teoría completa de la racionalidad, la computación y la programación. ^[1] La programación bayesiana intenta reemplazar los lenguajes clásicos con un enfoque de programación basado en la probabilidad que considera la incompletitud y la incertidumbre .

La comparación precisa entre la semántica y el poder de expresión de la programación bayesiana y probabilística es una cuestión abierta.

Véase también

Referencias

^ ab Jaynes, ET (10 de abril de 2003). Teoría de la probabilidad: la lógica de la ciencia. Cambridge University Press. ISBN 978-1-139-43516-1.
^ Bessière, Pierre; Mazer, Emmanuel; Manuel Ahuactzin, Juan; Mekhnacha, Kamel (20 de diciembre de 2013). Programación bayesiana. Prensa CRC. ISBN 978-1-4398-8032-6.
^ "Gráficos de expresión: gráficos de factores unificadores y redes de suma-producto" (PDF) . bcf.usc.edu .
^ "Modelado probabilístico y análisis bayesiano" (PDF) . ocw.mit.edu .
^ "Redes bayesianas" (PDF) . cs.brandeis.edu .
^ Kalman, RE (1960). "Un nuevo enfoque para problemas de filtrado y predicción lineal". Journal of Basic Engineering . 82 : 33–45. doi :10.1115/1.3662552. S2CID 1242324.
^ Bessière, Pierre; Laugier, Christian; Siegwart, Roland (15 de mayo de 2008). Razonamiento probabilístico y toma de decisiones en sistemas sensoriomotores. Springer Science & Business Media. ISBN 978-3-540-79006-8.
^ Lebeltel, O.; Bessière, P.; Diard, J.; Mazer, E. (2004). "Programación de robots bayesianos" (PDF) . Robótica Avanzada . 16 (1): 49–79. doi :10.1023/b:auro.0000008671.38949.43. S2CID 18768468.
^ Diard, J.; Gilet, E.; Simonin, E.; Bessière, P. (2010). "Aprendizaje incremental de modelos sensoriomotores bayesianos: desde comportamientos de bajo nivel hasta la estructura a gran escala del entorno" (PDF) . Connection Science . 22 (4): 291–312. Bibcode :2010ConSc..22..291D. doi :10.1080/09540091003682561. S2CID 216035458.
^ Pradalier, C.; Hermosillo, J.; Koike, C.; Braillon, C.; Bessière, P.; Laugier, C. (2005). "El CyCab: un robot similar a un automóvil que navega de forma autónoma y segura entre peatones". Robótica y sistemas autónomos . 50 (1): 51–68. CiteSeerX 10.1.1.219.69 . doi :10.1016/j.robot.2004.10.002.
^ Ferreira, J.; Lobo, J.; Bessière, P.; Castelo-Branco, M.; Días, J. (2012). "Un marco bayesiano para la percepción artificial activa" (PDF) . Transacciones IEEE sobre sistemas, hombre y cibernética - Parte B: Cibernética . 99 (2): 1–13. doi :10.1109/TSMCB.2012.2214477. PMID 23014760. S2CID 1808051.
^ Ferreira, JF; Dias, JM (2014). Enfoques probabilísticos de la percepción robótica . Springer. ISBN 978-3-319-02005-1.
^ Mekhnacha, K.; Mazer, E.; Bessière, P. (2001). "El diseño y la implementación de un modelador CAD bayesiano para aplicaciones robóticas". Robótica avanzada . 15 (1): 45–69. CiteSeerX 10.1.1.552.3126 . doi :10.1163/156855301750095578. S2CID 7920387.
^ Coué, C.; Pradalier, C.; Laugier, C.; Fraichard, T.; Bessière, P. (2006). "Filtrado de ocupación bayesiano para seguimiento de múltiples objetivos: una aplicación automotriz" (PDF) . Revista internacional de investigación en robótica . 25 (1): 19–30. doi :10.1177/0278364906061158. S2CID 13874685.
^ Vasudevan, S.; Siegwart, R. (2008). "Conceptualización del espacio bayesiano y clasificación de lugares para mapas semánticos en robótica móvil". Robótica y sistemas autónomos . 56 (6): 522–537. CiteSeerX 10.1.1.149.4189 . doi :10.1016/j.robot.2008.03.005.
^ Perrin, X.; Chavarriaga, R.; Colas, F.; Seigwart, R.; Millan, J. (2010). "Interacción acoplada al cerebro para la navegación semiautónoma de un robot de asistencia". Robótica y sistemas autónomos . 58 (12): 1246–1255. doi :10.1016/j.robot.2010.05.010.
^ Rett, J.; Dias, J.; Ahuactzin, JM. (2010). "Razonamiento bayesiano para el análisis del movimiento Laban utilizado en la interacción hombre-máquina". Revista internacional de sistemas inteligentes basados en el razonamiento . 2 (1): 13–35. CiteSeerX 10.1.1.379.6216 . doi :10.1504/IJRIS.2010.029812.
^ Möbus, C.; Eilers, M.; Garbe, H.; Zilinski, M. (2009). "Modelado probabilístico y empírico fundamentado de agentes en escenarios de tráfico cooperativo (parcial)" (PDF) . En Duffy, Vincent G. (ed.). Modelado humano digital . Segunda Conferencia Internacional, ICDHM 2009, San Diego, CA, EE. UU. Lecture Notes in Computer Science. Vol. 5620. Springer. págs. 423–432. doi : 10.1007/978-3-642-02809-0_45 . ISBN 978-3-642-02808-3.
^ Möbus, C.; Eilers, M. (2009). "Pasos adicionales hacia el modelado de controladores según el enfoque de programación bayesiana". En Duffy, Vincent G. (ed.). Modelado humano digital . Segunda conferencia internacional, ICDHM 2009, San Diego, CA, EE. UU. Lecture Notes in Computer Science. Vol. 5620. Springer. págs. 413–422. CiteSeerX 10.1.1.319.2067 . doi :10.1007/978-3-642-02809-0_44. ISBN . 978-3-642-02808-3.
^ Eilers, M.; Mobus, C. (2010). "Aprenda unos modelos modulares de mezcla de comportamientos de controladores autónomos bayesianos (BAD MoB)" (PDF) . En Kolrep, H.; Jürgensohn, Th. (eds.). Fahrermodellierung - Zwischen kinematischen Menschmodellen und dynamisch-kognitiven Verhaltensmodellen . Fortschrittsbericht des VDI in der Reihe 22 (Mensch-Maschine-Systeme). Düsseldorf, Alemania: VDI-Verlag. págs. 61–74. ISBN 978-3-18-303222-8.
^ Eilers, M.; Möbus, C. (2011). "Aprendizaje de las percepciones relevantes de los modelos de controladores bayesianos jerárquicos modulares utilizando un criterio de información bayesiano". En Duffy, VG (ed.). Modelado humano digital . LNCS 6777. Heidelberg, Alemania: Springer. pp. 463–472. doi : 10.1007/978-3-642-21799-9_52 . ISBN 978-3-642-21798-2.
^ Eilers, M.; Möbus, C. (2011). "Aprendizaje de un modelo Bayesiano de mezcla de comportamientos de conductores autónomos (BAD-MoB)". En Duffy, VG (ed.). Avances en el modelado humano digital aplicado . LNCS 6777. Boca Raton, EE. UU.: CRC Press, Taylor & Francis Group. págs. 436–445. ISBN. 978-1-4398-3511-1.
^ Le Hy, R.; Arrigoni, A.; Bessière, P.; Lebetel, O. (2004). "Enseñando comportamientos bayesianos a personajes de videojuegos" (PDF) . Robótica y sistemas autónomos . 47 (2–3): 177–185. doi :10.1016/j.robot.2004.03.012. S2CID 16415524.
^ Synnaeve, G. (2012). Programación bayesiana y aprendizaje para videojuegos multijugador (PDF) .
^ Colas, F.; Droulez, J.; Wexler, M.; Bessière, P. (2008). "Un modelo probabilístico unificado de la percepción de la estructura tridimensional a partir del flujo óptico". Cibernética biológica . 97 (5–6): 461–77. CiteSeerX 10.1.1.215.1491 . doi :10.1007/s00422-007-0183-z. PMID 17987312. S2CID 215821150.
^ Laurens, J.; Droulez, J. (2007). "Procesamiento bayesiano de información vestibular". Cibernética biológica . 96 (4): 389–404. doi :10.1007/s00422-006-0133-1. PMID 17146661. S2CID 18138027.
^ Colas, F.; Flacher, F.; Tanner, T.; Bessière, P.; Girard, B. (2009). "Modelos bayesianos de selección del movimiento ocular con mapas retinotópicos" (PDF) . Biological Cybernetics . 100 (3): 203–214. doi : 10.1007/s00422-009-0292-y . PMID 19212780. S2CID 5906668.
^ Serkhane, J.; Schwartz, JL.; Bessière, P. (2005). "Construcción de un robot bebé parlante. Una contribución al estudio de la adquisición y evolución del habla" (PDF) . Interaction Studies . 6 (2): 253–286. doi :10.1075/is.6.2.06ser.
^ Moulin-Frier, C.; Laurent, R.; Bessière, P.; Schwartz, JL.; Diard, J. (2012). "Las condiciones adversas mejoran la capacidad de distinción de las teorías auditivas, motoras y perceptivo-motoras de la percepción del habla: un estudio exploratorio de modelado bayesiano" (PDF) . Lenguaje y procesos cognitivos . 27 (7–8): 1240–1263. doi :10.1080/01690965.2011.645313. S2CID 55504109.
^ Gilet, E.; Diard, J.; Bessière, P. (2011). Sporns, Olaf (ed.). "Modelo computacional bayesiano de acción-percepción: interacción de producción y reconocimiento de letras cursivas". PLOS ONE . 6 (6): e20387. Bibcode :2011PLoSO...620387G. doi : 10.1371/journal.pone.0020387 . PMC 3106017 . PMID 21674043.
^ "Un nuevo algoritmo ayuda a las máquinas a aprender tan rápido como los humanos". www.gizmag.com . 2016-01-22 . Consultado el 2016-01-23 .
^ Zadeh, LA (junio de 1965). "Conjuntos difusos". Información y control . 8 (3). San Diego: 338–353. doi : 10.1016/S0019-9958(65)90241-X . ISSN 0019-9958. Zbl 0139.24606. Wikidata Q25938993.
^ Zadeh, LA (septiembre de 1975). "Lógica difusa y razonamiento aproximado". Síntesis . 30 (3–4). Springer : 407–428. doi :10.1007/BF00485052. ISSN 0039-7857. OCLC 714993477. S2CID 46975216. Zbl 0319.02016. Wikidata Q57275767.
^ Dubois, D.; Prade, H. (2001). "Teoría de la posibilidad, teoría de la probabilidad y lógicas de valores múltiples: una aclaración" (PDF) . Ann. Math. Artif. Intell . 32 (1–4): 35–66. doi :10.1023/A:1016740830286. S2CID 10271476.
^ Poole, D. (1993). "Abducción probabilística de Horn y redes bayesianas". Inteligencia artificial . 64 : 81–129. doi :10.1016/0004-3702(93)90061-F.
^ Poole, D. (1997). "La lógica de elección independiente para modelar múltiples agentes bajo incertidumbre". Inteligencia artificial . 94 (1–2): 7–56. doi : 10.1016/S0004-3702(97)00027-1 .
^ Sato, T.; Kameya, Y. (2001). "Aprendizaje de parámetros de programas lógicos para modelado simbólico-estadístico" (PDF) . Journal of Artificial Intelligence Research . 15 (2001): 391–454. arXiv : 1106.1797 . Bibcode :2011arXiv1106.1797S. doi :10.1613/jair.912. S2CID 7857569. Archivado desde el original (PDF) el 2014-07-12 . Consultado el 2015-10-18 .
^ figaro en GitHub

Lectura adicional

Kamel Mekhnacha (2013). Programación bayesiana . Chapman y Hall/CRC. doi :10.1201/b16111. ISBN. 978-1-4398-8032-6.

Enlaces externos

Un sitio complementario al libro de programación bayesiana donde descargar ProBT, un motor de inferencia dedicado a la programación bayesiana.
El sitio Bayesian-programming.org Archivado el 23 de noviembre de 2013 en archive.today para la promoción de la programación bayesiana con información detallada y numerosas publicaciones.