En estadística , los clasificadores bayesianos ingenuos son una familia de " clasificadores probabilísticos " lineales que suponen que las características son condicionalmente independientes, dada la clase objetivo. La solidez (ingenuidad) de esta suposición es lo que le da al clasificador su nombre. Estos clasificadores se encuentran entre los modelos de red bayesiana más simples. [1]
Los clasificadores Naive Bayes son altamente escalables, y requieren una cantidad de parámetros lineal en la cantidad de variables (características/predictores) en un problema de aprendizaje. El entrenamiento de máxima verosimilitud se puede realizar evaluando una expresión de forma cerrada , [2] : 718, que requiere un tiempo lineal , en lugar de una aproximación iterativa costosa como la que se utiliza para muchos otros tipos de clasificadores.
En la literatura estadística , los modelos Bayesianos ingenuos se conocen con una variedad de nombres, incluidos Bayes simple y Bayes independiente . [3] Todos estos nombres hacen referencia al uso del teorema de Bayes en la regla de decisión del clasificador, pero Bayesiano ingenuo no es (necesariamente) un método bayesiano . [2] [3]
El método Bayes ingenuo es una técnica sencilla para construir clasificadores: modelos que asignan etiquetas de clase a instancias de problemas, representadas como vectores de valores de características , donde las etiquetas de clase se extraen de un conjunto finito. No existe un algoritmo único para entrenar tales clasificadores, sino una familia de algoritmos basados en un principio común: todos los clasificadores Bayes ingenuo suponen que el valor de una característica particular es independiente del valor de cualquier otra característica, dada la variable de clase. Por ejemplo, una fruta puede considerarse una manzana si es roja, redonda y tiene unos 10 cm de diámetro. Un clasificador Bayes ingenuo considera que cada una de estas características contribuye de forma independiente a la probabilidad de que esta fruta sea una manzana, independientemente de cualquier posible correlación entre las características de color, redondez y diámetro.
En muchas aplicaciones prácticas, la estimación de parámetros para modelos Bayesianos ingenuos utiliza el método de máxima verosimilitud ; en otras palabras, se puede trabajar con el modelo Bayesiano ingenuo sin aceptar la probabilidad bayesiana ni utilizar ningún método bayesiano.
A pesar de su diseño ingenuo y de sus supuestos aparentemente simplificados, los clasificadores bayesianos ingenuos han funcionado bastante bien en muchas situaciones complejas del mundo real. En 2004, un análisis del problema de clasificación bayesiano mostró que existen razones teóricas sólidas para la eficacia aparentemente inverosímil de los clasificadores bayesianos ingenuos. [4] Sin embargo, una comparación exhaustiva con otros algoritmos de clasificación en 2006 mostró que la clasificación bayesiana es superada por otros enfoques, como los árboles potenciados o los bosques aleatorios . [5]
Una ventaja del método Bayes ingenuo es que sólo requiere una pequeña cantidad de datos de entrenamiento para estimar los parámetros necesarios para la clasificación. [6]
En términos abstractos, el Bayes ingenuo es un modelo de probabilidad condicional : asigna probabilidades para cada uno de los K resultados o clases posibles dada una instancia del problema a clasificar, representada por un vector que codifica algunas n características (variables independientes). [7]
El problema con la formulación anterior es que si el número de características n es grande o si una característica puede tomar un gran número de valores, entonces no es factible basar dicho modelo en tablas de probabilidad . Por lo tanto, el modelo debe reformularse para hacerlo más manejable. Utilizando el teorema de Bayes , la probabilidad condicional puede descomponerse como:
En términos sencillos, utilizando la terminología de probabilidad bayesiana , la ecuación anterior se puede escribir como
En la práctica, sólo interesa el numerador de esa fracción, porque el denominador no depende de y los valores de las características están dados, de modo que el denominador es efectivamente constante. El numerador es equivalente al modelo de probabilidad conjunta que puede reescribirse de la siguiente manera, utilizando la regla de la cadena para aplicaciones repetidas de la definición de probabilidad condicional :
Ahora entran en juego los supuestos de independencia condicional "ingenuos": supongamos que todas las características de son mutuamente independientes , condicionadas a la categoría . Bajo este supuesto,
Por tanto, el modelo conjunto puede expresarse como donde denota proporcionalidad ya que se omite el denominador .
Esto significa que, bajo los supuestos de independencia anteriores, la distribución condicional sobre la variable de clase es: donde la evidencia es un factor de escala que depende solo de , es decir, una constante si se conocen los valores de las variables características.
Hasta ahora, la discusión ha derivado en el modelo de características independientes, es decir, el modelo de probabilidad de Bayes ingenuo . El clasificador de Bayes ingenuo combina este modelo con una regla de decisión . Una regla común es elegir la hipótesis que sea más probable para minimizar la probabilidad de clasificación errónea; esto se conoce como la regla de decisión máxima a posteriori o MAP . El clasificador correspondiente, un clasificador de Bayes , es la función que asigna una etiqueta de clase para algún k de la siguiente manera:
La probabilidad previa de una clase se puede calcular asumiendo clases equiprobables, es decir , o calculando una estimación para la probabilidad de clase a partir del conjunto de entrenamiento: Para estimar los parámetros para la distribución de una característica, uno debe asumir una distribución o generar modelos no paramétricos para las características a partir del conjunto de entrenamiento. [8]
Las suposiciones sobre las distribuciones de características se denominan "modelo de eventos" del clasificador bayesiano ingenuo. Para características discretas como las que se encuentran en la clasificación de documentos (incluido el filtrado de spam), las distribuciones multinomiales y de Bernoulli son populares. Estas suposiciones conducen a dos modelos distintos, que a menudo se confunden. [9] [10]
Cuando se trabaja con datos continuos, una suposición típica es que los valores continuos asociados con cada clase se distribuyen de acuerdo con una distribución normal (o gaussiana). Por ejemplo, supongamos que los datos de entrenamiento contienen un atributo continuo, . Primero, los datos se segmentan por clase y, a continuación, se calculan la media y la varianza de en cada clase. Sea la media de los valores en asociados con la clase , y sea la varianza corregida por Bessel de los valores en asociados con la clase . Supongamos que se ha recopilado algún valor de observación . Entonces, la densidad de probabilidad de dada una clase , es decir, , se puede calcular introduciendo en la ecuación una distribución normal parametrizada por y . Formalmente,
Otra técnica común para manejar valores continuos es utilizar el método de binning para discretizar los valores de las características y obtener un nuevo conjunto de características distribuidas según Bernoulli. Algunas publicaciones sugieren que esto es necesario para utilizar el método Bayes ingenuo, pero no es cierto, ya que la discretización puede descartar información discriminativa . [3]
En ocasiones, la distribución de las densidades marginales condicionales de clase dista mucho de ser normal. En estos casos, se puede utilizar la estimación de la densidad kernel para obtener una estimación más realista de las densidades marginales de cada clase. Este método, introducido por John y Langley [8], puede aumentar considerablemente la precisión del clasificador. [11] [12]
Con un modelo de evento multinomial, las muestras (vectores de características) representan las frecuencias con las que ciertos eventos han sido generados por un multinomial donde es la probabilidad de que ocurra el evento i (o K multinomiales de este tipo en el caso multiclase). Un vector de características es entonces un histograma , con conteo del número de veces que se observó el evento i en una instancia particular. Este es el modelo de evento que se usa típicamente para la clasificación de documentos, con eventos que representan la ocurrencia de una palabra en un solo documento (ver el supuesto de bolsa de palabras ). La probabilidad de observar un histograma x viene dada por: donde .
El clasificador bayesiano ingenuo multinomial se convierte en un clasificador lineal cuando se expresa en el espacio logarítmico: [13] donde y . La estimación de los parámetros en el espacio logarítmico es ventajosa, ya que multiplicar una gran cantidad de valores pequeños puede generar un error de redondeo significativo. La aplicación de una transformación logarítmica reduce el efecto de este error de redondeo.
Si una clase dada y un valor de característica nunca ocurren juntos en los datos de entrenamiento, entonces la estimación de probabilidad basada en frecuencia será cero, porque la estimación de probabilidad es directamente proporcional al número de ocurrencias del valor de una característica. Esto es problemático porque eliminará toda la información en las otras probabilidades cuando se multipliquen. Por lo tanto, a menudo es deseable incorporar una corrección de muestra pequeña, llamada pseudocount , en todas las estimaciones de probabilidad de modo que ninguna probabilidad se establezca nunca como exactamente cero. Esta forma de regularizar Bayes ingenuo se llama suavizado de Laplace cuando el pseudocount es uno, y suavizado de Lidstone en el caso general.
Rennie et al. analizan los problemas con el supuesto multinomial en el contexto de la clasificación de documentos y las posibles formas de aliviar esos problemas, incluido el uso de pesos tf-idf en lugar de frecuencias de términos sin procesar y la normalización de la longitud del documento, para producir un clasificador Bayes ingenuo que sea competitivo con las máquinas de vectores de soporte . [13]
En el modelo de eventos Bernoulli multivariado, las características son variables booleanas independientes ( variables binarias ) que describen entradas. Al igual que el modelo multinomial, este modelo es popular para tareas de clasificación de documentos, [9] donde se utilizan características de ocurrencia de términos binarios en lugar de frecuencias de términos. Si es un booleano que expresa la ocurrencia o ausencia del término i 'ésimo del vocabulario, entonces la probabilidad de que un documento dada una clase esté dada por: [9] donde es la probabilidad de que la clase genere el término . Este modelo de eventos es especialmente popular para clasificar textos cortos. Tiene el beneficio de modelar explícitamente la ausencia de términos. Tenga en cuenta que un clasificador Bayes ingenuo con un modelo de eventos Bernoulli no es lo mismo que un clasificador NB multinomial con recuentos de frecuencia truncados a uno.
Dada una forma de entrenar un clasificador Bayes ingenuo a partir de datos etiquetados, es posible construir un algoritmo de entrenamiento semisupervisado que pueda aprender de una combinación de datos etiquetados y no etiquetados ejecutando el algoritmo de aprendizaje supervisado en un bucle: [14]
La convergencia se determina en función de la mejora de la probabilidad del modelo , donde denota los parámetros del modelo Bayes ingenuo.
Este algoritmo de entrenamiento es una instancia del algoritmo de expectativa-maximización (EM) más general: el paso de predicción dentro del bucle es el paso E de EM, mientras que el reentrenamiento de Bayes ingenuo es el paso M. El algoritmo se justifica formalmente por la suposición de que los datos son generados por un modelo de mezcla , y los componentes de este modelo de mezcla son exactamente las clases del problema de clasificación. [14]
A pesar de que las suposiciones de independencia de largo alcance a menudo son inexactas, el clasificador Bayes ingenuo tiene varias propiedades que lo hacen sorprendentemente útil en la práctica. En particular, el desacoplamiento de las distribuciones de características condicionales de clase significa que cada distribución puede estimarse independientemente como una distribución unidimensional. Esto ayuda a aliviar los problemas derivados de la maldición de la dimensionalidad , como la necesidad de conjuntos de datos que escalen exponencialmente con el número de características. Si bien el Bayes ingenuo a menudo no produce una buena estimación para las probabilidades de clase correctas, [15] esto puede no ser un requisito para muchas aplicaciones. Por ejemplo, el clasificador Bayes ingenuo realizará la clasificación de regla de decisión MAP correcta siempre que se prediga que la clase correcta es más probable que cualquier otra clase. Esto es cierto independientemente de si la estimación de probabilidad es ligeramente o incluso groseramente inexacta. De esta manera, el clasificador general puede ser lo suficientemente robusto como para ignorar deficiencias graves en su modelo de probabilidad ingenuo subyacente. [16] Otras razones para el éxito observado del clasificador Bayes ingenuo se analizan en la literatura citada a continuación.
En el caso de entradas discretas (indicadores o características de frecuencia para eventos discretos), los clasificadores Bayes ingenuos forman un par generativo-discriminativo con los clasificadores de regresión logística multinomial : cada clasificador Bayes ingenuo puede considerarse una forma de ajustar un modelo de probabilidad que optimiza la probabilidad conjunta , mientras que la regresión logística ajusta el mismo modelo de probabilidad para optimizar la probabilidad condicional . [17]
De manera más formal tenemos lo siguiente:
Teorema : Los clasificadores Bayes ingenuos sobre características binarias son absorbidos por los clasificadores de regresión logística.
Consideremos un problema genérico de clasificación multiclase, con posibles clases , entonces el clasificador de Bayes (no ingenuo) da, por el teorema de Bayes:
El clasificador ingenuo de Bayes da donde
Este es exactamente un clasificador de regresión logística.
El vínculo entre ambos se puede ver observando que la función de decisión para el caso bayesiano ingenuo (en el caso binario) se puede reescribir como "predecir la clase si las probabilidades de superan las de ". Expresando esto en el espacio logarítmico se obtiene:
El lado izquierdo de esta ecuación es el log-odds, o logit , la cantidad predicha por el modelo lineal que sustenta la regresión logística. Dado que el método Bayes ingenuo también es un modelo lineal para los dos modelos de eventos "discretos", se puede repararmetrizar como una función lineal . Obtener las probabilidades es entonces una cuestión de aplicar la función logística a , o en el caso de clases múltiples, la función softmax .
Los clasificadores discriminativos tienen un error asintótico menor que los generativos; sin embargo, la investigación de Ng y Jordan ha demostrado que en algunos casos prácticos el Bayes ingenuo puede superar a la regresión logística porque alcanza su error asintótico más rápido. [17]
Problema: clasificar si una persona determinada es hombre o mujer en función de las características medidas. Las características incluyen altura, peso y tamaño del pie. Aunque con el clasificador NB las tratamos como independientes, en realidad no lo son.
A continuación se muestra un ejemplo de conjunto de entrenamiento.
El clasificador creado a partir del conjunto de entrenamiento utilizando un supuesto de distribución gaussiana sería (dadas las varianzas son varianzas de muestra imparciales ):
El siguiente ejemplo supone clases equiprobables, de modo que P(hombre) = P(mujer) = 0,5. Esta distribución de probabilidad previa podría basarse en el conocimiento previo de las frecuencias en la población más grande o en el conjunto de entrenamiento.
A continuación se muestra una muestra para clasificar como masculino o femenino.
Para clasificar la muestra, hay que determinar qué posterior es mayor, masculino o femenino. Para la clasificación como masculino el posterior viene dado por
Para la clasificación como hembra el posterior viene dado por
La evidencia (también denominada constante normalizadora) puede calcularse:
Sin embargo, dada la muestra, la evidencia es constante y, por lo tanto, escala ambas probabilidades posteriores por igual. Por lo tanto, no afecta la clasificación y se puede ignorar. Ahora se puede determinar la distribución de probabilidad para el sexo de la muestra: donde y son los parámetros de la distribución normal que se han determinado previamente a partir del conjunto de entrenamiento. Tenga en cuenta que un valor mayor que 1 es aceptable en este caso: es una densidad de probabilidad en lugar de una probabilidad, porque la altura es una variable continua.
Como el numerador posterior es mayor en el caso femenino, la predicción es que la muestra es femenina.
A continuación se presenta un ejemplo práctico de clasificación bayesiana ingenua para el problema de clasificación de documentos . Considere el problema de clasificar documentos por su contenido, por ejemplo, en correos electrónicos spam y no spam . Imagine que los documentos se extraen de una serie de clases de documentos que se pueden modelar como conjuntos de palabras donde la probabilidad (independiente) de que la i-ésima palabra de un documento dado aparezca en un documento de la clase C se puede escribir como
(Para este tratamiento, las cosas se simplifican aún más al suponer que las palabras están distribuidas aleatoriamente en el documento, es decir, las palabras no dependen de la longitud del documento, de su posición dentro del documento en relación con otras palabras o de otro contexto del documento).
Entonces la probabilidad de que un documento dado D contenga todas las palabras , dada una clase C , es
La pregunta que hay que responder es: "¿cuál es la probabilidad de que un documento dado D pertenezca a una clase dada C ?" En otras palabras, ¿cuál es ?
Ahora bien, por definición y
El teorema de Bayes manipula estos factores para transformarlos en una declaración de probabilidad en términos de verosimilitud .
Supongamos por el momento que sólo hay dos clases mutuamente excluyentes, S y ¬ S (por ejemplo, spam y no spam), de modo que cada elemento (correo electrónico) está en una o en la otra; y
Utilizando el resultado bayesiano anterior, se puede escribir:
Dividiendo uno por el otro obtenemos:
Lo cual puede refactorizarse como:
Por lo tanto, la razón de probabilidad p( S | D ) / p(¬ S | D ) se puede expresar en términos de una serie de razones de verosimilitud . La probabilidad real p( S | D ) se puede calcular fácilmente a partir de log (p( S | D ) / p(¬ S | D )) basándose en la observación de que p( S | D ) + p(¬ S | D ) = 1.
Tomando el logaritmo de todas estas razones, se obtiene:
(Esta técnica de " razones de verosimilitud logarítmica " es una técnica común en estadística. En el caso de dos alternativas mutuamente excluyentes (como este ejemplo), la conversión de un razón de verosimilitud logarítmica en una probabilidad toma la forma de una curva sigmoidea : véase logit para más detalles.)
Finalmente, el documento puede clasificarse de la siguiente manera: es spam si (es decir, ), en caso contrario no es spam.