stringtranslate.com

Clasificador ingenuo de Bayes

Ejemplo de un clasificador Bayes ingenuo representado como una red bayesiana

En estadística , los clasificadores ingenuos de Bayes son una familia de " clasificadores probabilísticos " lineales que suponen que las características son condicionalmente independientes, dada la clase objetivo. La fuerza (ingenuidad) de esta suposición es lo que le da nombre al clasificador. Estos clasificadores se encuentran entre los modelos de redes bayesianas más simples . [1]

Los clasificadores Naive Bayes son altamente escalables y requieren una cantidad de parámetros lineales en la cantidad de variables (características/predictores) en un problema de aprendizaje. El entrenamiento de máxima verosimilitud se puede realizar evaluando una expresión de forma cerrada , [2] : 718,  que requiere tiempo lineal , en lugar de mediante una costosa aproximación iterativa como se usa para muchos otros tipos de clasificadores.

En la literatura estadística , los modelos ingenuos de Bayes se conocen con diversos nombres, incluidos Bayes simple y Bayes de independencia . [3] Todos estos nombres hacen referencia al uso del teorema de Bayes en la regla de decisión del clasificador, pero el ingenuo Bayes no es (necesariamente) un método bayesiano . [2] [3]

Introducción

Naive Bayes es una técnica simple para construir clasificadores: modelos que asignan etiquetas de clase a instancias de problemas, representadas como vectores de valores de características , donde las etiquetas de clase se extraen de algún conjunto finito. No existe un único algoritmo para entrenar tales clasificadores, sino una familia de algoritmos basados ​​en un principio común: todos los clasificadores ingenuos de Bayes asumen que el valor de una característica particular es independiente del valor de cualquier otra característica, dada la variable de clase. Por ejemplo, una fruta puede considerarse manzana si es roja, redonda y mide unos 10 cm de diámetro. Un clasificador ingenuo de Bayes considera que cada una de estas características contribuye de forma independiente a la probabilidad de que esta fruta sea una manzana, independientemente de cualquier posible correlación entre las características de color, redondez y diámetro.

En muchas aplicaciones prácticas, la estimación de parámetros para modelos ingenuos de Bayes utiliza el método de máxima verosimilitud ; en otras palabras, se puede trabajar con el modelo ingenuo de Bayes sin aceptar la probabilidad bayesiana ni utilizar ningún método bayesiano.

A pesar de su diseño ingenuo y suposiciones aparentemente demasiado simplificadas, los clasificadores Bayes ingenuos han funcionado bastante bien en muchas situaciones complejas del mundo real. En 2004, un análisis del problema de la clasificación bayesiana mostró que existen sólidas razones teóricas para la eficacia aparentemente inverosímil de los clasificadores bayesianos ingenuos. [4] Aún así, una comparación exhaustiva con otros algoritmos de clasificación en 2006 mostró que la clasificación de Bayes es superada por otros enfoques, como los árboles potenciados o los bosques aleatorios . [5]

Una ventaja del ingenuo Bayes es que solo requiere una pequeña cantidad de datos de entrenamiento para estimar los parámetros necesarios para la clasificación. [6]

modelo probabilístico

En resumen, el ingenuo Bayes es un modelo de probabilidad condicional : asigna probabilidades para cada uno de los K posibles resultados o clases dada una instancia de problema a clasificar, representada por un vector que codifica algunas n características (variables independientes). [7]

El problema con la formulación anterior es que si el número de características n es grande o si una característica puede tomar una gran cantidad de valores, entonces no es factible basar dicho modelo en tablas de probabilidad . Por lo tanto, es necesario reformular el modelo para hacerlo más manejable. Utilizando el teorema de Bayes , la probabilidad condicional se puede descomponer como:

En términos sencillos, utilizando la terminología de probabilidad bayesiana , la ecuación anterior se puede escribir como

En la práctica, sólo interesa el numerador de esa fracción, porque el denominador no depende y los valores de las características están dados, de modo que el denominador es efectivamente constante. El numerador es equivalente al modelo de probabilidad conjunta.

regla de la cadenaprobabilidad condicional

Ahora entran en juego los supuestos "ingenuos" de independencia condicional : suponga que todas las características son mutuamente independientes , condicionales a la categoría . Bajo este supuesto,

Por tanto, el modelo conjunto se puede expresar como

proporcionalidad

Esto significa que bajo los supuestos de independencia anteriores, la distribución condicional sobre la variable de clase es:

Construyendo un clasificador a partir del modelo de probabilidad.

La discusión hasta ahora ha derivado en el modelo de características independientes, es decir, el ingenuo modelo de probabilidad de Bayes . El ingenuo clasificador de Bayes combina este modelo con una regla de decisión . Una regla común es elegir la hipótesis más probable para minimizar la probabilidad de clasificación errónea; esto se conoce como regla de decisión máxima a posteriori o MAP . El clasificador correspondiente, un clasificador Bayes , es la función que asigna una etiqueta de clase para algunos k de la siguiente manera:

Funciones de verosimilitud , matriz de confusión y curva ROC . Para el clasificador ingenuo de Bayes y dado que las probabilidades a priori son las mismas para todas las clases, entonces el límite de decisión (línea verde) se colocaría en el punto donde se cruzan las dos densidades de probabilidad, debido a .

Estimación de parámetros y modelos de eventos.

La prioridad de una clase se puede calcular asumiendo clases equiprobables, es decir , o calculando una estimación de la probabilidad de clase a partir del conjunto de entrenamiento:

no paramétricos[8]

Los supuestos sobre la distribución de características se denominan "modelo de eventos" del clasificador ingenuo de Bayes. Para funciones discretas como las que se encuentran en la clasificación de documentos (incluido el filtrado de spam), las distribuciones multinomiales y Bernoulli son populares. Estos supuestos conducen a dos modelos distintos, que a menudo se confunden. [9] [10]

Bayes ingenuo gaussiano

Cuando se trata de datos continuos, una suposición típica es que los valores continuos asociados con cada clase se distribuyen según una distribución normal (o gaussiana). Por ejemplo, supongamos que los datos de entrenamiento contienen un atributo continuo . Los datos primero se segmentan por clase y luego se calcula la media y la varianza en cada clase. Sea la media de los valores asociados con la clase y sea la varianza corregida de Bessel de los valores asociados con la clase . Supongamos que uno ha recopilado algún valor de observación . Luego, la densidad de probabilidad de una clase dada , es decir , se puede calcular ingresando en la ecuación una distribución normal parametrizada por y . Formalmente,

Otra técnica común para manejar valores continuos es utilizar binning para discretizar los valores de las características y obtener un nuevo conjunto de características distribuidas por Bernoulli. Alguna literatura sugiere que esto es necesario para utilizar Bayes ingenuo, pero no es cierto, ya que la discretización puede descartar información discriminativa . [3]

A veces la distribución de las densidades marginales condicionadas por la clase está lejos de ser normal. En estos casos, la estimación de la densidad del núcleo se puede utilizar para obtener una estimación más realista de las densidades marginales de cada clase. Este método, introducido por John y Langley, [8] puede aumentar considerablemente la precisión del clasificador. [11] [12]

Bayes ingenuo multinomial

Con un modelo de eventos multinomiales, las muestras (vectores de características) representan las frecuencias con las que ciertos eventos han sido generados por un multinomial, donde es la probabilidad de que ocurra el evento i (o K tales multinomios en el caso multiclase). Un vector de características es entonces un histograma , que cuenta el número de veces que se observó el evento i en un caso particular. Este es el modelo de eventos que se utiliza normalmente para la clasificación de documentos, donde los eventos representan la aparición de una palabra en un solo documento (consulte el supuesto de bolsa de palabras ). La probabilidad de observar un histograma x viene dada por:

El clasificador ingenuo multinomial de Bayes se convierte en un clasificador lineal cuando se expresa en espacio logarítmico: [13]

Si una clase y un valor de característica determinados nunca aparecen juntos en los datos de entrenamiento, entonces la estimación de probabilidad basada en la frecuencia será cero, porque la estimación de probabilidad es directamente proporcional al número de apariciones del valor de una característica. Esto es problemático porque borrará toda la información de las otras probabilidades cuando se multipliquen. Por lo tanto, a menudo es deseable incorporar una corrección de muestra pequeña, llamada pseudoconteo , en todas las estimaciones de probabilidad, de manera que ninguna probabilidad sea exactamente cero. Esta forma de regularizar el ingenuo Bayes se denomina suavizado de Laplace cuando el pseudorecuento es uno, y suavizado de Lidstone en el caso general.

Rennie y cols. discutir los problemas con el supuesto multinomial en el contexto de la clasificación de documentos y las posibles formas de aliviar esos problemas, incluido el uso de ponderaciones tf-idf en lugar de frecuencias de términos sin procesar y la normalización de la longitud de los documentos, para producir un clasificador Bayes ingenuo que sea competitivo con el vector de soporte. máquinas . [13]

Bernoulli ingenuo Bayes

En el modelo de eventos multivariado de Bernoulli , las características son variables booleanas independientes ( variables binarias ) que describen entradas. Al igual que el modelo multinomial, este modelo es popular para tareas de clasificación de documentos, [9] donde se utilizan características de aparición de términos binarios en lugar de frecuencias de términos. Si es un booleano que expresa la aparición o ausencia del i'ésimo término del vocabulario, entonces la probabilidad de que un documento tenga una clase dada viene dada por: [9]

Estimación de parámetros semisupervisada

Dada una manera de entrenar un clasificador Bayes ingenuo a partir de datos etiquetados, es posible construir un algoritmo de entrenamiento semi-supervisado que pueda aprender de una combinación de datos etiquetados y no etiquetados ejecutando el algoritmo de aprendizaje supervisado en un bucle: [14]

  1. Dada una colección de muestras etiquetadas L y muestras no etiquetadas U , comience entrenando un clasificador Bayes ingenuo en L.
  2. Hasta la convergencia, haga:
    1. Predecir probabilidades de clase para todos los ejemplos x en .
    2. Vuelva a entrenar el modelo en función de las probabilidades (no de las etiquetas) predichas en el paso anterior.

La convergencia se determina en función de la mejora de la probabilidad del modelo , donde denota los parámetros del modelo ingenuo de Bayes.

Este algoritmo de entrenamiento es un ejemplo del algoritmo de maximización de expectativas (EM) más general: el paso de predicción dentro del bucle es el paso E de EM, mientras que el reentrenamiento de Bayes ingenuo es el paso M. El algoritmo se justifica formalmente por el supuesto de que los datos son generados por un modelo mixto , y los componentes de este modelo mixto son exactamente las clases del problema de clasificación. [14]

Discusión

A pesar de que los supuestos de independencia de gran alcance suelen ser inexactos, el ingenuo clasificador de Bayes tiene varias propiedades que lo hacen sorprendentemente útil en la práctica. En particular, el desacoplamiento de las distribuciones de características condicionales de clase significa que cada distribución se puede estimar de forma independiente como una distribución unidimensional. Esto ayuda a aliviar los problemas derivados de la maldición de la dimensionalidad , como la necesidad de conjuntos de datos que escale exponencialmente con la cantidad de características. Si bien el ingenuo Bayes a menudo no logra producir una buena estimación de las probabilidades de clase correctas, [15] esto puede no ser un requisito para muchas aplicaciones. Por ejemplo, el clasificador ingenuo de Bayes realizará la clasificación correcta de la regla de decisión MAP siempre que se prediga que la clase correcta es más probable que cualquier otra clase. Esto es cierto independientemente de si la estimación de probabilidad es leve o incluso extremadamente inexacta. De esta manera, el clasificador general puede ser lo suficientemente robusto como para ignorar deficiencias graves en su ingenuo modelo de probabilidad subyacente. [16] Otras razones del éxito observado del ingenuo clasificador de Bayes se analizan en la literatura citada a continuación.

Relación con la regresión logística

En el caso de entradas discretas (indicador o características de frecuencia para eventos discretos), los clasificadores ingenuos de Bayes forman un par generativo-discriminativo con clasificadores de regresión logística multinomial : cada clasificador ingenuo de Bayes puede considerarse una forma de ajustar un modelo de probabilidad que optimiza la probabilidad conjunta. , mientras que la regresión logística se ajusta al mismo modelo de probabilidad para optimizar el condicional . [17]

Más formalmente, tenemos lo siguiente:

Teorema  :  los clasificadores ingenuos de Bayes sobre características binarias están incluidos en los clasificadores de regresión logística.

Prueba

Considere un problema genérico de clasificación multiclase, con posibles clases , luego el clasificador de Bayes (no ingenuo) proporciona, según el teorema de Bayes:

El ingenuo clasificador de Bayes da

dónde

Este es exactamente un clasificador de regresión logística.

El vínculo entre los dos se puede ver al observar que la función de decisión para Bayes ingenuo (en el caso binario) se puede reescribir como "predecir clase si las probabilidades de exceden las de ". Expresar esto en espacio logarítmico da:

El lado izquierdo de esta ecuación son las probabilidades logarítmicas, o logit , la cantidad predicha por el modelo lineal que subyace a la regresión logística. Dado que el ingenuo Bayes también es un modelo lineal para los dos modelos de eventos "discretos", se puede repararmetrizar como una función lineal . Obtener las probabilidades es entonces cuestión de aplicar la función logística o , en el caso multiclase, la función softmax .

Los clasificadores discriminativos tienen un error asintótico menor que los generativos; sin embargo, la investigación de Ng y Jordan ha demostrado que en algunos casos prácticos el ingenuo Bayes puede superar a la regresión logística porque alcanza su error asintótico más rápido. [17]

Ejemplos

Clasificación de personas

Problema: clasificar si una persona determinada es hombre o mujer según las características medidas. Las características incluyen altura, peso y tamaño del pie. Aunque con el clasificador NB los tratamos como independientes, en realidad no lo son.

Capacitación

Ejemplo de conjunto de entrenamiento a continuación.

El clasificador creado a partir del conjunto de entrenamiento utilizando un supuesto de distribución gaussiana sería (las varianzas dadas son varianzas de muestra insesgadas ):

El siguiente ejemplo supone clases equiprobables de modo que P(masculino)= P(femenino) = 0,5. Esta distribución de probabilidad previa podría basarse en el conocimiento previo de las frecuencias en la población más grande o en el conjunto de entrenamiento.

Pruebas

A continuación se muestra una muestra para clasificarla como masculina o femenina.

Para clasificar la muestra hay que determinar qué posterior es mayor, masculino o femenino. Para la clasificación como masculino la parte posterior viene dada por

Para la clasificación como femenina la parte posterior viene dada por

La evidencia (también denominada constante de normalización) se puede calcular:

Sin embargo, dada la muestra, la evidencia es una constante y, por lo tanto, escala ambos posteriores por igual. Por tanto, no afecta a la clasificación y puede ignorarse. Ahora se puede determinar la distribución de probabilidad para el sexo de la muestra:

la altura

Dado que el numerador posterior es mayor en el caso femenino, la predicción es que la muestra es femenina.

Clasificación de documentos

A continuación se muestra un ejemplo elaborado de una clasificación bayesiana ingenua para el problema de clasificación de documentos . Considere el problema de clasificar documentos por su contenido, por ejemplo, en correos electrónicos spam y no spam . Imagine que los documentos se extraen de varias clases de documentos que se pueden modelar como conjuntos de palabras donde la probabilidad (independiente) de que la i-ésima palabra de un documento determinado aparezca en un documento de la clase C se puede escribir como

(Para este tratamiento, las cosas se simplifican aún más al suponer que las palabras se distribuyen aleatoriamente en el documento; es decir, las palabras no dependen de la longitud del documento, de la posición dentro del documento con relación a otras palabras ni de otro contexto del documento. )

Entonces la probabilidad de que un documento dado D contenga todas las palabras , dada una clase C , es

La pregunta que hay que responder es: "¿cuál es la probabilidad de que un determinado documento D pertenezca a una determinada clase C ?" En otras palabras, ¿qué es ?

Ahora por definición

El teorema de Bayes los manipula para convertirlos en una declaración de probabilidad en términos de verosimilitud .

Supongamos por el momento que sólo hay dos clases mutuamente excluyentes, S y ¬ S (por ejemplo, spam y no spam), de modo que cada elemento (correo electrónico) esté en una o en la otra;

Usando el resultado bayesiano anterior, se puede escribir:

Dividiendo uno por el otro se obtiene:

Que se puede refactorizar como:

Por lo tanto, la razón de probabilidad p( S | D ) / p(¬ S | D ) se puede expresar en términos de una serie de razones de probabilidad . La probabilidad real p( S | D ) se puede calcular fácilmente a partir de log (p( S | D ) / p(¬ S | D )) basándose en la observación de que p( S | D ) + p(¬ S | D ) = 1.

Tomando el logaritmo de todas estas razones se obtiene:

(Esta técnica de " razones de verosimilitud logarítmica " es una técnica común en estadística. En el caso de dos alternativas mutuamente excluyentes (como este ejemplo), la conversión de una razón de verosimilitud logarítmica en una probabilidad toma la forma de una curva sigmoidea. : ver logit para más detalles.)

Finalmente, el documento se puede clasificar de la siguiente manera. Es spam si (es decir, ), en caso contrario no es spam.

Ver también

Referencias

  1. ^ McCallum, Andrés. "Modelos gráficos, lección 2: representación de red bayesiana" (PDF) . Archivado (PDF) desde el original el 9 de octubre de 2022 . Consultado el 22 de octubre de 2019 .
  2. ^ ab Russell, Estuardo ; Norvig, Peter (2003) [1995]. Inteligencia artificial: un enfoque moderno (2ª ed.). Prentice Hall. ISBN 978-0137903955.
  3. ^ abc Mano, DJ; Yu, K. (2001). "El idiota Bayes, ¿no es tan estúpido después de todo?". Revista estadística internacional . 69 (3): 385–399. doi :10.2307/1403452. ISSN  0306-7734. JSTOR  1403452.
  4. ^ Zhang, Harry. La optimidad del ingenuo Bayes (PDF) . Conferencia FLAIRS2004.
  5. ^ Caruana, R.; Niculescu-Mizil, A. (2006). Una comparación empírica de algoritmos de aprendizaje supervisado . Proc. XXIII Congreso Internacional sobre Aprendizaje Automático. CiteSeerX 10.1.1.122.5901 . 
  6. ^ "¿Por qué Naive Bayes funciona mejor cuando la cantidad de características >> tamaño de muestra en comparación con algoritmos de aprendizaje automático más sofisticados?". Intercambio de pila con validación cruzada . Consultado el 24 de enero de 2023 .
  7. ^ Narasimha Murty, M.; Susheela Devi, V. (2011). Reconocimiento de patrones: un enfoque algorítmico . ISBN 978-0857294944.
  8. ^ ab John, George H.; Langley, Pat (1995). Estimación de distribuciones continuas en clasificadores bayesianos. Proc. Undécima Conf. sobre la incertidumbre en la inteligencia artificial. Morgan Kaufman. págs. 338–345. arXiv : 1302.4964 .
  9. ^ abc McCallum, Andrew; Nigam, Kamal (1998). Una comparación de modelos de eventos para la clasificación de textos Naive Bayes (PDF) . Taller AAAI-98 sobre aprendizaje para la categorización de textos. vol. 752. Archivado (PDF) desde el original el 9 de octubre de 2022.
  10. ^ Metsis, Vangelis; Androutsopoulos, Ion; Paliouras, Georgios (2006). Filtrado de spam con Naive Bayes: ¿qué Naive Bayes? Tercera conferencia sobre correo electrónico y antispam (CEAS). vol. 17.
  11. ^ Piryonesi, S. Madeh; El-Diraby, Tamer E. (1 de junio de 2020). "Papel del análisis de datos en la gestión de activos de infraestructura: superar los problemas de calidad y tamaño de los datos". Revista de Ingeniería del Transporte, Parte B: Pavimentos . 146 (2): 04020022. doi : 10.1061/JPEODX.0000175. S2CID  216485629.
  12. ^ Hastie, Trevor. (2001). Los elementos del aprendizaje estadístico: extracción de datos, inferencia y predicción: con 200 ilustraciones a todo color . Tibshirani, Robert., Friedman, JH (Jerome H.). Nueva York: Springer. ISBN 0-387-95284-5. OCLC  46809224.
  13. ^ ab Rennie, J.; Shih, L.; Teevan, J.; Karger, D. (2003). Abordar los supuestos deficientes de los clasificadores ingenuos de Bayes (PDF) . ICML. Archivado (PDF) desde el original el 9 de octubre de 2022.
  14. ^ ab Nigam, Kamal; McCallum, Andrés; Thrun, Sebastián; Mitchell, Tom (2000). "Aprender a clasificar texto de documentos etiquetados y sin etiquetar utilizando EM" (PDF) . Aprendizaje automático . 39 (2/3): 103–134. doi : 10.1023/A:1007692713085 . S2CID  686980. Archivado (PDF) desde el original el 9 de octubre de 2022.
  15. ^ Niculescu-Mizil, Alexandru; Caruana, rico (2005). Predecir buenas probabilidades con aprendizaje supervisado (PDF) . ICML. doi :10.1145/1102351.1102430. Archivado desde el original (PDF) el 11 de marzo de 2014 . Consultado el 24 de abril de 2016 .
  16. ^ Rish, Irina (2001). Un estudio empírico del clasificador ingenuo de Bayes (PDF) . Taller IJCAI sobre Métodos Empíricos en IA. Archivado (PDF) desde el original el 9 de octubre de 2022.
  17. ^ ab Ng, Andrew Y .; Jordania, Michael I. (2002). Sobre clasificadores discriminativos versus generativos: una comparación de regresión logística y Bayes ingenuo. NIPS . vol. 14.

Otras lecturas

enlaces externos