Clasificación probabilística

En aprendizaje automático , un clasificador probabilístico es un clasificador que es capaz de predecir, dada una observación de una entrada, una distribución de probabilidad sobre un conjunto de clases, en lugar de generar solo la clase más probable a la que debería pertenecer la observación. Los clasificadores probabilísticos proporcionan una clasificación que puede ser útil por sí sola ^[1] o cuando se combinan clasificadores en conjuntos .

Tipos de clasificación

Formalmente, un clasificador "ordinario" es alguna regla o función que asigna a una muestra $x$ una etiqueta de clase $ŷ$ :

{\hat {y}}=f(x)

Las muestras provienen de algún conjunto $X$ (por ejemplo, el conjunto de todos los documentos o el conjunto de todas las imágenes ), mientras que las etiquetas de clase forman un conjunto finito $Y$ definido antes del entrenamiento.

Los clasificadores probabilísticos generalizan esta noción de clasificadores: en lugar de funciones, son distribuciones condicionales , lo que significa que para un determinado , asignan probabilidades a todos (y estas probabilidades suman uno). Luego se puede realizar una clasificación "dura" utilizando la regla de decisión óptima ^[2]^{: 39–40} $\Pr(Y\vert X)$ $x\in X$ $y\in Y$

{\hat {y}}=\operatorname {\arg \max } _{y}\Pr(Y=y\vert X)

o, en inglés, la clase predicha es la que tiene mayor probabilidad.

Los clasificadores probabilísticos binarios también se denominan modelos de regresión binaria en estadística . En econometría , la clasificación probabilística en general se denomina elección discreta .

Algunos modelos de clasificación, como el Bayes ingenuo , la regresión logística y los perceptrones multicapa (cuando se entrenan con una función de pérdida adecuada ) son naturalmente probabilísticos. Otros modelos, como las máquinas de vectores de soporte , no lo son, pero existen métodos para convertirlos en clasificadores probabilísticos.

Entrenamiento generativo y condicional.

Algunos modelos, como la regresión logística , están entrenados condicionalmente: optimizan la probabilidad condicional directamente en un conjunto de entrenamiento (ver minimización de riesgos empíricos ). Otros clasificadores, como el ingenuo Bayes , se entrenan generativamente : en el momento del entrenamiento, se encuentran la distribución condicional de clase y la clase previa , y la distribución condicional se deriva utilizando la regla de Bayes . ^[2]^{: 43} $\Pr(Y\vert X)$ $\Pr(X\vert Y)$ $\Pr(Y)$ $\Pr(Y\vert X)$

Calibración de probabilidad

No todos los modelos de clasificación son probabilísticos por naturaleza, y algunos que lo son, en particular los clasificadores Bayes ingenuos, los árboles de decisión y los métodos de impulso , producen distribuciones de probabilidad de clase distorsionadas. ^[3] En el caso de los árboles de decisión, donde $Pr(y | x)$ es la proporción de muestras de entrenamiento con la etiqueta $y$ en la hoja donde termina $x$ , estas distorsiones se producen porque los algoritmos de aprendizaje como C4.5 o CART apuntan explícitamente producir hojas homogéneas (dando probabilidades cercanas a cero o uno, y por lo tanto un alto sesgo ) mientras se utilizan pocas muestras para estimar la proporción relevante (alta varianza ). ^[4]

La calibración se puede evaluar mediante un gráfico de calibración (también llamado diagrama de confiabilidad ). ^[3]^[5] Un gráfico de calibración muestra la proporción de elementos en cada clase para bandas de probabilidad o puntuación predicha (como una distribución de probabilidad distorsionada o la "distancia con signo al hiperplano" en una máquina de vectores de soporte). Las desviaciones de la función de identidad indican un clasificador mal calibrado para el cual las probabilidades o puntuaciones predichas no se pueden utilizar como probabilidades. En este caso, se puede utilizar un método para convertir estas puntuaciones en probabilidades de pertenencia a una clase debidamente calibradas .

Para el caso binario , un enfoque común es aplicar la escala de Platt , que aprende un modelo de regresión logística sobre las puntuaciones. ^[6] Un método alternativo que utiliza regresión isotónica ^[7] es generalmente superior al método de Platt cuando hay suficientes datos de entrenamiento disponibles. ^[3]

En el caso multiclase , se puede utilizar una reducción a tareas binarias, seguida de una calibración univariada con un algoritmo como el descrito anteriormente y una aplicación adicional del algoritmo de acoplamiento por pares de Hastie y Tibshirani. ^[8]

Evaluación de la clasificación probabilística

Las métricas de evaluación comúnmente utilizadas que comparan la probabilidad prevista con los resultados observados incluyen la pérdida logarítmica , la puntuación de Brier y una variedad de errores de calibración. El primero también se utiliza como función de pérdida en el entrenamiento de modelos logísticos.

Las métricas de errores de calibración tienen como objetivo cuantificar hasta qué punto los resultados de un clasificador probabilístico están bien calibrados . Como dijo Philip Dawid , "un pronosticador está bien calibrado si, por ejemplo, de aquellos eventos a los que asigna una probabilidad del 30 por ciento, la proporción a largo plazo que realmente ocurre resulta ser del 30 por ciento". ^[9] El trabajo fundamental en el ámbito de la medición del error de calibración es la métrica del error de calibración esperado (ECE). ^[10] Trabajos más recientes proponen variantes de ECE que abordan las limitaciones de la métrica ECE que pueden surgir cuando las puntuaciones del clasificador se concentran en un subconjunto estrecho de [0,1], incluido el error de calibración adaptativo (ACE) ^[11] y el basado en pruebas. Error de calibración (TCE). ^[12]

Un método utilizado para asignar puntuaciones a pares de probabilidades predichas y resultados discretos reales, de modo que se puedan comparar diferentes métodos predictivos, se denomina regla de puntuación .

Implementaciones de software

MoRPE ^[13] es un clasificador probabilístico entrenable que utiliza regresión isotónica para la calibración de probabilidades. Resuelve el caso multiclase mediante reducción a tareas binarias. Es un tipo de máquina kernel que utiliza un kernel polinomial no homogéneo.

Referencias

^ Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). Los elementos del aprendizaje estadístico. pag. 348. Archivado desde el original el 26 de enero de 2015. [E]n las aplicaciones de minería de datos, el interés suele estar más en las probabilidades de clase en sí que en realizar una tarea de clase. $p_{\ell }(x),\ell =1,\dots ,K$
^ ab Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático . Saltador.
^ a b C Niculescu-Mizil, Alexandru; Caruana, rico (2005). Predecir buenas probabilidades con aprendizaje supervisado (PDF) . ICML. doi :10.1145/1102351.1102430. Archivado desde el original (PDF) el 11 de marzo de 2014.
^ Zadrozny, Bianca; Elkan, Charles (2001). Obtención de estimaciones de probabilidad calibradas a partir de árboles de decisión y clasificadores bayesianos ingenuos (PDF) . ICML. págs. 609–616.
^ "Calibración de probabilidad". jmetzen.github.io . Consultado el 18 de junio de 2019 .
^ Platt, John (1999). "Salidas probabilísticas para máquinas de vectores de soporte y comparaciones con métodos de probabilidad regularizados". Avances en clasificadores de grandes márgenes . 10 (3): 61–74.
^ Zadrozny, Bianca; Elkan, Charles (2002). "Transformar las puntuaciones del clasificador en estimaciones precisas de probabilidad multiclase" (PDF) . Actas de la octava conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos - KDD '02 . págs. 694–699. CiteSeerX 10.1.1.164.8140 . doi :10.1145/775047.775151. ISBN 978-1-58113-567-1. S2CID 3349576. CiteSeerX : 10.1.1.13.7457 .
^ Hastie, Trevor; Tibshirani, Robert (1998). "Clasificación por acoplamiento por pares". Los anales de la estadística . 26 (2): 451–471. CiteSeerX 10.1.1.309.4720 . doi :10.1214/aos/1028144844. Zbl 0932.62071. CiteSeerX : 10.1.1.46.6032 .
^ Dawid, AP (1982). "El bayesiano bien calibrado". Revista de la Asociación Estadounidense de Estadística . 77 (379): 605–610. doi :10.1080/01621459.1982.10477856.
^ Naeini, diputado; Cooper, G.; Hauskrecht, M. (2015). "Obtención de probabilidades bien calibradas mediante agrupamiento bayesiano" (PDF) . Actas de la Conferencia AAAI sobre Inteligencia Artificial .
^ Nixon, J.; Dusenberry, MW; Zhang, L.; Jerfel, G.; Tran, D. (2019). "Medición de la calibración en el aprendizaje profundo" (PDF) . Talleres CVPR .
^ Matsubara, T.; Impuesto, N.; Mudd, R.; Chico, yo (2023). "TCE: un enfoque basado en pruebas para medir el error de calibración". Actas de la Trigésima Novena Conferencia sobre Incertidumbre en Inteligencia Artificial (UAI) . arXiv : 2306.14343 .
^ "MoRPE". GitHub . Consultado el 17 de febrero de 2023 .