Los modelos discriminatorios , también denominados modelos condicionales , son una clase de modelos que se utilizan con frecuencia para la clasificación . Por lo general, se utilizan para resolver problemas de clasificación binaria , es decir, asignar etiquetas, como aprobado/reprobado, ganado/perdido, vivo/muerto o sano/enfermo, a puntos de datos existentes.
Los tipos de modelos discriminativos incluyen regresión logística (LR), campos aleatorios condicionales (CRF), árboles de decisión , entre muchos otros. Los enfoques de modelos generativos que utilizan una distribución de probabilidad conjunta incluyen clasificadores bayesianos ingenuos , modelos de mezcla gaussiana , autocodificadores variacionales , redes generativas adversarias y otros.
A diferencia del modelado generativo, que estudia la probabilidad conjunta , el modelado discriminativo estudia o asigna la variable no observada dada (objetivo) a una etiqueta de clase que depende de las variables observadas (muestras de entrenamiento). Por ejemplo, en el reconocimiento de objetos , es probable que sea un vector de píxeles sin procesar (o características extraídas de los píxeles sin procesar de la imagen). Dentro de un marco probabilístico, esto se hace modelando la distribución de probabilidad condicional , que se puede usar para predecir a partir de . Tenga en cuenta que todavía existe una distinción entre el modelo condicional y el modelo discriminativo, aunque más a menudo se los categoriza simplemente como modelo discriminativo.
Un modelo condicional modela la distribución de probabilidad condicional , mientras que el modelo discriminativo tradicional apunta a optimizar el mapeo de la entrada alrededor de las muestras entrenadas más similares. [1]
El siguiente enfoque se basa en el supuesto de que se proporciona el conjunto de datos de entrenamiento , donde es la salida correspondiente a la entrada . [2]
Pretendemos utilizar la función para simular el comportamiento de lo que observamos en el conjunto de datos de entrenamiento mediante el método de clasificación lineal . Utilizando el vector de características conjuntas , la función de decisión se define como:
Según la interpretación de Memisevic, [2] , que también es , calcula una puntuación que mide la compatibilidad de la entrada con la salida potencial . Luego, determina la clase con la puntuación más alta.
Dado que la función de pérdida 0-1 es una función de uso común en la teoría de decisiones, la distribución de probabilidad condicional , donde es un vector de parámetros para optimizar los datos de entrenamiento, podría reconsiderarse de la siguiente manera para el modelo de regresión logística:
La ecuación anterior representa una regresión logística . Observe que una distinción importante entre los modelos es su forma de introducir la probabilidad posterior. La probabilidad posterior se infiere del modelo paramétrico. Luego podemos maximizar el parámetro mediante la siguiente ecuación:
También podría reemplazarse por la ecuación de pérdida logarítmica que aparece a continuación:
Dado que la pérdida logarítmica es diferenciable, se puede utilizar un método basado en gradientes para optimizar el modelo. Se garantiza un óptimo global porque la función objetivo es convexa. El gradiente de probabilidad logarítmica se representa mediante:
¿Dónde está la expectativa de ?
El método anterior proporcionará un cálculo eficiente para el número relativamente pequeño de clasificaciones.
Digamos que nos dan las etiquetas de clase (clasificación) y las variables de características, , como muestras de entrenamiento.
Un modelo generativo toma la probabilidad conjunta , donde es la entrada y es la etiqueta, y predice la etiqueta conocida más posible para la variable desconocida utilizando el teorema de Bayes . [3]
Los modelos discriminativos, a diferencia de los modelos generativos , no permiten generar muestras a partir de la distribución conjunta de las variables observadas y objetivo. Sin embargo, para tareas como la clasificación y la regresión que no requieren la distribución conjunta, los modelos discriminativos pueden producir un rendimiento superior (en parte porque tienen menos variables para calcular). [4] [5] [3] Por otro lado, los modelos generativos suelen ser más flexibles que los modelos discriminativos a la hora de expresar dependencias en tareas de aprendizaje complejas. Además, la mayoría de los modelos discriminativos están inherentemente supervisados y no pueden admitir fácilmente el aprendizaje no supervisado . Los detalles específicos de la aplicación en última instancia dictan la idoneidad de seleccionar un modelo discriminativo frente a un modelo generativo.
Los modelos discriminativos y los modelos generativos también difieren en la introducción de la posibilidad posterior . [6] Para mantener la pérdida mínima esperada, se debe adquirir la minimización de la clasificación errónea del resultado. En el modelo discriminativo, las probabilidades posteriores, , se infieren a partir de un modelo paramétrico, donde los parámetros provienen de los datos de entrenamiento. Los puntos de estimación de los parámetros se obtienen a partir de la maximización de la probabilidad o el cálculo de la distribución sobre los parámetros. Por otro lado, considerando que los modelos generativos se centran en la probabilidad conjunta, la posibilidad posterior de clase se considera en el teorema de Bayes , que es
En los experimentos repetidos, la regresión logística y el Bayes ingenuo se aplican aquí para diferentes modelos en la tarea de clasificación binaria, el aprendizaje discriminativo da como resultado errores asintóticos más bajos, mientras que el generativo da como resultado errores asintóticos más altos más rápido. [3] Sin embargo, en el trabajo conjunto de Ulusoy y Bishop, Comparación de técnicas generativas y discriminativas para la detección y clasificación de objetos , afirman que la afirmación anterior es verdadera solo cuando el modelo es el apropiado para los datos (es decir, la distribución de datos está correctamente modelada por el modelo generativo).
Las ventajas significativas de utilizar modelos discriminativos son:
En comparación con las ventajas de utilizar modelos generativos:
Dado que las dos formas de modelado tienen ventajas y desventajas, la combinación de ambos enfoques será una buena opción en la práctica. Por ejemplo, en el artículo de Marras A Joint Discriminative Generative Model for Deformable Model Construction and Classification [7] , él y sus coautores aplican la combinación de dos modelos a la clasificación de rostros de los modelos y obtienen una mayor precisión que el enfoque tradicional.
De manera similar, Kelm [8] también propuso la combinación de dos modelos para la clasificación de píxeles en su artículo Combinación de métodos generativos y discriminativos para la clasificación de píxeles con aprendizaje multicondicional .
Durante el proceso de extracción de las características discriminantes antes de la agrupación, el análisis de componentes principales (PCA), aunque se utiliza comúnmente, no es necesariamente un enfoque discriminante. Por el contrario, el LDA sí lo es. [9] El análisis discriminante lineal (LDA) proporciona una forma eficiente de eliminar la desventaja que enumeramos anteriormente. Como sabemos, el modelo discriminante necesita una combinación de múltiples subtareas antes de la clasificación, y el LDA proporciona una solución adecuada a este problema al reducir la dimensión.
Algunos ejemplos de modelos discriminativos incluyen: