stringtranslate.com

Modelo discriminativo

Los modelos discriminatorios , también denominados modelos condicionales , son una clase de modelos que se utilizan con frecuencia para la clasificación . Por lo general, se utilizan para resolver problemas de clasificación binaria , es decir, asignar etiquetas, como aprobado/reprobado, ganado/perdido, vivo/muerto o sano/enfermo, a puntos de datos existentes.

Los tipos de modelos discriminativos incluyen regresión logística (LR), campos aleatorios condicionales (CRF), árboles de decisión , entre muchos otros. Los enfoques de modelos generativos que utilizan una distribución de probabilidad conjunta incluyen clasificadores bayesianos ingenuos , modelos de mezcla gaussiana , autocodificadores variacionales , redes generativas adversarias y otros.

Definición

A diferencia del modelado generativo, que estudia la probabilidad conjunta , el modelado discriminativo estudia o asigna la variable no observada dada (objetivo) a una etiqueta de clase que depende de las variables observadas (muestras de entrenamiento). Por ejemplo, en el reconocimiento de objetos , es probable que sea un vector de píxeles sin procesar (o características extraídas de los píxeles sin procesar de la imagen). Dentro de un marco probabilístico, esto se hace modelando la distribución de probabilidad condicional , que se puede usar para predecir a partir de . Tenga en cuenta que todavía existe una distinción entre el modelo condicional y el modelo discriminativo, aunque más a menudo se los categoriza simplemente como modelo discriminativo.

Modelo discriminativo puro vs. modelo condicional

Un modelo condicional modela la distribución de probabilidad condicional , mientras que el modelo discriminativo tradicional apunta a optimizar el mapeo de la entrada alrededor de las muestras entrenadas más similares. [1]

Enfoques típicos de modelado discriminativo

El siguiente enfoque se basa en el supuesto de que se proporciona el conjunto de datos de entrenamiento , donde es la salida correspondiente a la entrada . [2]

Clasificador lineal

Pretendemos utilizar la función para simular el comportamiento de lo que observamos en el conjunto de datos de entrenamiento mediante el método de clasificación lineal . Utilizando el vector de características conjuntas , la función de decisión se define como:

Según la interpretación de Memisevic, [2] , que también es , calcula una puntuación que mide la compatibilidad de la entrada con la salida potencial . Luego, determina la clase con la puntuación más alta.

Regresión logística (LR)

Dado que la función de pérdida 0-1 es una función de uso común en la teoría de decisiones, la distribución de probabilidad condicional , donde es un vector de parámetros para optimizar los datos de entrenamiento, podría reconsiderarse de la siguiente manera para el modelo de regresión logística:

, con

La ecuación anterior representa una regresión logística . Observe que una distinción importante entre los modelos es su forma de introducir la probabilidad posterior. La probabilidad posterior se infiere del modelo paramétrico. Luego podemos maximizar el parámetro mediante la siguiente ecuación:

También podría reemplazarse por la ecuación de pérdida logarítmica que aparece a continuación:

Dado que la pérdida logarítmica es diferenciable, se puede utilizar un método basado en gradientes para optimizar el modelo. Se garantiza un óptimo global porque la función objetivo es convexa. El gradiente de probabilidad logarítmica se representa mediante:

¿Dónde está la expectativa de ?

El método anterior proporcionará un cálculo eficiente para el número relativamente pequeño de clasificaciones.

Contraste con el modelo generativo

Contraste en los enfoques

Digamos que nos dan las etiquetas de clase (clasificación) y las variables de características, , como muestras de entrenamiento.

Un modelo generativo toma la probabilidad conjunta , donde es la entrada y es la etiqueta, y predice la etiqueta conocida más posible para la variable desconocida utilizando el teorema de Bayes . [3]

Los modelos discriminativos, a diferencia de los modelos generativos , no permiten generar muestras a partir de la distribución conjunta de las variables observadas y objetivo. Sin embargo, para tareas como la clasificación y la regresión que no requieren la distribución conjunta, los modelos discriminativos pueden producir un rendimiento superior (en parte porque tienen menos variables para calcular). [4] [5] [3] Por otro lado, los modelos generativos suelen ser más flexibles que los modelos discriminativos a la hora de expresar dependencias en tareas de aprendizaje complejas. Además, la mayoría de los modelos discriminativos están inherentemente supervisados ​​y no pueden admitir fácilmente el aprendizaje no supervisado . Los detalles específicos de la aplicación en última instancia dictan la idoneidad de seleccionar un modelo discriminativo frente a un modelo generativo.

Los modelos discriminativos y los modelos generativos también difieren en la introducción de la posibilidad posterior . [6] Para mantener la pérdida mínima esperada, se debe adquirir la minimización de la clasificación errónea del resultado. En el modelo discriminativo, las probabilidades posteriores, , se infieren a partir de un modelo paramétrico, donde los parámetros provienen de los datos de entrenamiento. Los puntos de estimación de los parámetros se obtienen a partir de la maximización de la probabilidad o el cálculo de la distribución sobre los parámetros. Por otro lado, considerando que los modelos generativos se centran en la probabilidad conjunta, la posibilidad posterior de clase se considera en el teorema de Bayes , que es

. [6]

Ventajas y desventajas en la aplicación

En los experimentos repetidos, la regresión logística y el Bayes ingenuo se aplican aquí para diferentes modelos en la tarea de clasificación binaria, el aprendizaje discriminativo da como resultado errores asintóticos más bajos, mientras que el generativo da como resultado errores asintóticos más altos más rápido. [3] Sin embargo, en el trabajo conjunto de Ulusoy y Bishop, Comparación de técnicas generativas y discriminativas para la detección y clasificación de objetos , afirman que la afirmación anterior es verdadera solo cuando el modelo es el apropiado para los datos (es decir, la distribución de datos está correctamente modelada por el modelo generativo).

Ventajas

Las ventajas significativas de utilizar modelos discriminativos son:

En comparación con las ventajas de utilizar modelos generativos:

Desventajas

Optimizaciones en aplicaciones

Dado que las dos formas de modelado tienen ventajas y desventajas, la combinación de ambos enfoques será una buena opción en la práctica. Por ejemplo, en el artículo de Marras A Joint Discriminative Generative Model for Deformable Model Construction and Classification [7] , él y sus coautores aplican la combinación de dos modelos a la clasificación de rostros de los modelos y obtienen una mayor precisión que el enfoque tradicional.

De manera similar, Kelm [8] también propuso la combinación de dos modelos para la clasificación de píxeles en su artículo Combinación de métodos generativos y discriminativos para la clasificación de píxeles con aprendizaje multicondicional .

Durante el proceso de extracción de las características discriminantes antes de la agrupación, el análisis de componentes principales (PCA), aunque se utiliza comúnmente, no es necesariamente un enfoque discriminante. Por el contrario, el LDA sí lo es. [9] El análisis discriminante lineal (LDA) proporciona una forma eficiente de eliminar la desventaja que enumeramos anteriormente. Como sabemos, el modelo discriminante necesita una combinación de múltiples subtareas antes de la clasificación, y el LDA proporciona una solución adecuada a este problema al reducir la dimensión.

Tipos

Algunos ejemplos de modelos discriminativos incluyen:

Véase también

Referencias

  1. ^ ab Ballesteros, Miguel. "Modelos discriminativos" (PDF) . Consultado el 28 de octubre de 2018 .[ enlace muerto permanente ]
  2. ^ abc Memisevic, Roland (21 de diciembre de 2006). «Una introducción al aprendizaje discriminativo estructurado» . Consultado el 29 de octubre de 2018 .
  3. ^ abc Ng, Andrew Y.; Jordan, Michael I. (2001). Sobre clasificadores discriminativos y generativos: una comparación entre regresión logística y Bayes ingenuo.
  4. ^ Singla, Parag; Domingos, Pedro (2005). "Entrenamiento discriminante de redes lógicas de Markov". Actas de la 20.ª Conferencia Nacional sobre Inteligencia Artificial - Volumen 2. AAAI'05. Pittsburgh, Pensilvania: AAAI Press: 868–873. ISBN 978-1577352365.
  5. ^ J. Lafferty, A. McCallum y F. Pereira. Campos aleatorios condicionales: modelos probabilísticos para segmentar y etiquetar datos de secuencias. En ICML , 2001.
  6. ^ ab Ulusoy, Ilkay (mayo de 2016). "Comparación de técnicas generativas y discriminativas para la detección y clasificación de objetos" (PDF) . Microsoft . Consultado el 30 de octubre de 2018 .
  7. ^ Marras, Ioannis (2017). "Un modelo generativo discriminante conjunto para la construcción y clasificación de modelos deformables" (PDF) . Consultado el 5 de noviembre de 2018 .
  8. ^ Kelm, B. Michael. «Combinación de métodos generativos y discriminativos para la clasificación de píxeles con aprendizaje multicondicional» (PDF) . Archivado desde el original (PDF) el 17 de julio de 2019. Consultado el 5 de noviembre de 2018 .
  9. ^ Wang, Zhangyang (2015). "Un marco de optimización conjunta de codificación dispersa y agrupamiento discriminativo" (PDF) . Consultado el 5 de noviembre de 2018 .