stringtranslate.com

Modelo discriminativo

Los modelos discriminativos , también denominados modelos condicionales , son una clase de modelos utilizados frecuentemente para la clasificación . Por lo general, se utilizan para asignar etiquetas, como aprobado/reprobado, ganar/perder, vivo/muerto o sano/enfermo, a puntos de datos existentes.

Los tipos de modelos discriminativos incluyen regresión logística (LR), campos aleatorios condicionales (CRF), árboles de decisión , entre muchos otros. Los enfoques típicos de modelos generativos incluyen clasificadores ingenuos de Bayes , modelos de mezcla gaussiana , codificadores automáticos variacionales , redes generativas adversarias y otros.

Definición

A diferencia del modelado generativo, que estudia la probabilidad conjunta , el modelado discriminativo estudia o asigna la variable no observada dada (objetivo) a una etiqueta de clase que depende de las variables observadas (muestras de entrenamiento). Por ejemplo, en el reconocimiento de objetos , es probable que sea un vector de píxeles sin procesar (o características extraídas de los píxeles sin procesar de la imagen). Dentro de un marco probabilístico, esto se hace modelando la distribución de probabilidad condicional , que puede usarse para predecir a partir de . Tenga en cuenta que todavía existe una distinción entre el modelo condicional y el modelo discriminativo, aunque con mayor frecuencia se categorizan simplemente como modelo discriminativo.

Modelo discriminativo puro versus modelo condicional

Un modelo condicional modela la distribución de probabilidad condicional , mientras que el modelo discriminativo tradicional tiene como objetivo optimizar el mapeo de la entrada alrededor de las muestras entrenadas más similares. [1]

Enfoques típicos de modelado discriminativo

El siguiente enfoque se basa en el supuesto de que se le proporciona el conjunto de datos de entrenamiento , donde está la salida correspondiente a la entrada . [2]

clasificador lineal

Tenemos la intención de utilizar la función para simular el comportamiento de lo que observamos en el conjunto de datos de entrenamiento mediante el método de clasificador lineal . Utilizando el vector de características conjuntas , la función de decisión se define como:

Según la interpretación de Memisevic, [2] , que también lo es , calcula una puntuación que mide la compatibilidad de la entrada con la salida potencial . Luego determina la clase con la puntuación más alta.

Regresión logística (LR)

Dado que la función de pérdida 0-1 se usa comúnmente en la teoría de la decisión, la distribución de probabilidad condicional , donde es un vector de parámetros para optimizar los datos de entrenamiento, podría reconsiderarse de la siguiente manera para el modelo de regresión logística:

, con

La ecuación anterior representa la regresión logística . Observe que una distinción importante entre los modelos es su forma de introducir la probabilidad posterior. La probabilidad posterior se infiere del modelo paramétrico. Entonces podemos maximizar el parámetro mediante la siguiente ecuación:

También podría reemplazarse por la siguiente ecuación de pérdida logarítmica :

Dado que la pérdida logarítmica es diferenciable, se puede utilizar un método basado en gradiente para optimizar el modelo. Se garantiza un óptimo global porque la función objetivo es convexa. El gradiente de probabilidad logarítmica está representado por:

¿Dónde está la expectativa de ?

El método anterior proporcionará un cálculo eficiente para el número relativamente pequeño de clasificaciones.

Contraste con el modelo generativo.

Contraste de enfoques

Digamos que recibimos las etiquetas de clase (clasificación) y las variables de características, como muestras de entrenamiento.

Un modelo generativo toma la probabilidad conjunta , donde está la entrada y la etiqueta, y predice la etiqueta conocida más posible para la variable desconocida utilizando el teorema de Bayes . [3]

Los modelos discriminativos, a diferencia de los modelos generativos , no permiten generar muestras a partir de la distribución conjunta de variables observadas y objetivo. Sin embargo, para tareas como clasificación y regresión que no requieren la distribución conjunta, los modelos discriminativos pueden producir un rendimiento superior (en parte porque tienen menos variables para calcular). [4] [5] [3] Por otro lado, los modelos generativos suelen ser más flexibles que los modelos discriminativos a la hora de expresar dependencias en tareas de aprendizaje complejas. Además, la mayoría de los modelos discriminativos son inherentemente supervisados ​​y no pueden soportar fácilmente el aprendizaje no supervisado . Los detalles específicos de la aplicación dictan en última instancia la idoneidad de seleccionar un modelo discriminativo versus generativo.

Los modelos discriminativos y generativos también difieren en la introducción de la posibilidad posterior . [6] Para mantener la pérdida mínima esperada, se debe adquirir la minimización de la clasificación errónea de los resultados. En el modelo discriminativo, las probabilidades posteriores , se infieren de un modelo paramétrico, donde los parámetros provienen de los datos de entrenamiento. Los puntos de estimación de los parámetros se obtienen a partir de la maximización de la verosimilitud o del cálculo de la distribución sobre los parámetros. Por otro lado, considerando que los modelos generativos se centran en la probabilidad conjunta, se considera la posibilidad posterior de clase en el teorema de Bayes , que es

. [6]

Ventajas y desventajas en la aplicación.

En los experimentos repetidos, aquí se aplican la regresión logística y el Bayes ingenuo para diferentes modelos en tareas de clasificación binaria, el aprendizaje discriminativo da como resultado errores asintóticos más bajos, mientras que el generativo da como resultado errores asintóticos más altos y más rápidamente. [3] Sin embargo, en el trabajo conjunto de Ulusoy y Bishop, Comparación de técnicas generativas y discriminativas para la detección y clasificación de objetos , afirman que la afirmación anterior es verdadera sólo cuando el modelo es el apropiado para los datos (es decir, la distribución de datos está modelada correctamente por el modelo generativo).

Ventajas

Las ventajas importantes de utilizar modelos discriminativos son:

Comparado con las ventajas de utilizar el modelado generativo:

Desventajas

Optimizaciones en aplicaciones.

Dado que ambas formas de modelar presentan ventajas y desventajas, combinar ambos enfoques será un buen modelado en la práctica. Por ejemplo, en el artículo de Marras Un modelo generativo discriminativo conjunto para la construcción y clasificación de modelos deformables , [7] él y sus coautores aplican la combinación de dos modelados en la clasificación facial de los modelos y reciben una mayor precisión que el enfoque tradicional.

De manera similar, Kelm [8] también propuso la combinación de dos modelos para la clasificación de píxeles en su artículo Combinando métodos generativos y discriminativos para la clasificación de píxeles con aprendizaje multicondicional .

Durante el proceso de extracción de las características discriminativas antes de la agrupación, el análisis de componentes principales (PCA), aunque se utiliza comúnmente, no es un enfoque necesariamente discriminativo. Por el contrario, la LDA es discriminatoria. [9] El análisis discriminante lineal (LDA) proporciona una forma eficiente de eliminar la desventaja que enumeramos anteriormente. Como sabemos, el modelo discriminativo necesita una combinación de múltiples subtareas antes de la clasificación, y LDA proporciona una solución adecuada a este problema al reducir la dimensión.

Tipos

Ejemplos de modelos discriminativos incluyen:

Ver también

Referencias

  1. ^ ab Ballesteros, Miguel. «Modelos discriminativos» (PDF) . Consultado el 28 de octubre de 2018 .[ enlace muerto permanente ]
  2. ^ abc Memisevic, Roland (21 de diciembre de 2006). "Una introducción al aprendizaje discriminativo estructurado" . Consultado el 29 de octubre de 2018 .
  3. ^ abc Ng, Andrew Y.; Jordania, Michael I. (2001). Sobre clasificadores discriminativos versus generativos: una comparación de regresión logística y Bayes ingenuo.
  4. ^ Singla, Parag; Domingos, Pedro (2005). "Entrenamiento discriminativo de redes lógicas de Markov". Actas de la XX Conferencia Nacional sobre Inteligencia Artificial - Volumen 2 . AAAI'05. Pittsburgh, Pensilvania: AAAI Press: 868–873. ISBN 978-1577352365.
  5. ^ J. Lafferty, A. McCallum y F. Pereira. Campos aleatorios condicionales: modelos probabilísticos para segmentar y etiquetar datos de secuencia. En ICML , 2001.
  6. ^ ab Ulusoy, Ilkay (mayo de 2016). "Comparación de técnicas generativas y discriminativas para la detección y clasificación de objetos" (PDF) . Microsoft . Consultado el 30 de octubre de 2018 .
  7. ^ Marras, Ioannis (2017). "Un modelo generativo discriminativo conjunto para la construcción y clasificación de modelos deformables" (PDF) . Consultado el 5 de noviembre de 2018 .
  8. ^ Kelm, B. Michael. "Combinación de métodos generativos y discriminativos para la clasificación de píxeles con aprendizaje multicondicional" (PDF) . Archivado desde el original (PDF) el 17 de julio de 2019 . Consultado el 5 de noviembre de 2018 .
  9. ^ Wang, Zhangyang (2015). "Un marco de optimización conjunta de codificación dispersa y agrupación discriminativa" (PDF) . Consultado el 5 de noviembre de 2018 .