En la clasificación estadística , se utilizan dos métodos principales, denominados método generativo y método discriminativo . Estos métodos calculan los clasificadores mediante métodos diferentes, que difieren en el grado de modelado estadístico . La terminología es inconsistente, [a] pero se pueden distinguir tres tipos principales, siguiendo a Jebara (2004):
La distinción entre estas dos últimas clases no se realiza de manera consistente; [4] Jebara (2004) se refiere a estas tres clases como aprendizaje generativo , aprendizaje condicional y aprendizaje discriminativo , pero Ng y Jordan (2002) solo distinguen dos clases, llamándolas clasificadores generativos (distribución conjunta) y clasificadores discriminativos (distribución condicional o sin distribución), sin distinguir entre las dos últimas clases. [5] Análogamente, un clasificador basado en un modelo generativo es un clasificador generativo , mientras que un clasificador basado en un modelo discriminativo es un clasificador discriminativo , aunque este término también se refiere a clasificadores que no se basan en un modelo.
Ejemplos estándar de cada uno, todos ellos clasificadores lineales , son:
En la aplicación a la clasificación, se desea pasar de una observación x a una etiqueta y (o distribución de probabilidad en etiquetas). Se puede calcular esto directamente, sin usar una distribución de probabilidad ( clasificador sin distribución ); se puede estimar la probabilidad de una etiqueta dada una observación ( modelo discriminativo ) y basar la clasificación en eso; o se puede estimar la distribución conjunta ( modelo generativo ), a partir de eso calcular la probabilidad condicional y luego basar la clasificación en eso. Estos son cada vez más indirectos, pero cada vez más probabilísticos, lo que permite aplicar más conocimiento del dominio y teoría de la probabilidad. En la práctica, se utilizan diferentes enfoques, dependiendo del problema particular, y los híbridos pueden combinar las fortalezas de múltiples enfoques.
Una división alternativa los define simétricamente como:
Independientemente de la definición precisa, la terminología es constitucional porque un modelo generativo se puede utilizar para "generar" instancias aleatorias ( resultados ), ya sea de una observación y un objetivo , o de una observación x dado un valor objetivo y , [2] mientras que un modelo discriminativo o un clasificador discriminativo (sin un modelo) se puede utilizar para "discriminar" el valor de la variable objetivo Y , dada una observación x . [3] La diferencia entre "discriminar" (distinguir) y "clasificar" es sutil, y no se distinguen de manera consistente. (El término "clasificador discriminativo" se convierte en un pleonasmo cuando "discriminación" es equivalente a "clasificación").
El término "modelo generativo" también se utiliza para describir modelos que generan instancias de variables de salida de una manera que no tiene una relación clara con las distribuciones de probabilidad sobre muestras potenciales de variables de entrada. Las redes generativas adversarias son ejemplos de esta clase de modelos generativos y se juzgan principalmente por la similitud de salidas particulares con entradas potenciales. Dichos modelos no son clasificadores.
En aplicación a la clasificación, el observable X es frecuentemente una variable continua , el objetivo Y es generalmente una variable discreta que consiste en un conjunto finito de etiquetas, y la probabilidad condicional también puede interpretarse como una función objetivo (no determinista) , considerando X como entradas e Y como salidas.
Dado un conjunto finito de etiquetas, las dos definiciones de "modelo generativo" están estrechamente relacionadas. Un modelo de la distribución condicional es un modelo de la distribución de cada etiqueta, y un modelo de la distribución conjunta es equivalente a un modelo de la distribución de valores de etiqueta , junto con la distribución de observaciones dada una etiqueta, ; simbólicamente, Por lo tanto, si bien un modelo de la distribución de probabilidad conjunta es más informativo que un modelo de la distribución de etiqueta (pero sin sus frecuencias relativas), es un paso relativamente pequeño, por lo que no siempre se distinguen.
Dado un modelo de la distribución conjunta, , la distribución de las variables individuales se puede calcular como las distribuciones marginales y (considerando X como continua, por lo tanto integrándose sobre ella, e Y como discreta, por lo tanto sumándose sobre ella), y se puede calcular cualquier distribución condicional a partir de la definición de probabilidad condicional : y .
Dado un modelo de una probabilidad condicional y distribuciones de probabilidad estimadas para las variables X e Y , denotadas y , se puede estimar la probabilidad condicional opuesta utilizando la regla de Bayes :
Por ejemplo, dado un modelo generativo para , se puede estimar:
y dado un modelo discriminativo para , se puede estimar:
Téngase en cuenta que la regla de Bayes (calcular una probabilidad condicional en términos de la otra) y la definición de probabilidad condicional (calcular la probabilidad condicional en términos de la distribución conjunta) también se confunden con frecuencia.
Un algoritmo generativo modela cómo se generaron los datos para categorizar una señal. Se plantea la pregunta: en función de mis suposiciones de generación, ¿qué categoría es más probable que genere esta señal? A un algoritmo discriminativo no le importa cómo se generaron los datos, simplemente categoriza una señal dada. Por lo tanto, los algoritmos discriminativos intentan aprender directamente de los datos y luego intentan clasificarlos. Por otro lado, los algoritmos generativos intentan aprender qué se puede transformar en datos para clasificarlos más tarde. Una de las ventajas de los algoritmos generativos es que se pueden utilizar para generar nuevos datos similares a los datos existentes. Por otro lado, se ha demostrado que algunos algoritmos discriminativos dan un mejor rendimiento que algunos algoritmos generativos en tareas de clasificación. [6]
A pesar de que los modelos discriminativos no necesitan modelar la distribución de las variables observadas, por lo general no pueden expresar relaciones complejas entre las variables observadas y las variables objetivo. Pero, en general, no necesariamente funcionan mejor que los modelos generativos en tareas de clasificación y regresión . Las dos clases se consideran complementarias o como diferentes visiones del mismo procedimiento. [7]
Con el auge del aprendizaje profundo , se forma una nueva familia de métodos, denominada modelos generativos profundos (DGM), [8] [9] a través de la combinación de modelos generativos y redes neuronales profundas. Un aumento en la escala de las redes neuronales suele ir acompañado de un aumento en la escala de los datos de entrenamiento, ambos necesarios para un buen rendimiento. [10]
Los DGM más populares incluyen autocodificadores variacionales (VAE), redes generativas antagónicas (GAN) y modelos autorregresivos. Recientemente, ha habido una tendencia a construir modelos generativos profundos muy grandes. [8] Por ejemplo, GPT-3 y su precursor GPT-2 [ 11] son modelos de lenguaje neuronal autorregresivos que contienen miles de millones de parámetros, BigGAN [12] y VQ-VAE [13] que se utilizan para la generación de imágenes que pueden tener cientos de millones de parámetros, y Jukebox es un modelo generativo muy grande para audio musical que contiene miles de millones de parámetros. [14]
Los tipos de modelos generativos son:
Si los datos observados se obtienen realmente de un modelo generativo, entonces ajustar los parámetros del modelo generativo para maximizar la probabilidad de los datos es un método común. Sin embargo, dado que la mayoría de los modelos estadísticos son solo aproximaciones a la distribución verdadera , si la aplicación del modelo consiste en inferir sobre un subconjunto de variables condicionadas a valores conocidos de otras, entonces se puede argumentar que la aproximación hace más suposiciones de las necesarias para resolver el problema en cuestión. En tales casos, puede ser más preciso modelar las funciones de densidad condicional directamente utilizando un modelo discriminativo (ver más abajo), aunque los detalles específicos de la aplicación dictarán en última instancia qué enfoque es el más adecuado en cada caso particular.
Supongamos que los datos de entrada son , el conjunto de etiquetas para es y existen los siguientes 4 puntos de datos:
Para los datos anteriores, la estimación de la distribución de probabilidad conjunta a partir de la medida empírica será la siguiente:
mientras que seguiré:
Shannon (1948) da un ejemplo en el que se utiliza una tabla de frecuencias de pares de palabras en inglés para generar una oración que comienza con "representar y rápidamente es un bien"; lo cual no es un inglés apropiado pero que se aproximará cada vez más a él a medida que la tabla se mueve de pares de palabras a tripletes de palabras, etc.