Modelo generativo

En la clasificación estadística , se utilizan dos métodos principales, denominados método generativo y método discriminativo . Estos métodos calculan los clasificadores mediante métodos diferentes, que difieren en el grado de modelado estadístico . La terminología es inconsistente, ^[a] pero se pueden distinguir tres tipos principales, siguiendo a Jebara (2004):

Un modelo generativo es un modelo estadístico de la distribución de probabilidad conjunta en una variable observable dada X y una variable objetivo Y ; ^[1] Un modelo generativo se puede utilizar para "generar" instancias aleatorias ( resultados ) de una observación x . ^[2] $P(X,Y)$
Un modelo discriminativo es un modelo de la probabilidad condicional del objetivo Y , dada una observación x . Puede utilizarse para "discriminar" el valor de la variable objetivo Y , dada una observación x . ^[3] $P(Y\mid X=x)$
Los clasificadores calculados sin utilizar un modelo de probabilidad también se denominan vagamente "discriminativos".

La distinción entre estas dos últimas clases no se realiza de manera consistente; ^[4] Jebara (2004) se refiere a estas tres clases como aprendizaje generativo , aprendizaje condicional y aprendizaje discriminativo , pero Ng y Jordan (2002) solo distinguen dos clases, llamándolas clasificadores generativos (distribución conjunta) y clasificadores discriminativos (distribución condicional o sin distribución), sin distinguir entre las dos últimas clases. ^[5] Análogamente, un clasificador basado en un modelo generativo es un clasificador generativo , mientras que un clasificador basado en un modelo discriminativo es un clasificador discriminativo , aunque este término también se refiere a clasificadores que no se basan en un modelo.

Ejemplos estándar de cada uno, todos ellos clasificadores lineales , son:

clasificadores generativos:
- clasificador bayesiano ingenuo y
- análisis discriminante lineal
modelo discriminativo:
- regresión logística

En la aplicación a la clasificación, se desea pasar de una observación x a una etiqueta y (o distribución de probabilidad en etiquetas). Se puede calcular esto directamente, sin usar una distribución de probabilidad ( clasificador sin distribución ); se puede estimar la probabilidad de una etiqueta dada una observación ( modelo discriminativo ) y basar la clasificación en eso; o se puede estimar la distribución conjunta ( modelo generativo ), a partir de eso calcular la probabilidad condicional y luego basar la clasificación en eso. Estos son cada vez más indirectos, pero cada vez más probabilísticos, lo que permite aplicar más conocimiento del dominio y teoría de la probabilidad. En la práctica, se utilizan diferentes enfoques, dependiendo del problema particular, y los híbridos pueden combinar las fortalezas de múltiples enfoques. $P(Y|X=x)$ $P(X,Y)$ $P(Y|X=x)$

Definición

Una división alternativa los define simétricamente como:

Un modelo generativo es un modelo de la probabilidad condicional del observable X , dado un objetivo y , simbólicamente, ^[2] $P(X\mid Y=y)$
Un modelo discriminativo es un modelo de la probabilidad condicional del objetivo Y , dada una observación x , simbólicamente, ^[3] $P(Y\mid X=x)$

Independientemente de la definición precisa, la terminología es constitucional porque un modelo generativo se puede utilizar para "generar" instancias aleatorias ( resultados ), ya sea de una observación y un objetivo , o de una observación x dado un valor objetivo y , ^[2] mientras que un modelo discriminativo o un clasificador discriminativo (sin un modelo) se puede utilizar para "discriminar" el valor de la variable objetivo Y , dada una observación x . ^[3] La diferencia entre "discriminar" (distinguir) y "clasificar" es sutil, y no se distinguen de manera consistente. (El término "clasificador discriminativo" se convierte en un pleonasmo cuando "discriminación" es equivalente a "clasificación"). ${\estilo de visualización (x,y)}$

El término "modelo generativo" también se utiliza para describir modelos que generan instancias de variables de salida de una manera que no tiene una relación clara con las distribuciones de probabilidad sobre muestras potenciales de variables de entrada. Las redes generativas adversarias son ejemplos de esta clase de modelos generativos y se juzgan principalmente por la similitud de salidas particulares con entradas potenciales. Dichos modelos no son clasificadores.

Relaciones entre modelos

En aplicación a la clasificación, el observable X es frecuentemente una variable continua , el objetivo Y es generalmente una variable discreta que consiste en un conjunto finito de etiquetas, y la probabilidad condicional también puede interpretarse como una función objetivo (no determinista) , considerando X como entradas e Y como salidas. $P(Y\mid X)$ $f\colon X\to Y$

Dado un conjunto finito de etiquetas, las dos definiciones de "modelo generativo" están estrechamente relacionadas. Un modelo de la distribución condicional es un modelo de la distribución de cada etiqueta, y un modelo de la distribución conjunta es equivalente a un modelo de la distribución de valores de etiqueta , junto con la distribución de observaciones dada una etiqueta, ; simbólicamente, Por lo tanto, si bien un modelo de la distribución de probabilidad conjunta es más informativo que un modelo de la distribución de etiqueta (pero sin sus frecuencias relativas), es un paso relativamente pequeño, por lo que no siempre se distinguen. $P(X\mid Y=y)$ $Estilo de visualización P(Y)$ $P(X\mid Y)$ $P(X,Y)=P(X\mid Y)P(Y).$

Dado un modelo de la distribución conjunta, , la distribución de las variables individuales se puede calcular como las distribuciones marginales y (considerando X como continua, por lo tanto integrándose sobre ella, e Y como discreta, por lo tanto sumándose sobre ella), y se puede calcular cualquier distribución condicional a partir de la definición de probabilidad condicional : y . $P(X,Y)$ $P(X)=\sum _{y}P(X,Y=y)$ $P(Y)=\int _{x}P(Y,X=x)$ $P(X\mid Y)=P(X,Y)/P(Y)$ $P(Y\mid X)=P(X,Y)/P(X)$

Dado un modelo de una probabilidad condicional y distribuciones de probabilidad estimadas para las variables X e Y , denotadas y , se puede estimar la probabilidad condicional opuesta utilizando la regla de Bayes : $Estilo de visualización P(X)$ $Estilo de visualización P(Y)$

P(X\mid Y)P(Y)=P(Y\mid X)P(X).

Por ejemplo, dado un modelo generativo para , se puede estimar: $P(X\mid Y)$

P(Y\mid X)=P(X\mid Y)P(Y)/P(X),

y dado un modelo discriminativo para , se puede estimar: $P(Y\mid X)$

P(X\mid Y)=P(Y\mid X)P(X)/P(Y).

Téngase en cuenta que la regla de Bayes (calcular una probabilidad condicional en términos de la otra) y la definición de probabilidad condicional (calcular la probabilidad condicional en términos de la distribución conjunta) también se confunden con frecuencia.

Contraste con los clasificadores discriminativos

Un algoritmo generativo modela cómo se generaron los datos para categorizar una señal. Se plantea la pregunta: en función de mis suposiciones de generación, ¿qué categoría es más probable que genere esta señal? A un algoritmo discriminativo no le importa cómo se generaron los datos, simplemente categoriza una señal dada. Por lo tanto, los algoritmos discriminativos intentan aprender directamente de los datos y luego intentan clasificarlos. Por otro lado, los algoritmos generativos intentan aprender qué se puede transformar en datos para clasificarlos más tarde. Una de las ventajas de los algoritmos generativos es que se pueden utilizar para generar nuevos datos similares a los datos existentes. Por otro lado, se ha demostrado que algunos algoritmos discriminativos dan un mejor rendimiento que algunos algoritmos generativos en tareas de clasificación. ^[6] $p(y|x)$ $p(x,y)$ $p(y|x)$ $p(x,y)$

A pesar de que los modelos discriminativos no necesitan modelar la distribución de las variables observadas, por lo general no pueden expresar relaciones complejas entre las variables observadas y las variables objetivo. Pero, en general, no necesariamente funcionan mejor que los modelos generativos en tareas de clasificación y regresión . Las dos clases se consideran complementarias o como diferentes visiones del mismo procedimiento. ^[7]

Modelos generativos profundos

Con el auge del aprendizaje profundo , se forma una nueva familia de métodos, denominada modelos generativos profundos (DGM), ^[8]^[9] a través de la combinación de modelos generativos y redes neuronales profundas. Un aumento en la escala de las redes neuronales suele ir acompañado de un aumento en la escala de los datos de entrenamiento, ambos necesarios para un buen rendimiento. ^[10]

Los DGM más populares incluyen autocodificadores variacionales (VAE), redes generativas antagónicas (GAN) y modelos autorregresivos. Recientemente, ha habido una tendencia a construir modelos generativos profundos muy grandes. ^[8] Por ejemplo, GPT-3 y su precursor GPT-2 [ ^11] son modelos de lenguaje neuronal autorregresivos que contienen miles de millones de parámetros, BigGAN ^[12] y VQ-VAE ^[13] que se utilizan para la generación de imágenes que pueden tener cientos de millones de parámetros, y Jukebox es un modelo generativo muy grande para audio musical que contiene miles de millones de parámetros. ^[14]

Tipos

Modelos generativos

Los tipos de modelos generativos son:

Si los datos observados se obtienen realmente de un modelo generativo, entonces ajustar los parámetros del modelo generativo para maximizar la probabilidad de los datos es un método común. Sin embargo, dado que la mayoría de los modelos estadísticos son solo aproximaciones a la distribución verdadera , si la aplicación del modelo consiste en inferir sobre un subconjunto de variables condicionadas a valores conocidos de otras, entonces se puede argumentar que la aproximación hace más suposiciones de las necesarias para resolver el problema en cuestión. En tales casos, puede ser más preciso modelar las funciones de densidad condicional directamente utilizando un modelo discriminativo (ver más abajo), aunque los detalles específicos de la aplicación dictarán en última instancia qué enfoque es el más adecuado en cada caso particular.

Modelos discriminativos

Ejemplos

Ejemplo sencillo

Supongamos que los datos de entrada son , el conjunto de etiquetas para es y existen los siguientes 4 puntos de datos: $x\en \{1,2\}$ ${\estilo de visualización x}$ $y\en \{0,1\}$ $(x,y)=\{(1,0),(1,1),(2,0),(2,1)\}$

Para los datos anteriores, la estimación de la distribución de probabilidad conjunta a partir de la medida empírica será la siguiente: $p(x,y)$

mientras que seguiré: $p(y|x)$

Generación de texto

Shannon (1948) da un ejemplo en el que se utiliza una tabla de frecuencias de pares de palabras en inglés para generar una oración que comienza con "representar y rápidamente es un bien"; lo cual no es un inglés apropiado pero que se aproximará cada vez más a él a medida que la tabla se mueve de pares de palabras a tripletes de palabras, etc.

Véase también

Notas

^ Tres fuentes importantes, Ng y Jordan 2002, Jebara 2004 y Mitchell 2015, ofrecen diferentes divisiones y definiciones.

Referencias

^ Ng y Jordan (2002): "Los clasificadores generativos aprenden un modelo de la probabilidad conjunta, , de las entradas x y la etiqueta y , y hacen sus predicciones utilizando las reglas de Bayes para calcular , y luego elegir la etiqueta más probable y . $p(x,y)$ $p(y\mid x)$
^ abc Mitchell 2015: "Podemos usar la regla de Bayes como base para diseñar algoritmos de aprendizaje (aproximadores de funciones), de la siguiente manera: Dado que deseamos aprender alguna función objetivo , o equivalentemente, , usamos los datos de entrenamiento para aprender estimaciones de y . Luego, se pueden clasificar nuevos ejemplos de X utilizando estas distribuciones de probabilidad estimadas, más la regla de Bayes. Este tipo de clasificador se llama clasificador generativo , porque podemos ver la distribución como una descripción de cómo generar instancias aleatorias X condicionadas al atributo objetivo Y . $f\colon X\to Y$ $P(Y\mid X)$ $P(X\mid Y)$ $Estilo de visualización P(Y)$ $P(X\mid Y)$
^ abc Mitchell 2015: "La regresión logística es un algoritmo de aproximación de funciones que utiliza datos de entrenamiento para estimar directamente , a diferencia de Naive Bayes. En este sentido, la regresión logística se suele denominar clasificador discriminativo porque podemos ver la distribución como discriminante directa del valor del valor objetivo Y para cualquier instancia dada X $P(Y\mid X)$ $P(Y\mid X)$
^ Jebara 2004, 2.4 Aprendizaje discriminativo: "Esta distinción entre aprendizaje condicional y aprendizaje discriminativo no es actualmente una convención bien establecida en el campo".
^ Ng y Jordan 2002: "Los clasificadores discriminativos modelan el posterior directamente o aprenden un mapa directo de las entradas x a las etiquetas de clase". $p(y|x)$
^ Ng y Jordania 2002
^ Bishop, CM; Lasserre, J. (24 de septiembre de 2007), "Generative or Discriminative? getting the best of both worlds", en Bernardo, JM (ed.), Bayesian statistics 8: procedures of the eighty Valencia International Meeting, 2-6 de junio de 2006, Oxford University Press, pp. 3–23, ISBN 978-0-19-921465-5
^ ab "Escalamiento: los investigadores desarrollan modelos generativos profundos a gran escala". Microsoft . 9 de abril de 2020.
^ "Modelos generativos". OpenAI . 16 de junio de 2016.
^ Kaplan, Jared; McCandlish, Sam; Henighan, Tom; Brown, Tom B.; Chess, Benjamin; Child, Rewon; Gray, Scott; Radford, Alec; Wu, Jeffrey; Amodei, Dario (2020). "Leyes de escala para modelos de lenguaje neuronal". arXiv : 2001.08361 [stat.ML].
^ "Mejores modelos de lenguaje y sus implicaciones". OpenAI . 14 de febrero de 2019.
^ Brock, Andrew; Donahue, Jeff; Simonyan, Karen (2018). "Entrenamiento GAN a gran escala para síntesis de imágenes naturales de alta fidelidad". arXiv : 1809.11096 [cs.LG].
^ Razaví, Ali; van den Oord, Aarón; Vinyals, Oriol (2019). "Generación de diversas imágenes de alta fidelidad con VQ-VAE-2". arXiv : 1906.00446 [cs.LG].
^ "Jukebox". AbiertoAI . 30 de abril de 2020.

Enlaces externos

Shannon, CE (1948). "A Mathematical Theory of Communication" (PDF) . Bell System Technical Journal . 27 (julio, octubre): 379–423, 623–656. doi :10.1002/j.1538-7305.1948.tb01338.x. hdl : 10338.dmlcz/101429 . Archivado desde el original (PDF) el 2016-06-06 . Consultado el 2016-01-09 .
Mitchell, Tom M. (2015). "3. Clasificadores generativos y discriminativos: Bayes ingenuo y regresión logística" (PDF) . Aprendizaje automático .
Ng, Andrew Y .; Jordan, Michael I. (2002). "Sobre clasificadores discriminativos y generativos: una comparación entre regresión logística y bayesiano ingenuo" (PDF) . Avances en sistemas de procesamiento de información neuronal .
Jebara, Tony (2004). Aprendizaje automático: discriminativo y generativo. Serie internacional de Springer sobre ingeniería y ciencias de la computación. Kluwer Academic (Springer). ISBN 978-1-4020-7647-3.
Jebara, Tony (2002). Aprendizaje discriminativo, generativo e imitativo (PhD). Instituto Tecnológico de Massachusetts . hdl :1721.1/8323., (espejo, espejo), publicado como libro (arriba)