En teoría de la información , la perplejidad es una medida de incertidumbre en el valor de una muestra de una distribución de probabilidad discreta. Cuanto mayor sea la perplejidad, menos probable es que un observador pueda adivinar el valor que se extraerá de la distribución. La perplejidad fue introducida originalmente en 1977 en el contexto del reconocimiento de voz por Frederick Jelinek , Robert Leroy Mercer , Lalit R. Bahl y James K. Baker . [1]
La perplejidad PP de una distribución de probabilidad discreta p es un concepto ampliamente utilizado en la teoría de la información, el aprendizaje automático y el modelado estadístico. Se define como
donde H ( p ) es la entropía (en bits ) de la distribución y x varía a lo largo de los eventos . La base del logaritmo no necesita ser 2: la perplejidad es independiente de la base, siempre que la entropía y la exponenciación utilicen la misma base. En algunos contextos, esta medida también se conoce como diversidad (verdadera de orden 1) .
La perplejidad de una variable aleatoria X puede definirse como la perplejidad de la distribución sobre sus posibles valores x . Puede considerarse como una medida de incertidumbre o "sorpresa" relacionada con los resultados.
Para una distribución de probabilidad p donde exactamente k resultados tienen cada uno una probabilidad de 1/k y todos los demás resultados tienen una probabilidad de cero, la perplejidad de esta distribución es simplemente k . Esto se debe a que la distribución modela un dado justo de k caras , con cada uno de los k resultados siendo igualmente probables. En este contexto, la perplejidad k indica que hay tanta incertidumbre como la que habría al lanzar un dado justo de k caras. Incluso si una variable aleatoria tiene más de k resultados posibles, la perplejidad seguirá siendo k si la distribución es uniforme sobre k resultados y cero para el resto. Por lo tanto, una variable aleatoria con una perplejidad de k puede describirse como " k -ways perplexed", lo que significa que tiene el mismo nivel de incertidumbre que un dado justo de k caras.
La perplejidad se utiliza a veces como medida de la dificultad de un problema de predicción. Sin embargo, no suele ser una representación directa de la probabilidad relevante. Por ejemplo, si tiene dos opciones, una con probabilidad de 0,9, sus posibilidades de acertar utilizando la estrategia óptima son del 90 por ciento. Sin embargo, la perplejidad es 2 −0,9 log 2 0,9 - 0,1 log 2 0,1 = 1,38. La inversa de la perplejidad, 1/1,38 = 0,72, no corresponde a la probabilidad de 0,9.
La perplejidad es la exponenciación de la entropía, una cantidad más sencilla. La entropía mide el número esperado o "promedio" de bits necesarios para codificar el resultado de la variable aleatoria utilizando un código de longitud variable óptimo . También puede considerarse como la ganancia de información esperada al conocer el resultado de la variable aleatoria, lo que proporciona información sobre la incertidumbre y la complejidad de la distribución de probabilidad subyacente.
Se puede proponer un modelo de una distribución de probabilidad desconocida p , basándose en una muestra de entrenamiento extraída de p . Dado un modelo de probabilidad propuesto q , se puede evaluar q preguntando qué tan bien predice una muestra de prueba separada x 1 , x 2 , ..., x N también extraída de p . La perplejidad del modelo q se define como
donde es habitualmente 2. Los mejores modelos q de la distribución desconocida p tenderán a asignar mayores probabilidades q ( x i ) a los eventos de prueba. Por lo tanto, tienen menor perplejidad porque están menos sorprendidos por la muestra de prueba. Esto es equivalente a decir que los mejores modelos tienen mayores probabilidades para los datos de prueba, lo que conduce a un valor de perplejidad menor.
El exponente anterior puede considerarse como el número promedio de bits necesarios para representar un evento de prueba x i si se utiliza un código óptimo basado en q . Los modelos de baja perplejidad hacen un mejor trabajo de compresión de la muestra de prueba, requiriendo pocos bits por elemento de prueba en promedio porque q ( x i ) tiende a ser alto.
El exponente también puede interpretarse como una entropía cruzada :
donde denota la distribución empírica de la muestra de prueba (es decir, si x apareció n veces en la muestra de prueba de tamaño N ).
Por la definición de divergencia KL , también es igual a , que es . En consecuencia, la perplejidad se minimiza cuando .
En el procesamiento del lenguaje natural (PLN), un corpus es una colección estructurada de textos o documentos, y un modelo de lenguaje es una distribución de probabilidad a lo largo de textos o documentos completos. En consecuencia, en el PLN, la medida más comúnmente utilizada es la perplejidad por token (palabra o, más frecuentemente, subpalabra), definida como: donde son los documentos en el corpus y es el número de tokens en el corpus. Esto normaliza la perplejidad por la longitud del texto, lo que permite comparaciones más significativas entre diferentes textos o modelos en lugar de documentos.
Supongamos que el texto promedio x i en el corpus tiene una probabilidad de según el modelo de lenguaje. Esto daría una perplejidad del modelo de 2 190 por oración. Sin embargo, en PNL, es más común normalizar por la longitud de un texto. Por lo tanto, si la muestra de prueba tiene una longitud de 1000 tokens y se puede codificar utilizando 7,95 bits por token, se podría informar una perplejidad del modelo de 2 7,95 = 247 por token. En otras palabras, el modelo está tan confundido con los datos de prueba como si tuviera que elegir de manera uniforme e independiente entre 247 posibilidades para cada token.
Existen dos métricas de evaluación estándar para los modelos de lenguaje: perplejidad o tasa de error de palabras (WER). La más simple de estas medidas, WER, es simplemente el porcentaje de palabras E erróneamente reconocidas (eliminaciones, inserciones, sustituciones) con respecto al número total de palabras N, en una tarea de reconocimiento de voz, es decir, la segunda métrica, perplejidad (por token), es una medida de teoría de la información que evalúa la similitud del modelo propuesto m con la distribución original p . Se puede calcular como una inversa de la probabilidad promedio (geométrica) del conjunto de prueba T.
donde N es el número de tokens en el conjunto de prueba T. Esta ecuación puede verse como la entropía cruzada exponencial, donde la entropía cruzada H ( p ; m ) se aproxima como
Desde 2007, han surgido avances significativos en el modelado de lenguajes, en particular con la llegada de técnicas de aprendizaje profundo . La perplejidad por token, una medida que cuantifica el poder predictivo de un modelo de lenguaje, ha seguido siendo fundamental para evaluar modelos como los modelos de transformadores dominantes, como BERT de Google , GPT-4 de OpenAI y otros modelos de lenguaje grandes (LLM).
Esta medida se empleó para comparar diferentes modelos en el mismo conjunto de datos y guiar la optimización de hiperparámetros , aunque se ha encontrado que es sensible a factores como las características lingüísticas y la longitud de las oraciones. [2]
A pesar de su papel fundamental en el desarrollo de modelos lingüísticos, la perplejidad ha mostrado limitaciones, en particular como predictor inadecuado del rendimiento del reconocimiento de voz , el sobreajuste y la generalización , [3] [4] lo que plantea interrogantes sobre los beneficios de optimizar ciegamente la perplejidad únicamente.
La perplejidad más baja que se había publicado en el Brown Corpus (1 millón de palabras de inglés americano de diversos temas y géneros) hasta 1992 es de hecho de alrededor de 247 por palabra/token, lo que corresponde a una entropía cruzada de log 2 247 = 7,95 bits por palabra o 1,75 bits por letra [5] utilizando un modelo de trigrama . Si bien esta cifra representaba el estado del arte (SOTA) en ese momento, los avances en técnicas como el aprendizaje profundo han llevado a mejoras significativas en la perplejidad en otros puntos de referencia, como el One Billion Word Benchmark. [6]
En el contexto del Brown Corpus , simplemente adivinar que la siguiente palabra es "the" logrará una precisión del 7 por ciento, en contraste con el 1/247 = 0,4 por ciento que podría esperarse de un uso ingenuo de la perplejidad. Esta diferencia subraya la importancia del modelo estadístico utilizado y la naturaleza matizada de la perplejidad como medida de predictibilidad. [7] La suposición se basa en estadísticas de unigramas, no en las estadísticas de trigramas que arrojaron la perplejidad de 247, y el uso de estadísticas de trigramas refinaría aún más la predicción.