Perplejidad

Una baja perplejidad indica que la distribución de probabilidad es buena para predecir la muestra.

La última definición es usada frecuentemente en la comparación empírica de modelos probabilísticos.

A menudo se intenta extraer un modelo de una distribución de probabilidad desconocida p, basándose en un conjunto de entrenamiento generado por p. Dado un modelo probabilístico propuesto q, se puede evaluar q preguntando cómo predice éste otro conjunto separado de prueba x1, x2,..., xN generado también por p. La perplejidad del modelo q se define como Los buenos modelos q de la distribución desconocida p tienden a asignar altas probabilidades q(xi) a los eventos de prueba.

Los modelos con baja perplejidad pueden comprimir mejor el conjunto de prueba, debido a que se necesitan pocos bits de media por cada elemento ya que q(xi) tiende a ser alto.

denota la distribución empírica del conjunto de prueba (i.e.,

En otras palabras, el modelo se confunde en el conjunto de prueba como si tuviese que elegir uniforme e independientemente entre 247 posibilidades por cada palabra.