stringtranslate.com

entropía cruzada

En teoría de la información , la entropía cruzada entre dos distribuciones de probabilidad y sobre el mismo conjunto subyacente de eventos mide el número promedio de bits necesarios para identificar un evento extraído del conjunto si un esquema de codificación utilizado para el conjunto se optimiza para una distribución de probabilidad estimada. , en lugar de la verdadera distribución .

Definición

La entropía cruzada de la distribución relativa a una distribución sobre un conjunto dado se define de la siguiente manera:

,

donde es el operador de valor esperado con respecto a la distribución .

La definición puede formularse utilizando la divergencia de Kullback-Leibler , divergencia de desde (también conocida como entropía relativa de con respecto a ).

¿ Dónde está la entropía de ?

Para distribuciones de probabilidad discretas y con el mismo soporte , esto significa

La situación para las distribuciones continuas es análoga. Tenemos que suponer que y son absolutamente continuos con respecto a alguna medida de referencia (normalmente es una medida de Lebesgue en una σ-álgebra de Borel ). Sean y funciones de densidad de probabilidad de y con respecto a . Entonces

y por lo tanto

NB: La notación también se utiliza para un concepto diferente, la entropía conjunta de y .

Motivación

En teoría de la información , el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor de un conjunto de posibilidades puede considerarse como una distribución de probabilidad implícita sobre , donde está la longitud del código para en bits. Por lo tanto, la entropía cruzada se puede interpretar como la longitud esperada del mensaje por dato cuando se supone una distribución incorrecta mientras los datos en realidad siguen una distribución . Es por eso que la expectativa se toma sobre la distribución de probabilidad verdadera y no . De hecho, la longitud esperada del mensaje según la distribución real es

Estimacion

Hay muchas situaciones en las que es necesario medir la entropía cruzada pero se desconoce su distribución. Un ejemplo es el modelado de lenguaje , donde se crea un modelo basado en un conjunto de entrenamiento y luego se mide su entropía cruzada en un conjunto de prueba para evaluar qué tan preciso es el modelo al predecir los datos de prueba. En este ejemplo, es la verdadera distribución de palabras en cualquier corpus y es la distribución de palabras tal como lo predice el modelo. Como se desconoce la verdadera distribución, la entropía cruzada no se puede calcular directamente. En estos casos, se calcula una estimación de la entropía cruzada mediante la siguiente fórmula:

donde es el tamaño del conjunto de prueba y es la probabilidad de evento estimada a partir del conjunto de entrenamiento. En otras palabras, es la estimación de probabilidad del modelo de que sea la i-ésima palabra del texto . La suma se promedia sobre las palabras de la prueba. Esta es una estimación de Monte Carlo de la entropía cruzada verdadera, donde el conjunto de prueba se trata como muestras de [ cita necesaria ] .

Relación con la máxima verosimilitud

La entropía cruzada surge en los problemas de clasificación cuando se introduce un logaritmo en forma de función de probabilidad logarítmica .

La sección se ocupa del tema de la estimación de la probabilidad de diferentes resultados discretos posibles. Para este fin, denotemos una familia parametrizada de distribuciones por , sujeta al esfuerzo de optimización. Considere una secuencia finita dada de valores de un conjunto de entrenamiento, obtenida a partir de un muestreo condicionalmente independiente . La probabilidad asignada a cualquier parámetro considerado del modelo viene dada entonces por el producto de todas las probabilidades . Es posible que se repitan las ocurrencias, lo que lleva a factores iguales en el producto. Si el recuento de apariciones del valor igual a (para algún índice ) se denota por , entonces la frecuencia de ese valor es igual . Denotaremos este último por , ya que puede entenderse como una aproximación empírica a la distribución de probabilidad subyacente al escenario. Denota además por la perplejidad , que se puede ver igual a las reglas de cálculo del logaritmo , y donde el producto está sobre los valores sin doble conteo. Entonces

o

Dado que el logaritmo es una función creciente de función monótona , no afecta la extremización. Observemos entonces que la maximización de la probabilidad equivale a la minimización de la entropía cruzada.

Minimización de entropía cruzada

La minimización de entropía cruzada se utiliza con frecuencia en la optimización y la estimación de probabilidad de eventos raros. Al comparar una distribución con una distribución de referencia fija , la entropía cruzada y la divergencia KL son idénticas hasta una constante aditiva (ya que es fija): según la desigualdad de Gibbs , ambas toman sus valores mínimos cuando , que es para la divergencia KL, y para la entropía cruzada. En la literatura de ingeniería, el principio de minimizar la divergencia KL (el " Principio de información mínima de discriminación " de Kullback) a menudo se denomina Principio de entropía cruzada mínima (MCE), o Minxent .

Sin embargo, como se analiza en el artículo Divergencia de Kullback-Leibler , a veces la distribución es la distribución de referencia previa fija y la distribución se optimiza para que sea lo más cercana posible, sujeta a alguna restricción. En este caso las dos minimizaciones no son equivalentes. Esto ha generado cierta ambigüedad en la literatura, y algunos autores intentaron resolver la inconsistencia reformulando la entropía cruzada como , en lugar de . De hecho, la entropía cruzada es otro nombre para la entropía relativa ; ver Cover y Thomas [1] y Good. [2] Por otro lado, no concuerda con la literatura y puede ser engañoso.

Función de pérdida de entropía cruzada y regresión logística.

La entropía cruzada se puede utilizar para definir una función de pérdida en el aprendizaje y la optimización automáticos . Mao, Mohri y Zhong (2023) ofrecen un análisis extenso de las propiedades de la familia de funciones de pérdida de entropía cruzada en el aprendizaje automático, incluidas las garantías de aprendizaje teórico y las extensiones del aprendizaje adversario. [3] La probabilidad verdadera es la etiqueta verdadera y la distribución dada es el valor predicho del modelo actual. Esto también se conoce como pérdida logarítmica (o pérdida logarítmica [4] o pérdida logística ); [5] los términos "pérdida logarítmica" y "pérdida de entropía cruzada" se utilizan indistintamente. [6]

Más específicamente, considere un modelo de regresión binaria que puede usarse para clasificar observaciones en dos clases posibles (a menudo simplemente etiquetadas como y ). La salida del modelo para una observación determinada, dado un vector de características de entrada , se puede interpretar como una probabilidad, que sirve como base para clasificar la observación. En la regresión logística , la probabilidad se modela utilizando la función logística donde es alguna función del vector de entrada , comúnmente solo una función lineal. La probabilidad de la salida está dada por

donde el vector de pesos se optimiza mediante algún algoritmo apropiado, como el descenso de gradiente . De manera similar, la probabilidad complementaria de encontrar el resultado viene dada simplemente por

Una vez configurada nuestra notación, y , podemos usar la entropía cruzada para obtener una medida de disimilitud entre y :

El gráfico muestra diferentes funciones de pérdida que se pueden utilizar para entrenar un clasificador binario. Solo se muestra el caso en el que la salida objetivo es 1. Se observa que la pérdida es cero cuando el objetivo es igual a la producción y aumenta a medida que la producción se vuelve cada vez más incorrecta.

La regresión logística normalmente optimiza la pérdida logarítmica para todas las observaciones en las que se entrena, lo que equivale a optimizar la entropía cruzada promedio en la muestra. También se pueden usar para el entrenamiento otras funciones de pérdida que penalizan los errores de manera diferente, lo que da como resultado modelos con diferente precisión de prueba final. [7] Por ejemplo, supongamos que tenemos muestras con cada muestra indexada por . El promedio de la función de pérdida viene dado por:

donde , con la función logística como antes.

La pérdida logística a veces se denomina pérdida de entropía cruzada. También se le conoce como pérdida de registros. [ duplicación? ] (En este caso, la etiqueta binaria a menudo se denota por {−1,+1}. [8] )

Observación: El gradiente de la pérdida de entropía cruzada para la regresión logística es el mismo que el gradiente de la pérdida de error cuadrático para la regresión lineal . Es decir, definir

Entonces tenemos el resultado

La prueba es como sigue. Para cualquiera tenemos

De manera similar, eventualmente obtenemos el resultado deseado.

Ver también

Referencias

  1. ^ Thomas M. Cover, Joy A. Thomas, Elementos de la teoría de la información, segunda edición, Wiley, p. 80
  2. ^ IJ Good, Máxima entropía para la formulación de hipótesis, especialmente para tablas de contingencia multidimensionales, Ann. de Matemáticas. Estadísticas, 1963
  3. ^ Anqi Mao, Mehryar Mohri, Yutao Zhong. Funciones de pérdida de entropía cruzada: análisis teórico y aplicaciones. ICML 2023. https://arxiv.org/pdf/2304.07288.pdf
  4. ^ Las matemáticas de la codificación, extracción y distribución de información , por George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, p. 82
  5. ^ Probabilidad para el aprendizaje automático: descubra cómo aprovechar la incertidumbre con Python , Jason Brownlee, 2019, p. 220: "La pérdida logística se refiere a la función de pérdida comúnmente utilizada para optimizar un modelo de regresión logística. También puede denominarse pérdida logarítmica (lo cual es confuso) o simplemente pérdida logarítmica".
  6. ^ sklearn.metrics.log_loss
  7. ^ Noel, Mateo; Banerjee, Arindam; D, Geraldine Bessie Amali; Muthiah-Nakarajan, Venkataraman (17 de marzo de 2023). "Las funciones de pérdida alternativas para clasificación y regresión sólida pueden mejorar la precisión de las redes neuronales artificiales". arXiv : 2303.09935 . {{cite journal}}: Citar diario requiere |journal=( ayuda )
  8. ^ Murphy, Kevin (2012). Aprendizaje automático: una perspectiva probabilística . MIT. ISBN 978-0262018029.

Otras lecturas