En la teoría de la información , la entropía cruzada entre dos distribuciones de probabilidad y , sobre el mismo conjunto subyacente de eventos, mide la cantidad promedio de bits necesarios para identificar un evento extraído del conjunto cuando el esquema de codificación utilizado para el conjunto está optimizado para una distribución de probabilidad estimada , en lugar de la distribución real .
Definición
La entropía cruzada de la distribución relativa a una distribución sobre un conjunto dado se define de la siguiente manera:
donde es el operador de valor esperado con respecto a la distribución .
La definición puede formularse utilizando la divergencia de Kullback-Leibler , divergencia de desde (también conocida como la entropía relativa de con respecto a ).
NB: La notación también se utiliza para un concepto diferente, la entropía conjunta de y .
Motivación
En teoría de la información , el teorema de Kraft-McMillan establece que cualquier esquema de codificación directamente decodificable para codificar un mensaje para identificar un valor de un conjunto de posibilidades puede verse como la representación de una distribución de probabilidad implícita sobre , donde es la longitud del código para en bits. Por lo tanto, la entropía cruzada puede interpretarse como la longitud esperada del mensaje por dato cuando se supone una distribución incorrecta mientras que los datos en realidad siguen una distribución . Es por eso que la expectativa se asume sobre la distribución de probabilidad verdadera y no De hecho, la longitud esperada del mensaje bajo la distribución verdadera es
Estimación
Existen muchas situaciones en las que es necesario medir la entropía cruzada, pero se desconoce la distribución de . Un ejemplo es el modelado de lenguaje , donde se crea un modelo basado en un conjunto de entrenamiento y luego se mide su entropía cruzada en un conjunto de prueba para evaluar la precisión del modelo al predecir los datos de prueba. En este ejemplo, es la distribución real de palabras en cualquier corpus y es la distribución de palabras según lo previsto por el modelo. Dado que se desconoce la distribución real, la entropía cruzada no se puede calcular directamente. En estos casos, se calcula una estimación de la entropía cruzada utilizando la siguiente fórmula:
donde es el tamaño del conjunto de prueba y es la probabilidad de evento estimada a partir del conjunto de entrenamiento. En otras palabras, es la estimación de probabilidad del modelo de que la i-ésima palabra del texto sea . La suma se promedia sobre las palabras de la prueba. Esta es una estimación de Monte Carlo de la verdadera entropía cruzada, donde el conjunto de prueba se trata como muestras de . [ cita requerida ]
Relación con la máxima verosimilitud
La entropía cruzada surge en problemas de clasificación cuando se introduce un logaritmo bajo la apariencia de una función de log-verosimilitud .
La sección se ocupa del tema de la estimación de la probabilidad de diferentes resultados discretos posibles. Para este fin, denote una familia parametrizada de distribuciones por , con sujeto al esfuerzo de optimización. Considere una secuencia finita dada de valores de un conjunto de entrenamiento, obtenido a partir de un muestreo condicionalmente independiente . La probabilidad asignada a cualquier parámetro considerado del modelo está dada entonces por el producto sobre todas las probabilidades . Las ocurrencias repetidas son posibles, lo que lleva a factores iguales en el producto. Si el recuento de ocurrencias del valor igual a (para algún índice ) se denota por , entonces la frecuencia de ese valor es igual a . Denote este último por , ya que puede entenderse como una aproximación empírica a la distribución de probabilidad subyacente al escenario. Denote además por la perplejidad , que puede verse como igual por las reglas de cálculo para el logaritmo , y donde el producto es sobre los valores sin doble conteo. Entonces
o
Dado que el logaritmo es una función monótonamente creciente , no afecta la extremización. Observemos entonces que la maximización de la verosimilitud equivale a la minimización de la entropía cruzada.
Minimización de entropía cruzada
La minimización de la entropía cruzada se utiliza con frecuencia en la optimización y la estimación de probabilidad de eventos raros. Al comparar una distribución con una distribución de referencia fija , la entropía cruzada y la divergencia KL son idénticas hasta una constante aditiva (ya que es fija): De acuerdo con la desigualdad de Gibbs , ambas toman sus valores mínimos cuando , que es para la divergencia KL, y para la entropía cruzada. En la literatura de ingeniería, el principio de minimizar la divergencia KL (el " Principio de mínima información de discriminación " de Kullback ) a menudo se denomina Principio de mínima entropía cruzada (MCE), o Minxent .
Sin embargo, como se analiza en el artículo divergencia de Kullback–Leibler , a veces la distribución es la distribución de referencia previa fija, y la distribución se optimiza para que sea lo más cercana posible a, sujeta a alguna restricción. En este caso, las dos minimizaciones no son equivalentes. Esto ha llevado a cierta ambigüedad en la literatura, con algunos autores intentando resolver la inconsistencia al reformular la entropía cruzada como , en lugar de . De hecho, la entropía cruzada es otro nombre para la entropía relativa ; consulte Cover y Thomas [1] y Good. [2] Por otro lado, no concuerda con la literatura y puede ser engañoso.
Función de pérdida de entropía cruzada y regresión logística
La entropía cruzada se puede utilizar para definir una función de pérdida en el aprendizaje automático y la optimización . Mao, Mohri y Zhong (2023) ofrecen un análisis extenso de las propiedades de la familia de funciones de pérdida de entropía cruzada en el aprendizaje automático, incluidas las garantías de aprendizaje teórico y las extensiones al aprendizaje adversario . [3] La probabilidad verdadera es la etiqueta verdadera y la distribución dada es el valor predicho del modelo actual. Esto también se conoce como pérdida logarítmica (o pérdida logarítmica [4] o pérdida logística ); [5] los términos "pérdida logarítmica" y "pérdida de entropía cruzada" se utilizan indistintamente. [6]
Más específicamente, considere un modelo de regresión binaria que se puede utilizar para clasificar observaciones en dos clases posibles (a menudo simplemente etiquetadas como y ). La salida del modelo para una observación dada, dado un vector de características de entrada , se puede interpretar como una probabilidad, que sirve como base para clasificar la observación. En la regresión logística , la probabilidad se modela utilizando la función logística donde es alguna función del vector de entrada , comúnmente solo una función lineal. La probabilidad de la salida está dada por
donde el vector de pesos se optimiza a través de algún algoritmo apropiado como el descenso de gradiente . De manera similar, la probabilidad complementaria de encontrar la salida está dada simplemente por
Una vez establecida nuestra notación, y , podemos usar la entropía cruzada para obtener una medida de disimilitud entre y :
La regresión logística normalmente optimiza la pérdida logarítmica para todas las observaciones en las que se entrena, lo que es lo mismo que optimizar la entropía cruzada promedio en la muestra. También se pueden usar otras funciones de pérdida que penalizan los errores de manera diferente para el entrenamiento, lo que da como resultado modelos con diferente precisión de prueba final. [7] Por ejemplo, supongamos que tenemos muestras con cada muestra indexada por . El promedio de la función de pérdida se da entonces por:
donde , con la función logística como antes.
La pérdida logística a veces se denomina pérdida de entropía cruzada. También se conoce como pérdida logarítmica. [¿ duplicación? ] (En este caso, la etiqueta binaria se suele denotar por {−1,+1}. [8] )
Observación: El gradiente de la pérdida de entropía cruzada para la regresión logística es el mismo que el gradiente de la pérdida de error al cuadrado para la regresión lineal . Es decir, defina
Entonces tenemos el resultado
La prueba es la siguiente. Para cualquier , tenemos
De manera similar, finalmente obtenemos el resultado deseado.
Entropía cruzada modificada
Puede ser beneficioso entrenar un conjunto de modelos que tengan diversidad, de modo que cuando se combinen, su precisión predictiva aumente. [9] [10]
Suponiendo que se ensambla un conjunto simple de clasificadores promediando las salidas, entonces la entropía cruzada modificada está dada por
donde es la función de costo del clasificador, es la probabilidad de salida del clasificador, es la probabilidad verdadera a estimar y es un parámetro entre 0 y 1 que define la "diversidad" que nos gustaría establecer entre el conjunto. Cuando queremos que cada clasificador haga lo mejor que pueda independientemente del conjunto y cuando nos gustaría que el clasificador sea lo más diverso posible.
^ Thomas M. Cover, Joy A. Thomas, Elementos de la teoría de la información, 2.ª edición, Wiley, pág. 80
^ IJ Good, Entropía máxima para la formulación de hipótesis, especialmente para tablas de contingencia multidimensionales, Ann. of Math. Statistics, 1963
^ Anqi Mao, Mehryar Mohri, Yutao Zhong. Funciones de pérdida de entropía cruzada: análisis teórico y aplicaciones. ICML 2023. https://arxiv.org/pdf/2304.07288.pdf
^ Las matemáticas de la codificación, extracción y distribución de la información , por George Cybenko, Dianne P. O'Leary, Jorma Rissanen, 1999, pág. 82
^ Probabilidad para el aprendizaje automático: descubra cómo aprovechar la incertidumbre con Python , Jason Brownlee, 2019, pág. 220: "La pérdida logística se refiere a la función de pérdida que se utiliza comúnmente para optimizar un modelo de regresión logística. También se la puede denominar pérdida logarítmica (lo cual es confuso) o simplemente pérdida logarítmica".
^ sklearn.metrics.log_loss
^ Noel, Mathew; Banerjee, Arindam; D, Geraldine Bessie Amali; Muthiah-Nakarajan, Venkataraman (17 de marzo de 2023). "Las funciones de pérdida alternativas para la clasificación y la regresión robusta pueden mejorar la precisión de las redes neuronales artificiales". arXiv : 2303.09935 [cs.NE].
^ Murphy, Kevin (2012). Aprendizaje automático: una perspectiva probabilística . MIT. ISBN978-0262018029.
^ Shoham, Ron; Permuter, Haim H. (2019). "Costo de entropía cruzada modificado: un enfoque para fomentar la diversidad en el conjunto de clasificación (anuncio breve)". En Dolev, Shlomi; Hendler, Danny; Lodha, Sachin; Yung, Moti (eds.). Ciberseguridad, criptografía y aprendizaje automático: tercer simposio internacional, CSCML 2019, Beer-Sheva, Israel, 27 y 28 de junio de 2019, Actas . Apuntes de clase en informática. Vol. 11527. Springer. págs. 202–207. doi :10.1007/978-3-030-20951-3_18. ISBN .978-3-030-20950-6.
^ Shoham, Ron; Permuter, Haim (2020). "Costo de entropía cruzada modificado: marco para el fomento explícito de la diversidad". arXiv : 2007.08140 [cs.LG].
Lectura adicional
de Boer, Kroese, DP, Mannor, S. y Rubinstein, RY (2005). Un tutorial sobre el método de entropía cruzada. Annals of Operations Research 134 (1), 19–67.