Comentario: Varias secciones carecen de fuentes Cambalachero ( discusión ) 13:47, 17 de abril de 2024 (UTC)
Fenómeno en el que los datos del tren y de la prueba son muy diferentes
Covariate Shift es un fenómeno en el aprendizaje automático y las estadísticas donde la distribución de las características de entrada ( covariables ) cambia entre los conjuntos de datos de entrenamiento y de prueba , lo que generalmente afecta el rendimiento de un modelo de aprendizaje automático. [1] Es un desafío común que se enfrenta en aplicaciones del mundo real, ya que los modelos a menudo se entrenan con datos históricos y se espera que se generalicen a datos nuevos e invisibles. [2] El cambio de covariable puede conducir a una disminución del rendimiento del modelo o incluso al fallo del modelo, [3] ya que viola el supuesto de que los datos de entrenamiento y prueba siguen la misma distribución.
El cambio de covariables también se conoce como cambio de dominio y es un caso especial de cambio de conjunto de datos donde solo cambian las covariables (entradas). Es decir, sólo cambios. Esto es distinto tanto del cambio de etiqueta (donde cambia) como de la deriva de concepto (donde cambia). [4]![{\displaystyle P(X)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P(Y)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P(Y|X)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Definición matemática
El cambio de covariable puro ocurre cuando la distribución de las características de entrada cambia entre los datos de entrenamiento y de prueba, mientras que la distribución condicional de la variable objetivo dadas las características de entrada sigue siendo la misma. [5] Denotemos la distribución de las características de entrada en los datos de entrenamiento y denotemos la distribución en los datos de prueba. El cambio de covariable se define como:![{\displaystyle P_{tren}(X)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P_{prueba}(X)}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle P_{tren}(X)\neq P_{test}(X)\quad {\text{and}}\quad P_{train}(Y|X=x)=P_{test}(Y|X =x),;\forall x\in {\mathcal {X}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde representa las características de entrada, representa la variable de destino y es el espacio de características. [6]![{\displaystyle X}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle Y}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\mathcal {X}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Medición del cambio de covariables
El cambio de covariables generalmente se mide mediante distancias estadísticas , divergencias y pruebas de dos muestras . Algunos métodos de medición funcionan con características continuas, otros con características categóricas y algunos con ambas. Además, algunos métodos son capaces de medir la deriva univariada mientras que otros son capaces de medir la deriva multivariada .
Distancias estadísticas
- Discrepancia media máxima (MMD) (continua) : MMD es un método basado en kernel que mide la distancia entre dos distribuciones de probabilidad comparando las medias de sus muestras en un espacio de Hilbert de kernel reproductivo. [7] MMD proporciona una medida simétrica y no negativa de la diferencia entre las distribuciones de entrenamiento y prueba, donde los valores más altos indican un mayor grado de cambio de covariable.
- Distancia de Wasserstein (continua y categórica) : también conocida como distancia del motor de la tierra , la distancia de Wasserstein cuantifica la diferencia entre dos distribuciones de probabilidad midiendo el costo mínimo requerido para transformar una distribución en la otra. [8] Esta métrica proporciona una medida simétrica y no negativa de la divergencia entre las distribuciones de entrenamiento y prueba, donde los valores más altos indican un grado más sustancial de cambio de covariable.
- Distancia de Hellinger (continua y categórica) : la distancia de Hellinger es otra medida simétrica de la diferencia entre dos distribuciones de probabilidad. Se deriva del coeficiente de Bhattacharyya , una medida de la similitud entre dos distribuciones de probabilidad. La distancia de Hellinger se define como la raíz cuadrada de la suma de las diferencias al cuadrado entre las raíces cuadradas de las probabilidades en las dos distribuciones. Al igual que otras distancias estadísticas, la distancia de Hellinger no es negativa, y los valores más altos indican una divergencia más significativa entre las distribuciones de entrenamiento y prueba.
- Distancia de Jensen-Shannon (continua y categórica) : la distancia de Jensen-Shannon se deriva de la divergencia JS aplicando una transformación para obtener una métrica de distancia verdadera que satisface las propiedades de no negatividad, identidad de indiscernibles, simetría y desigualdad de triángulos. Específicamente, la Distancia Jensen-Shannon se define como la raíz cuadrada de la Divergencia JS:
![{\displaystyle JSDistancia(P,Q)={\sqrt {JSDivergencia(P,Q)}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Divergencias
- Divergencia de Kullback-Leibler (KL) (continua y categórica) : la divergencia de KL es una medida de la diferencia entre dos distribuciones de probabilidad. Se puede utilizar para comparar la distribución de entrenamiento q(x) y la distribución de prueba p(x), proporcionando un valor no negativo que cuantifica la diferencia entre las dos distribuciones. Un valor de divergencia de KL más alto indica un grado más significativo de cambio de covariable. Sin embargo, es importante señalar que la divergencia de KL no es simétrica, lo que significa que la divergencia de q(x) a p(x) puede no ser igual a la divergencia de p(x) a q(x).
- Divergencia de Jensen-Shannon (JS) (continua y categórica) : La divergencia JS es una medida simétrica de la diferencia entre dos distribuciones de probabilidad, derivada de la divergencia de Kullback-Leibler (KL). Puede interpretarse como el promedio de las divergencias de KL entre cada distribución y una mezcla de las dos distribuciones. La divergencia JS no es negativa; los valores más altos indican un mayor grado de disimilitud entre las distribuciones de entrenamiento y prueba. A diferencia de la divergencia KL, la divergencia JS es simétrica, lo que proporciona una medida más consistente de la divergencia entre las distribuciones.
Pruebas de dos muestras
- Prueba de Kolmogorov-Smirnov (continua y categórica) : la prueba de Kolmogorov-Smirnov es una prueba de hipótesis estadística no paramétrica que se utiliza para evaluar si dos muestras provienen de la misma distribución subyacente. Esta prueba proporciona un valor p, que puede usarse para determinar la presencia de cambio de covariable. Un valor p pequeño (normalmente por debajo de un nivel de significancia predeterminado, como 0,05) indica que las distribuciones de entrenamiento y prueba son significativamente diferentes, lo que sugiere la presencia de un cambio de covariable.
- Prueba de chi cuadrado (categórica) : la prueba de chi cuadrado es un método estadístico para detectar cambios de covariables en características categóricas. Evalúa la asociación entre las variables categóricas que representan las distribuciones de entrenamiento y prueba comparando sus frecuencias observadas en una tabla de contingencia con las frecuencias esperadas bajo el supuesto de independencia. La prueba evalúa la hipótesis nula de que no existe una diferencia significativa entre las distribuciones de entrenamiento y prueba. Si se rechaza la hipótesis nula, sugiere la presencia de un cambio de covariable. La prueba de chi cuadrado es aplicable sólo para variables categóricas y requiere un tamaño de muestra suficiente y frecuencias mínimas esperadas en la tabla de contingencia.
Software para medir el cambio de covariables
- SciPy : SciPy es una biblioteca de código abierto para el lenguaje de programación Python , ampliamente utilizada para tareas de análisis de datos y computación científica. Proporciona herramientas para realizar pruebas estadísticas, como la prueba de Chi cuadrado y la prueba de Kolmogorov-Smirnov, y herramientas para calcular distancias y divergencias estadísticas, todas las cuales pueden utilizarse para detectar la presencia de cambios de covariables entre las distribuciones de entrenamiento y prueba.
- NannyML: una biblioteca Python de código abierto para el monitoreo de modelos que tiene funcionalidad para detectar derivas de distribución univariadas y multivariadas y estimar el rendimiento del modelo de aprendizaje automático sin etiquetas de verdad sobre el terreno. NannyML ofrece pruebas estadísticas, distancias estadísticas y divergencias.
Cambio covariable univariado versus multivariado
El cambio de covariables puede ocurrir de diferentes formas según la cantidad de características involucradas. El cambio covariable univariado implica que una sola característica experimente un cambio en la distribución, mientras que el cambio covariable multivariado puede implicar que múltiples características cambien simultáneamente o alteraciones en la estructura de correlación entre características.
Cambio covariable univariante
El cambio de covariable univariante ocurre cuando la distribución de una sola característica cambia entre los conjuntos de datos de entrenamiento y de prueba. Como involucra solo una dimensión, el cambio de covariable univariado es generalmente más sencillo de detectar y abordar en comparación con su contraparte multivariante. Las técnicas comunes para detectar cambios de covariables univariados incluyen distancias estadísticas como la distancia de Jensen-Shannon y la distancia de Wasserstein (movimiento de tierras) .
Cambio de covariable multivariado
El cambio de covariable multivariado surge cuando las distribuciones de múltiples características cambian simultáneamente entre los conjuntos de datos de entrenamiento y de prueba o cuando se altera la estructura de correlación entre características. El último caso, donde las distribuciones marginales de características individuales permanecen sin cambios pero las dependencias entre ellas cambian, puede ser particularmente difícil de detectar y manejar. En el cambio de covariables multivariado, la complejidad del cambio de distribución y las posibles interacciones entre características requieren técnicas de detección más avanzadas.
Para abordar el cambio de covariables multivariado, se pueden emplear técnicas como la discrepancia media máxima (MMD) con funciones del núcleo apropiadas que consideran las relaciones entre múltiples características.
Cambio de covariable interno
El término cambio de covariable interno se introdujo en " Normalización por lotes: acelerar el entrenamiento de red profunda reduciendo el cambio de covariable interno " . [9] El cambio de covariable interno ocurre cuando la distribución de las entradas de una capa oculta determinada en una red neuronal cambia debido a los parámetros de una capa anterior cambiando. Se plantea la hipótesis de que la normalización por lotes puede reducir el cambio de covariables internas, [9] sin embargo, esto es controvertido. [10]
Diferencia entre cambio de covariables y deriva de conceptos
El cambio de covariables y la deriva de conceptos son dos fenómenos relacionados pero distintos en el aprendizaje automático, y ambos implican cambios en la distribución de datos subyacentes. El cambio de covariables y la deriva de conceptos pueden ocurrir de forma independiente o simultánea, y ambos pueden afectar negativamente el rendimiento de los modelos de aprendizaje automático.
La principal diferencia entre el cambio de covariables y la deriva de conceptos es que el cambio de covariables se refiere a cambios en la distribución de las características de entrada entre los conjuntos de datos de entrenamiento y de prueba, mientras que la deriva de conceptos implica cambios en la relación entre las características de entrada y la variable objetivo a lo largo del tiempo. En el cambio de covariables, la relación subyacente entre las características y el objetivo permanece constante, mientras que, en la deriva de conceptos, esta relación en sí misma cambia debido a procesos en evolución o factores externos.
Ver también
Referencias
- ^ Huyen, Chip (7 de febrero de 2022). "Seguimiento y turnos de distribución de datos". Chip Huyen . Consultado el 27 de febrero de 2024 .
- ^ Sugiyama, Masashi; Kawanabe, Motoaki (30 de marzo de 2012). Aprendizaje automático en entornos no estacionarios: introducción a la adaptación al cambio de covariables. La prensa del MIT. doi : 10.7551/mitpress/9780262017091.003.0007. ISBN 978-0-262-01709-1.
- ^ Bábic, Boris; Cohen, I. Glenn; Evgeniou, Theodoros; Gerke, Sara (1 de enero de 2021). "Cuando el aprendizaje automático se descarrila". Revisión de negocios de Harvard . ISSN 0017-8012 . Consultado el 2 de marzo de 2024 .
- ^ Ataei, Erdogdu, Kocak, Ben-David, Saleh, Pesaranghader, Alberts-Scherer, Sanchez, Ghazi, Nguyen, Khayrat, Zhao. "Comprensión del cambio de conjunto de datos y posibles soluciones" (PDF) . Consultado el 2 de marzo de 2024 .
{{cite web}}
: Mantenimiento CS1: varios nombres: lista de autores ( enlace ) - ^ Y, Geeta Dharani.; Nair, Nimisha G; Satpatía, Pallavi; Christopher, Jabez (octubre de 2019). "Cambio de covariables: una revisión y análisis de clasificadores". Conferencia Mundial para el Avance de la Tecnología (GCAT) de 2019 . IEEE. págs. 1–6. doi :10.1109/GCAT47503.2019.8978471. ISBN 978-1-7281-3694-3. S2CID 211058700.
- ^ Quiñonero-Candela, Joaquín, ed. (2009). Cambio de conjunto de datos en el aprendizaje automático . Serie de procesamiento de información neuronal. Cambridge, Massachusetts: MIT Press. ISBN 978-0-262-17005-5.
- ^ Gretton, Arturo; Borgwardt, Karsten M.; Rasch, Malte JM; Scholkopf, Bernhard; Smola, Alejandro (2012). "Una prueba de dos muestras del kernel" (PDF) . La revista de investigación sobre aprendizaje automático . 13 : 723–773.
- ^ Rüschendorf, Ludger (1 de marzo de 1985). "Los teoremas de aproximación y distancia de Wasserstein". Teoría de la probabilidad y campos relacionados . 70 (1): 117-129. doi :10.1007/BF00532240. ISSN 1432-2064.
- ^ ab Ioffe, Sergey; Szegedy, Christian (2 de marzo de 2015), Normalización de lotes: aceleración del entrenamiento profundo de la red mediante la reducción del cambio de covariables interno , arXiv : 1502.03167
- ^ Santurkar, Shibani; Tsipras, Dimitris; Ilyas, Andrés; Madry, Aleksander (14 de abril de 2019), ¿Cómo ayuda la normalización por lotes a la optimización? , arXiv : 1805.11604
Categoría:Minería de datos Categoría:Aprendizaje automático Categoría:Análisis de datos