Cambio de propiedades estadísticas a lo largo del tiempo
En analítica predictiva , ciencia de datos , aprendizaje automático y campos relacionados, la deriva o deriva de concepto es una evolución de los datos que invalida el modelo de datos . Ocurre cuando las propiedades estadísticas de la variable objetivo, que el modelo está tratando de predecir, cambian con el tiempo de formas imprevistas. Esto causa problemas porque las predicciones se vuelven menos precisas a medida que pasa el tiempo. La detección de derivas y la adaptación a las derivas son de suma importancia en los campos que involucran datos y modelos de datos que cambian dinámicamente.
Decadencia del modelo predictivo
En el aprendizaje automático y el análisis predictivo, este fenómeno de desviación se denomina desviación conceptual. En el aprendizaje automático, un elemento común de un modelo de datos son las propiedades estadísticas, como la distribución de probabilidad de los datos reales. Si se desvían de las propiedades estadísticas del conjunto de datos de entrenamiento , las predicciones aprendidas pueden volverse inválidas si no se aborda la desviación. [1] [2] [3] [4]
Deterioro de la configuración de datos
Otro campo importante es la ingeniería de software , donde se pueden reconocer tres tipos de desviaciones de datos que afectan la fidelidad de los datos . Los cambios en el entorno del software ("desviación de la infraestructura") pueden invalidar la configuración de la infraestructura del software. La "desviación estructural" ocurre cuando cambia el esquema de datos , lo que puede invalidar las bases de datos. La "desviación semántica" son cambios en el significado de los datos mientras que la estructura no cambia. En muchos casos, esto puede suceder en aplicaciones complicadas cuando muchos desarrolladores independientes introducen cambios sin tener la conciencia adecuada de los efectos de sus cambios en otras áreas del sistema de software. [5] [6]
Para muchos sistemas de aplicación, la naturaleza de los datos en los que operan está sujeta a cambios por diversas razones, por ejemplo, debido a cambios en el modelo de negocio, actualizaciones del sistema o cambios en la plataforma en la que opera el sistema. [6]
En el caso de la computación en la nube , la desviación de la infraestructura que puede afectar las aplicaciones que se ejecutan en la nube puede ser causada por las actualizaciones del software de la nube. [5]
Existen varios tipos de efectos perjudiciales de la desviación de datos sobre la fidelidad de los mismos. La corrosión de datos consiste en pasar los datos desviados al sistema sin que se detecten. La pérdida de datos se produce cuando se ignoran datos válidos debido a que no se ajustan al esquema aplicado. El despilfarro es el fenómeno que se produce cuando se introducen nuevos campos de datos antes del proceso de procesamiento de datos, pero en algún punto del proceso faltan esos campos de datos. [6]
Datos inconsistentes
La "desviación de datos" puede referirse al fenómeno en el que los registros de una base de datos no coinciden con los datos del mundo real debido a los cambios que estos últimos experimentan a lo largo del tiempo. Este es un problema común en las bases de datos que involucran a personas, como clientes, empleados, ciudadanos, residentes, etc. La desviación de datos humanos puede ser causada por cambios no registrados en los datos personales, como el lugar de residencia o el nombre, así como por errores durante la entrada de datos. [7]
El término "desviación de datos" también puede referirse a la inconsistencia de los elementos de datos entre varias réplicas de una base de datos. Las razones pueden ser difíciles de identificar. Una forma sencilla de detectar la desviación es ejecutar la suma de comprobación con regularidad. Sin embargo, la solución puede no ser tan sencilla. [8]
Ejemplos
El comportamiento de los clientes en una tienda en línea puede cambiar con el tiempo. Por ejemplo, si se deben predecir las ventas semanales de mercancías y se ha desarrollado un modelo predictivo que funciona satisfactoriamente, el modelo puede utilizar datos como la cantidad de dinero gastado en publicidad , las promociones que se están realizando y otras métricas que pueden afectar las ventas. Es probable que el modelo se vuelva cada vez menos preciso con el tiempo: esto es una desviación de concepto. En la aplicación de ventas de mercancías, una razón para la desviación de concepto puede ser la estacionalidad, lo que significa que el comportamiento de compra cambia estacionalmente. Tal vez haya mayores ventas en la temporada de vacaciones de invierno que durante el verano, por ejemplo. La desviación de concepto generalmente ocurre cuando las covariables que componen el conjunto de datos comienzan a explicar la variación de su conjunto objetivo con menos precisión: puede haber algunas variables de confusión que hayan surgido y que simplemente no se pueden tener en cuenta, lo que hace que la precisión del modelo disminuya progresivamente con el tiempo. Generalmente, se recomienda realizar controles de estado como parte del análisis posterior a la producción y volver a entrenar el modelo con nuevas suposiciones ante signos de desviación de concepto.
Posibles soluciones
Para evitar el deterioro de la precisión de la predicción debido a la desviación del concepto, se pueden adoptar soluciones reactivas y de seguimiento . Las soluciones reactivas vuelven a entrenar el modelo en reacción a un mecanismo de activación, como una prueba de detección de cambios, [9] [10] para detectar explícitamente la desviación del concepto como un cambio en las estadísticas del proceso de generación de datos. Cuando se detecta una desviación del concepto, el modelo actual ya no está actualizado y debe reemplazarse por uno nuevo para restaurar la precisión de la predicción. [11] [12] Una deficiencia de los enfoques reactivos es que el rendimiento puede decaer hasta que se detecte el cambio. Las soluciones de seguimiento buscan rastrear los cambios en el concepto actualizando continuamente el modelo. Los métodos para lograr esto incluyen el aprendizaje automático en línea , el reentrenamiento frecuente en las muestras observadas más recientemente, [13] y el mantenimiento de un conjunto de clasificadores donde un nuevo clasificador se entrena en el lote más reciente de ejemplos y reemplaza al clasificador más antiguo del conjunto. [14]
La información contextual, cuando está disponible, se puede utilizar para explicar mejor las causas de la desviación del concepto: por ejemplo, en la aplicación de predicción de ventas, la desviación del concepto se puede compensar añadiendo información sobre la temporada al modelo. Al proporcionar información sobre la época del año, es probable que la tasa de deterioro del modelo disminuya, pero es poco probable que la desviación del concepto se elimine por completo. Esto se debe a que el comportamiento de compra real no sigue ningún modelo estático y finito . En cualquier momento pueden surgir nuevos factores que influyan en el comportamiento de compra, la influencia de los factores conocidos o sus interacciones pueden cambiar.
No se puede evitar la desviación de conceptos en el caso de fenómenos complejos que no están regidos por leyes fijas de la naturaleza . Todos los procesos que surgen de la actividad humana, como los procesos socioeconómicos y los procesos biológicos , son propensos a experimentar una desviación de conceptos. Por lo tanto, es necesario un reentrenamiento periódico, también conocido como actualización, de cualquier modelo.
Véase también
Lectura adicional
Se han publicado muchos artículos que describen algoritmos para la detección de desviaciones conceptuales. Aquí solo se incluyen reseñas, encuestas y descripciones generales:
Reseñas
- Souza, VMA; Reis, DM; Maletzke, AG; Batista, GEAPA (2020). "Desafíos en la evaluación comparativa de algoritmos de aprendizaje en flujo con datos del mundo real". Minería de datos y descubrimiento de conocimiento . 34 (6): 1805–58. arXiv : 2005.00113 . doi :10.1007/s10618-020-00698-5. S2CID 218470010.
- Krawczyk, B.; Minku, LL; Gama, J.; Stefanowski, J.; Wozniak, M. (2017). "Aprendizaje conjunto para el análisis de flujo de datos: una encuesta". Fusión de información . 37 : 132-156. doi :10.1016/j.inffus.2017.02.004. hdl : 2381/39321 . S2CID 1372281.
- Dal Pozzolo, A.; Boracchi, G.; Caelen, O.; Alippi, C.; Bontempi, G. (2015). "Detección de fraudes con tarjetas de crédito y adaptación de conceptos con información supervisada retrasada" (PDF) . Conferencia conjunta internacional sobre redes neuronales (IJCNN) de 2015 . IEEE. págs. 1–8. doi :10.1109/IJCNN.2015.7280527. ISBN 978-1-4799-1960-4. Número de identificación del sujeto 3947699.
- Alippi, C. (2014). "Aprendizaje en entornos no estacionarios y en evolución". Inteligencia para sistemas integrados . Springer. págs. 211–247. doi :10.1007/978-3-319-05278-6_9. ISBN . 978-3-319-05278-6.
- Gama, J.; Žliobaitė, I.; Bifet, A.; Pechenizkiy, M.; Bouchachia, A. (1 de marzo de 2014), "Una encuesta sobre la adaptación a la deriva conceptual" (PDF) , ACM Computing Surveys , 46 (4): 1–37, doi :10.1145/2523813, ISSN 0360-0300, Zbl 1305.68141, Wikidata Q58204632
- Alippi, C.; Polikar, R. (enero de 2014). "Editorial invitada: aprendizaje en entornos no estacionarios y en evolución". IEEE Transactions on Neural Networks and Learning Systems . 25 (1): 9–11. doi :10.1109/TNNLS.2013.2283547. PMID 24806640. S2CID 16547472.
- Dal Pozzolo, A.; Caelen, O.; Le Borgne, YA; Waterschoot, S.; Bontempi, G. (2014). "Lecciones aprendidas en la detección de fraudes con tarjetas de crédito desde la perspectiva de un profesional" (PDF) . Sistemas expertos con aplicaciones . 41 (10): 4915–28. doi :10.1016/j.eswa.2014.02.026. S2CID 12656644.
- Jiang, J. (2008). "Una revisión de la literatura sobre la adaptación de los clasificadores estadísticos al dominio" (PDF) . Facultad de Informática y Sistemas de Información, Universidad de Gestión de Singapur.
- Kuncheva, LI (2008). "Conjuntos clasificadores para detectar cambios de concepto en datos de transmisión: descripción general y perspectivas" (PDF) . Actas del 2.º taller SUEMA 2008 (ECAI 2008) .
- Gaber, MM; Zaslavsky, A.; Krishnaswamy, S. (junio de 2005). "Minería de flujos de datos: una revisión" (PDF) . ACM SIGMOD Record . 34 (2): 18–26. doi :10.1145/1083784.1083789. S2CID 705946.
- Kuncheva, LI (2004). "Conjuntos clasificadores para entornos cambiantes" (PDF) . Sistemas de clasificación múltiple. MCS 2004. Apuntes de clase en informática. Vol. 3077. Springer. págs. 1–15. doi :10.1007/978-3-540-25966-4_1. ISBN . 978-3-540-25966-4.
- Tsymbal, A. (2004). El problema de la deriva conceptual: definiciones y trabajos relacionados (PDF) (Informe técnico). Dublín, Irlanda: Departamento de Ciencias de la Computación, Trinity College. TCD-CS-2004-15.
Enlaces externos
Software
- Frouros: una biblioteca Python de código abierto para la detección de desviaciones en sistemas de aprendizaje automático . [15]
- NannyML: una biblioteca Python de código abierto para detectar desviaciones de distribución univariadas y multivariadas y estimar el rendimiento del modelo de aprendizaje automático sin etiquetas de verdad fundamental.
- RapidMiner : anteriormente Yet Another Learning Environment (YALE): software gratuito de código abierto para descubrimiento de conocimiento, minería de datos y aprendizaje automático que también incluye minería de flujo de datos, aprendizaje de conceptos que varían con el tiempo y seguimiento de conceptos de deriva. Se utiliza en combinación con su complemento de minería de flujo de datos (anteriormente complemento de deriva de conceptos).
- EDDM (Método de detección de deriva temprana): implementación gratuita y de código abierto de métodos de detección de deriva en Weka .
- MOA (Massive Online Analysis) : software gratuito de código abierto específico para la minería de flujos de datos con deriva de conceptos. Contiene un método de evaluación precuencial, los métodos de deriva de conceptos EDDM, un lector de conjuntos de datos reales ARFF y generadores de flujos artificiales como conceptos SEA, STAGGER, hiperplano rotatorio, árbol aleatorio y funciones basadas en radio aleatorio. MOA admite la interacción bidireccional con Weka .
Conjuntos de datos
Real
- Repositorio de flujo de datos de la USP , 27 conjuntos de datos de flujo del mundo real con deriva conceptual compilados por Souza et al. (2020). Acceso
- Aerolínea , aproximadamente 116 millones de registros de llegadas y salidas de vuelos (limpiados y ordenados) recopilados por E. Ikonomovska. Referencia: Concurso Data Expo 2009 [1]. Acceso
- Conjuntos de datos de Chess.com (partidas en línea) y Luxembourg (encuesta social) compilados por I. Zliobaite. Acceso
- Dos conjuntos de datos de correo no deseado de ECUE, cada uno de los cuales consta de más de 10 000 correos electrónicos recopilados durante un período de aproximadamente dos años por una persona. Acceso desde la página web de SJDelany
- Elec2 , demanda de electricidad, 2 clases, 45.312 casos. Referencia: M. Harries, Splice-2 comparative evaluation: Electricity pricing, Technical report, The University of South Wales, 1999. Acceso desde la página web de J.Gama. Comentario sobre la aplicabilidad.
- Los datos del concurso PAKDD'09 representan la tarea de evaluación de créditos. Se recopilan durante un período de cinco años. Lamentablemente, las etiquetas reales solo se publican para la primera parte de los datos. Acceso
- Los conjuntos de datos de flujo de sensores y flujo de suministro de energía están disponibles en el repositorio de minería de datos de flujo de X. Zhu. Acceso
- SMEAR es un flujo de datos de referencia con muchos valores faltantes. Datos de observación del medio ambiente durante 7 años. Predicción de nubosidad. Acceso
- Minería de texto , una colección de conjuntos de datos de minería de texto con deriva conceptual, mantenida por I. Katakis. Acceso
- Conjunto de datos de desviación de matriz de sensores de gas , una colección de 13 910 mediciones de 16 sensores químicos utilizados para la compensación de desviación en una tarea de discriminación de 6 gases en varios niveles de concentración.
Otro
- Los datos de la competición KDD'99 contienen intrusiones simuladas en un entorno de red militar. A menudo se utilizan como punto de referencia para evaluar la gestión de la desviación del concepto.
Sintético
- Punto de referencia de latencia de verificación extrema Souza, VMA; Silva, DF; Gama, J.; Batista, GEAPA (2015). "Clasificación de flujo de datos guiada por agrupamiento en entornos no estacionarios y latencia de verificación extrema". Actas de la Conferencia internacional SIAM de 2015 sobre minería de datos (SDM). SIAM. pp. 873–881. doi :10.1137/1.9781611974010.98. ISBN 9781611974010.S2CID19198944 .Acceso desde entornos no estacionarios – Archivo.
- Conjuntos de datos seno, línea, plano, círculo y booleano Minku, LL; Yao, X. (2010). "El impacto de la diversidad en el aprendizaje conjunto en línea en presencia de deriva conceptual" (PDF) . IEEE Transactions on Knowledge and Data Engineering . 22 (5): 730–742. doi :10.1109/TKDE.2009.156. S2CID 16592739.Acceso desde la página web de L.Minku.
- Conceptos de SEA Street, NW; Kim, Y. (2001). "Un algoritmo de conjunto de transmisión (SEA) para la clasificación a gran escala" (PDF) . KDD'01: Actas de la séptima conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos . págs. 377–382. doi :10.1145/502512.502568. ISBN . 978-1-58113-391-2.S2CID11868540 .Acceso desde la página web de J.Gama.
- STAGGER Schlimmer, JC; Granger, RH (1986). "Aprendizaje incremental a partir de datos ruidosos". Mach. Learn . 1 (3): 317–354. doi : 10.1007/BF00116895 . S2CID 33776987.
- Gama, J.; Medas, P.; Castillo, G.; Rodrigues, P. (2004). "Aprendizaje con detección de deriva". Simposio brasileño sobre inteligencia artificial . Springer. pp. 286–295. doi :10.1007/978-3-540-28645-5_29. ISBN . 978-3-540-28645-5.S2CID2606652 .
Marcos de generación de datos
- Minku, White & Yao 2010 Descargar desde la página web de L.Minku.
- Lindstrom, P.; Delany, SJ; MacNamee, B. (2008). "Piloto automático: simulación de conceptos cambiantes en datos reales" (PDF) . Actas de la 19.ª Conferencia irlandesa sobre inteligencia artificial y ciencia cognitiva . pp. 272–263.
- Narasimhamurthy, A.; Kuncheva, LI (2007). "Un marco para generar datos para simular entornos cambiantes". AIAP'07: Actas de la 25.ª Multiconferencia Internacional IASTED: inteligencia artificial y aplicaciones . pp. 384–389.Código
Proyectos
- INFER: Plataforma de inteligencia computacional para sistemas predictivos robustos y en evolución (2010-2014), Universidad de Bournemouth (Reino Unido), Evonik Industries (Alemania), Centro de investigación e ingeniería (Polonia)
- HaCDAIS: Manejo de la deriva conceptual en sistemas de información adaptativos (2008-2012), Universidad Tecnológica de Eindhoven (Países Bajos)
- KDUS: Descubrimiento de conocimiento a partir de flujos ubicuos, INESC Porto y Laboratorio de Inteligencia Artificial y Soporte de Decisiones (Portugal)
- ADEPT: Técnicas de predicción de conjuntos dinámicos adaptativos, Universidad de Manchester (Reino Unido), Universidad de Bristol (Reino Unido)
- ALADDIN: agentes de aprendizaje autónomos para redes descentralizadas de datos e información (2005-2010)
- GAENARI: Algoritmo de árbol de decisión incremental en C++. Minimiza el daño por deriva de conceptos. (2022)
Puntos de referencia
- NAB: Numenta Anomaly Benchmark, punto de referencia para evaluar algoritmos de detección de anomalías en aplicaciones de streaming en tiempo real (2014-2018)
Reuniones
- 2014
- [] Sesión especial sobre "Desviación de conceptos, adaptación de dominios y aprendizaje en entornos dinámicos" @IEEE IJCNN 2014
- 2013
- Taller-discusión sobre desafíos del mundo real para la minería de flujo de datos en la ECML PKDD 2013, Praga, República Checa.
- LEAPS 2013 El 1er Taller Internacional sobre Estrategias de Aprendizaje y Procesamiento de Datos en Entornos No Estacionarios
- 2011
- Sesión especial LEE 2011 sobre aprendizaje en entornos en evolución y su aplicación en problemas del mundo real en ICMLA'11
- HaCDAIS 2011 El segundo taller internacional sobre el manejo de la deriva conceptual en los sistemas de información adaptativos
- Curso ICAIS 2011 sobre aprendizaje incremental
- Sesión especial de la IJCNN 2011 sobre la deriva conceptual y los entornos dinámicos de aprendizaje
- Simposio CIDUE 2011 sobre Inteligencia Computacional en Entornos Dinámicos e Inciertos
- 2010
- Taller internacional HaCDAIS 2010 sobre el manejo de la desviación de conceptos en los sistemas de información adaptativos: importancia, desafíos y soluciones
- Sesión especial de ICMLA10 sobre aprendizaje dinámico en entornos no estacionarios
- Sesión de flujos de datos del SAC 2010 en el Simposio ACM sobre informática aplicada
- Taller internacional SensorKDD 2010 sobre descubrimiento de conocimiento a partir de datos de sensores
- StreamKDD 2010: nuevas técnicas de minería de patrones de flujo de datos
- Deriva conceptual y aprendizaje en entornos no estacionarios en el Congreso Mundial IEEE sobre Inteligencia Computacional
- Sesión especial de MLMDS'2010 sobre métodos de aprendizaje automático para flujos de datos en la 10.ª Conferencia internacional sobre diseño inteligente y aplicaciones, ISDA'10
Referencias
- ^ Koggalahewa, Darshika; Xu, Yue; Foo, Ernest (2021). "Un enfoque basado en pruebas jerárquicas que tienen en cuenta la deriva para combatir a los spammers sociales en las redes sociales en línea". Minería de datos . Comunicaciones en informática y ciencias de la información. Vol. 1504. págs. 47–61. doi :10.1007/978-981-16-8531-6_4. ISBN 978-981-16-8530-9. Número de identificación del sujeto 245009299.
- ^ Widmer, Gerhard; Kubat, Miroslav (1996). "Aprendizaje en presencia de deriva conceptual y contextos ocultos". Aprendizaje automático . 23 : 69–101. doi : 10.1007/BF00116900 . S2CID 206767784.
- ^ Xia, Yuan; Zhao, Yunlong (2020). "Un método de detección de deriva basado en la medida de diversidad y la desigualdad de McDiarmid en flujos de datos". Computación ecológica, generalizada y en la nube . Apuntes de clase en informática. Vol. 12398. págs. 115–122. doi :10.1007/978-3-030-64243-3_9. ISBN 978-3-030-64242-6. Número de identificación del sujeto 227275380.
- ^ Lu, Jie; Liu, Anjin; Dong, Fan; Gu, Feng; Gama, Joao; Zhang, Guangquan (2018). "Aprendizaje bajo deriva conceptual: una revisión". IEEE Transactions on Knowledge and Data Engineering : 1. arXiv : 2004.05785 . doi :10.1109/TKDE.2018.2876857. S2CID 69449458.
- ^ ab "Driftctl y Terraform, ¡son exactamente iguales!"
- ^ abc Girish Pancha, El flagelo oculto del Big Data: la deriva de los datos, CMSWire , 8 de abril de 2016
- ^ Matthew Magne, "Los datos se desvían: 7 problemas molestos con los datos de las personas", InformationWeek , 19 de julio de 2017
- ^ Daniel Nichter, Rendimiento eficiente de MySQL , 2021, ISBN 1098105060 , p. 299
- ^ Basseville, Michele (1993). Detección de cambios abruptos: teoría y aplicación. Prentice Hall. ISBN 0-13-126780-9.OCLC 876004326 .
- ^ Alippi, C.; Roveri, M. (2007). "Clasificadores adaptativos en condiciones estacionarias". Conferencia conjunta internacional sobre redes neuronales de 2007. IEEE. págs. 1008–13. doi :10.1109/ijcnn.2007.4371096. ISBN. 978-1-4244-1380-5.S2CID16255206 .
- ^ Gama, J.; Medas, P.; Castillo, G.; Rodrigues, P. (2004). "Aprendizaje con detección de deriva". Avances en Inteligencia Artificial – SBIA 2004 . Saltador. págs. 286–295. doi :10.1007/978-3-540-28645-5_29. ISBN 978-3-540-28645-5.S2CID2606652 .
- ^ Alippi, C.; Boracchi, G.; Roveri, M. (2011). "Un sistema de clasificación adaptativo justo a tiempo basado en la regla de intersección de intervalos de confianza". Redes neuronales . 24 (8): 791–800. doi :10.1016/j.neunet.2011.05.012. PMID 21723706.
- ^ Widmer, G.; Kubat, M. (1996). "Aprendizaje en presencia de deriva conceptual y contextos ocultos". Aprendizaje automático . 23 (1): 69–101. doi : 10.1007/bf00116900 . S2CID 206767784.
- ^ Elwell, R.; Polikar, R. (2011). "Aprendizaje incremental de la deriva de conceptos en entornos no estacionarios". IEEE Transactions on Neural Networks . 22 (10): 1517–31. doi :10.1109/tnn.2011.2160459. PMID 21824845. S2CID 9136731.
- ^ Céspedes Sisniega, Jaime; López García, Álvaro (2024). "Frouros: una biblioteca Python de código abierto para la detección de derivas en sistemas de aprendizaje automático" (PDF) . SoftwareX . 26 . Elsevier: 101733. doi : 10.1016/j.softx.2024.101733 . hdl : 10261/358367 .