stringtranslate.com

Deriva conceptual

En analítica predictiva , ciencia de datos , aprendizaje automático y campos relacionados, la deriva o deriva de concepto es una evolución de los datos que invalida el modelo de datos . Ocurre cuando las propiedades estadísticas de la variable objetivo, que el modelo está tratando de predecir, cambian con el tiempo de formas imprevistas. Esto causa problemas porque las predicciones se vuelven menos precisas a medida que pasa el tiempo. La detección de derivas y la adaptación a las derivas son de suma importancia en los campos que involucran datos y modelos de datos que cambian dinámicamente.

Decadencia del modelo predictivo

En el aprendizaje automático y el análisis predictivo, este fenómeno de desviación se denomina desviación conceptual. En el aprendizaje automático, un elemento común de un modelo de datos son las propiedades estadísticas, como la distribución de probabilidad de los datos reales. Si se desvían de las propiedades estadísticas del conjunto de datos de entrenamiento , las predicciones aprendidas pueden volverse inválidas si no se aborda la desviación. [1] [2] [3] [4]

Deterioro de la configuración de datos

Otro campo importante es la ingeniería de software , donde se pueden reconocer tres tipos de desviaciones de datos que afectan la fidelidad de los datos . Los cambios en el entorno del software ("desviación de la infraestructura") pueden invalidar la configuración de la infraestructura del software. La "desviación estructural" ocurre cuando cambia el esquema de datos , lo que puede invalidar las bases de datos. La "desviación semántica" son cambios en el significado de los datos mientras que la estructura no cambia. En muchos casos, esto puede suceder en aplicaciones complicadas cuando muchos desarrolladores independientes introducen cambios sin tener la conciencia adecuada de los efectos de sus cambios en otras áreas del sistema de software. [5] [6]

Para muchos sistemas de aplicación, la naturaleza de los datos en los que operan está sujeta a cambios por diversas razones, por ejemplo, debido a cambios en el modelo de negocio, actualizaciones del sistema o cambios en la plataforma en la que opera el sistema. [6]

En el caso de la computación en la nube , la desviación de la infraestructura que puede afectar las aplicaciones que se ejecutan en la nube puede ser causada por las actualizaciones del software de la nube. [5]

Existen varios tipos de efectos perjudiciales de la desviación de datos sobre la fidelidad de los mismos. La corrosión de datos consiste en pasar los datos desviados al sistema sin que se detecten. La pérdida de datos se produce cuando se ignoran datos válidos debido a que no se ajustan al esquema aplicado. El despilfarro es el fenómeno que se produce cuando se introducen nuevos campos de datos antes del proceso de procesamiento de datos, pero en algún punto del proceso faltan esos campos de datos. [6]

Datos inconsistentes

La "desviación de datos" puede referirse al fenómeno en el que los registros de una base de datos no coinciden con los datos del mundo real debido a los cambios que estos últimos experimentan a lo largo del tiempo. Este es un problema común en las bases de datos que involucran a personas, como clientes, empleados, ciudadanos, residentes, etc. La desviación de datos humanos puede ser causada por cambios no registrados en los datos personales, como el lugar de residencia o el nombre, así como por errores durante la entrada de datos. [7]

El término "desviación de datos" también puede referirse a la inconsistencia de los elementos de datos entre varias réplicas de una base de datos. Las razones pueden ser difíciles de identificar. Una forma sencilla de detectar la desviación es ejecutar la suma de comprobación con regularidad. Sin embargo, la solución puede no ser tan sencilla. [8]

Ejemplos

El comportamiento de los clientes en una tienda en línea puede cambiar con el tiempo. Por ejemplo, si se deben predecir las ventas semanales de mercancías y se ha desarrollado un modelo predictivo que funciona satisfactoriamente, el modelo puede utilizar datos como la cantidad de dinero gastado en publicidad , las promociones que se están realizando y otras métricas que pueden afectar las ventas. Es probable que el modelo se vuelva cada vez menos preciso con el tiempo: esto es una desviación de concepto. En la aplicación de ventas de mercancías, una razón para la desviación de concepto puede ser la estacionalidad, lo que significa que el comportamiento de compra cambia estacionalmente. Tal vez haya mayores ventas en la temporada de vacaciones de invierno que durante el verano, por ejemplo. La desviación de concepto generalmente ocurre cuando las covariables que componen el conjunto de datos comienzan a explicar la variación de su conjunto objetivo con menos precisión: puede haber algunas variables de confusión que hayan surgido y que simplemente no se pueden tener en cuenta, lo que hace que la precisión del modelo disminuya progresivamente con el tiempo. Generalmente, se recomienda realizar controles de estado como parte del análisis posterior a la producción y volver a entrenar el modelo con nuevas suposiciones ante signos de desviación de concepto.

Posibles soluciones

Para evitar el deterioro de la precisión de la predicción debido a la desviación del concepto, se pueden adoptar soluciones reactivas y de seguimiento . Las soluciones reactivas vuelven a entrenar el modelo en reacción a un mecanismo de activación, como una prueba de detección de cambios, [9] [10] para detectar explícitamente la desviación del concepto como un cambio en las estadísticas del proceso de generación de datos. Cuando se detecta una desviación del concepto, el modelo actual ya no está actualizado y debe reemplazarse por uno nuevo para restaurar la precisión de la predicción. [11] [12] Una deficiencia de los enfoques reactivos es que el rendimiento puede decaer hasta que se detecte el cambio. Las soluciones de seguimiento buscan rastrear los cambios en el concepto actualizando continuamente el modelo. Los métodos para lograr esto incluyen el aprendizaje automático en línea , el reentrenamiento frecuente en las muestras observadas más recientemente, [13] y el mantenimiento de un conjunto de clasificadores donde un nuevo clasificador se entrena en el lote más reciente de ejemplos y reemplaza al clasificador más antiguo del conjunto. [14]

La información contextual, cuando está disponible, se puede utilizar para explicar mejor las causas de la desviación del concepto: por ejemplo, en la aplicación de predicción de ventas, la desviación del concepto se puede compensar añadiendo información sobre la temporada al modelo. Al proporcionar información sobre la época del año, es probable que la tasa de deterioro del modelo disminuya, pero es poco probable que la desviación del concepto se elimine por completo. Esto se debe a que el comportamiento de compra real no sigue ningún modelo estático y finito . En cualquier momento pueden surgir nuevos factores que influyan en el comportamiento de compra, la influencia de los factores conocidos o sus interacciones pueden cambiar.

No se puede evitar la desviación de conceptos en el caso de fenómenos complejos que no están regidos por leyes fijas de la naturaleza . Todos los procesos que surgen de la actividad humana, como los procesos socioeconómicos y los procesos biológicos , son propensos a experimentar una desviación de conceptos. Por lo tanto, es necesario un reentrenamiento periódico, también conocido como actualización, de cualquier modelo.

Véase también

Lectura adicional

Se han publicado muchos artículos que describen algoritmos para la detección de desviaciones conceptuales. Aquí solo se incluyen reseñas, encuestas y descripciones generales:

Reseñas

Enlaces externos

Software

Conjuntos de datos

Real

Otro

Sintético

Marcos de generación de datos

Proyectos

Puntos de referencia

Reuniones

Referencias

  1. ^ Koggalahewa, Darshika; Xu, Yue; Foo, Ernest (2021). "Un enfoque basado en pruebas jerárquicas que tienen en cuenta la deriva para combatir a los spammers sociales en las redes sociales en línea". Minería de datos . Comunicaciones en informática y ciencias de la información. Vol. 1504. págs. 47–61. doi :10.1007/978-981-16-8531-6_4. ISBN 978-981-16-8530-9. Número de identificación del sujeto  245009299.
  2. ^ Widmer, Gerhard; Kubat, Miroslav (1996). "Aprendizaje en presencia de deriva conceptual y contextos ocultos". Aprendizaje automático . 23 : 69–101. doi : 10.1007/BF00116900 . S2CID  206767784.
  3. ^ Xia, Yuan; Zhao, Yunlong (2020). "Un método de detección de deriva basado en la medida de diversidad y la desigualdad de McDiarmid en flujos de datos". Computación ecológica, generalizada y en la nube . Apuntes de clase en informática. Vol. 12398. págs. 115–122. doi :10.1007/978-3-030-64243-3_9. ISBN 978-3-030-64242-6. Número de identificación del sujeto  227275380.
  4. ^ Lu, Jie; Liu, Anjin; Dong, Fan; Gu, Feng; Gama, Joao; Zhang, Guangquan (2018). "Aprendizaje bajo deriva conceptual: una revisión". IEEE Transactions on Knowledge and Data Engineering : 1. arXiv : 2004.05785 . doi :10.1109/TKDE.2018.2876857. S2CID  69449458.
  5. ^ ab "Driftctl y Terraform, ¡son exactamente iguales!"
  6. ^ abc Girish Pancha, El flagelo oculto del Big Data: la deriva de los datos, CMSWire , 8 de abril de 2016
  7. ^ Matthew Magne, "Los datos se desvían: 7 problemas molestos con los datos de las personas", InformationWeek , 19 de julio de 2017
  8. ^ Daniel Nichter, Rendimiento eficiente de MySQL , 2021, ISBN 1098105060 , p. 299 
  9. ^ Basseville, Michele (1993). Detección de cambios abruptos: teoría y aplicación. Prentice Hall. ISBN 0-13-126780-9.OCLC 876004326  .
  10. ^ Alippi, C.; Roveri, M. (2007). "Clasificadores adaptativos en condiciones estacionarias". Conferencia conjunta internacional sobre redes neuronales de 2007. IEEE. págs. 1008–13. doi :10.1109/ijcnn.2007.4371096. ISBN. 978-1-4244-1380-5.S2CID16255206  .​
  11. ^ Gama, J.; Medas, P.; Castillo, G.; Rodrigues, P. (2004). "Aprendizaje con detección de deriva". Avances en Inteligencia Artificial – SBIA 2004 . Saltador. págs. 286–295. doi :10.1007/978-3-540-28645-5_29. ISBN 978-3-540-28645-5.S2CID2606652  .​
  12. ^ Alippi, C.; Boracchi, G.; Roveri, M. (2011). "Un sistema de clasificación adaptativo justo a tiempo basado en la regla de intersección de intervalos de confianza". Redes neuronales . 24 (8): 791–800. doi :10.1016/j.neunet.2011.05.012. PMID  21723706.
  13. ^ Widmer, G.; Kubat, M. (1996). "Aprendizaje en presencia de deriva conceptual y contextos ocultos". Aprendizaje automático . 23 (1): 69–101. doi : 10.1007/bf00116900 . S2CID  206767784.
  14. ^ Elwell, R.; Polikar, R. (2011). "Aprendizaje incremental de la deriva de conceptos en entornos no estacionarios". IEEE Transactions on Neural Networks . 22 (10): 1517–31. doi :10.1109/tnn.2011.2160459. PMID  21824845. S2CID  9136731.
  15. ^ Céspedes Sisniega, Jaime; López García, Álvaro (2024). "Frouros: una biblioteca Python de código abierto para la detección de derivas en sistemas de aprendizaje automático" (PDF) . SoftwareX . 26 . Elsevier: 101733. doi : 10.1016/j.softx.2024.101733 . hdl : 10261/358367 .