La minería de flujo de datos (también conocida como aprendizaje de flujo ) es el proceso de extracción de estructuras de conocimiento a partir de registros de datos continuos y rápidos. Un flujo de datos es una secuencia ordenada de instancias que, en muchas aplicaciones de minería de flujo de datos, se puede leer solo una vez o una pequeña cantidad de veces utilizando capacidades de computación y almacenamiento limitadas. [1]
En muchas aplicaciones de minería de flujo de datos, el objetivo es predecir la clase o el valor de nuevas instancias en el flujo de datos dado algún conocimiento sobre la membresía de clase o los valores de instancias anteriores en el flujo de datos. [2]
Las técnicas de aprendizaje automático se pueden utilizar para aprender esta tarea de predicción a partir de ejemplos etiquetados de manera automatizada. A menudo, los conceptos del campo del aprendizaje incremental se aplican para hacer frente a los cambios estructurales, el aprendizaje en línea y las demandas en tiempo real. En muchas aplicaciones, especialmente las que operan en entornos no estacionarios, la distribución subyacente a las instancias o las reglas subyacentes a su etiquetado pueden cambiar con el tiempo, es decir, el objetivo de la predicción, la clase a predecir o el valor objetivo a predecir, pueden cambiar con el tiempo. [3] Este problema se conoce como deriva de concepto . Detectar la deriva de concepto es un tema central para la minería de flujo de datos. [4] [5] Otros desafíos [6] que surgen al aplicar el aprendizaje automático a la transmisión de datos incluyen: datos etiquetados parcialmente y retrasados, [7] [8] recuperación de las derivas de concepto, [1] y dependencias temporales. [9]
Entre los ejemplos de flujos de datos se incluyen el tráfico de redes informáticas, las conversaciones telefónicas, las transacciones en cajeros automáticos, las búsquedas web y los datos de sensores. La minería de flujos de datos puede considerarse un subcampo de la minería de datos , el aprendizaje automático y el descubrimiento de conocimientos .
Software para minería de flujo de datos
- MOA (Massive Online Analysis) : software libre de código abierto específico para la minería de flujos de datos con deriva de conceptos desarrollado en Java. Tiene varios algoritmos de aprendizaje automático ( clasificación , regresión , agrupamiento , detección de valores atípicos y sistemas de recomendación). Además, contiene un método de evaluación precuencial, los métodos de deriva de conceptos EDDM, un lector de conjuntos de datos reales ARFF y generadores de flujos artificiales como conceptos SEA, STAGGER, hiperplano rotatorio, árbol aleatorio y funciones basadas en radio aleatorio. MOA admite la interacción bidireccional con Weka (aprendizaje automático) . [ cita requerida ]
- scikit-multiflow : un marco de aprendizaje automático para datos de múltiples salidas/etiquetas y de flujo implementado en Python. [10] scikit-multiflow contiene generadores de flujo, métodos de aprendizaje de flujo para un solo objetivo y múltiples objetivos, detectores de deriva de conceptos, métodos de evaluación y visualización. (Este software está descontinuado) [11]
- StreamDM: StreamDM es un marco de código abierto para la minería de flujo de big data que utiliza la extensión Spark Streaming [12] de la API central de Spark. Una ventaja de StreamDM en comparación con los marcos existentes es que se beneficia directamente de la API Spark Streaming, que maneja gran parte de los problemas complejos de las fuentes de datos subyacentes, como datos fuera de servicio y recuperación de fallas.
- RapidMiner : software comercial para descubrimiento de conocimiento, minería de datos y aprendizaje automático que también incluye minería de flujo de datos, aprendizaje de conceptos que varían con el tiempo y seguimiento de conceptos de deriva (si se usa en combinación con su complemento de minería de flujo de datos (anteriormente: complemento Concept Drift))
- RiverML: River es una biblioteca de Python para el aprendizaje automático en línea. Es el resultado de una fusión entre creme y scikit-multiflow. La ambición de River es ser la biblioteca de referencia para el aprendizaje automático en datos en streaming. [13]
- GAENARI: árbol de decisiones incremental de C++. Ejecuta continuamente inserciones y actualizaciones de conjuntos de datos fragmentados. Reconstruye el soporte para problemas de deriva de conceptos.
Eventos
- Taller internacional sobre minería de datos ubicua Archivado 2013-02-23 en Wayback Machine celebrado conjuntamente con la Conferencia Internacional Conjunta sobre Inteligencia Artificial (IJCAI) en Beijing, China, del 3 al 5 de agosto de 2013.
- Taller internacional sobre descubrimiento de conocimiento a partir de flujos de datos ubicuos Archivado 2012-02-16 en Wayback Machine celebrado conjuntamente con la 18ª Conferencia Europea sobre Aprendizaje Automático (ECML) y la 11ª Conferencia Europea sobre Principios y Prácticas de Descubrimiento de Conocimiento en Bases de Datos (PKDD) en Varsovia, Polonia, en septiembre de 2007.
- El Simposio ACM sobre Flujos de Datos de Computación Aplicada se llevó a cabo conjuntamente con el Simposio ACM 2007 sobre Computación Aplicada (SAC-2007) en Seúl , Corea , en marzo de 2007.
- Taller internacional IEEE sobre minería de datos en evolución y transmisión (IWMESD 2006) que se llevará a cabo conjuntamente con la Conferencia internacional IEEE 2006 sobre minería de datos (ICDM-2006) en Hong Kong en diciembre de 2006.
- Cuarto Taller Internacional sobre Descubrimiento de Conocimiento a Partir de Flujos de Datos (IWKDDS) que se celebrará conjuntamente con la 17ª Conferencia Europea sobre Aprendizaje Automático (ECML) y la 10ª Conferencia Europea sobre Principios y Prácticas de Descubrimiento de Conocimiento en Bases de Datos (PKDD) (ECML/PKDD-2006) en Berlín , Alemania , en septiembre de 2006.
Véase también
Libros
- Bifet, Albert; Gavaldà, Ricard; Holmes, Geoff; Pfahringer, Bernhard (2018). Aprendizaje automático para flujos de datos con ejemplos prácticos en MOA. Computación adaptativa y aprendizaje automático. MIT Press. pág. 288. ISBN 9780262037792.
- Gama, João; Gaber, Mohamed Medhat, eds. (2007). Aprendizaje a partir de flujos de datos: técnicas de procesamiento en redes de sensores. Springer. p. 244. doi :10.1007/3-540-73679-4. ISBN 9783540736783.
- Ganguly, Auroop R.; Gama, João; Omitaomu, Olufemi A.; Gaber, Mohamed M.; Vatsavai, Ranga R., eds. (2008). Descubrimiento de conocimiento a partir de datos de sensores. Innovación industrial. CRC Press. p. 215. ISBN 9781420082326.
- Gama, João (2010). Descubrimiento de conocimiento a partir de flujos de datos. Minería de datos y descubrimiento de conocimiento. Chapman y Hall. p. 255. ISBN 9781439826119.
- Lughofer, Edwin (2011). Evolución de sistemas difusos: metodologías, conceptos avanzados y aplicaciones. Estudios sobre borrosidad y computación blanda. Vol. 266. Heidelberg: Springer. p. 456. doi :10.1007/978-3-642-18087-3. ISBN 9783642180866.
- Sayed-Mouchaweh, Moamar; Lughofer, Edwin, eds. (2012). Aprendizaje en entornos no estacionarios: métodos y aplicaciones. Nueva York: Springer. p. 440. CiteSeerX 10.1.1.709.437 . doi :10.1007/978-1-4419-8020-5. ISBN . 9781441980199.
Referencias
- ^ ab Gomes, Heitor M.; Bifet, Albert; Read, Jesse; Barddal, Jean Paul; Enembreck, Fabrício; Pfharinger, Bernhard; Holmes, Geoff; Abdessalem, Talel (1 de octubre de 2017). "Bosques aleatorios adaptativos para la evolución de la clasificación de flujos de datos". Aprendizaje automático . 106 (9): 1469–1495. doi : 10.1007/s10994-017-5642-8 . hdl : 10289/11231 . ISSN 1573-0565.
- ^ Medhat, Mohamed; Zaslavsky; Krishnaswamy (1 de junio de 2005). "Minería de flujos de datos". ACM SIGMOD Record . 34 (2): 18–26. doi :10.1145/1083784.1083789. S2CID 705946.
- ^ Lemaire, Vincent; Salperwyck, Christophe; Bondu, Alexis (2015), Zimányi, Esteban; Kutsche, Ralf-Detlef (eds.), "A Survey on Supervised Classification on Data Streams", Business Intelligence: 4th European Summer School, eBISS 2014, Berlín, Alemania, 6 al 11 de julio de 2014, Tutorial Lectures , Lecture Notes in Business Information Processing, Springer International Publishing, págs. 88-125, doi :10.1007/978-3-319-17551-5_4, ISBN 978-3-319-17551-5
- ^ Webb, Geoffrey I.; Lee, Loong Kuan; Petitjean, François; Goethals, Bart (2 de abril de 2017). "Entender la deriva conceptual". arXiv : 1704.00362 [cs.LG].
- ^ Gama, João; Žliobaitė; Bifet; Pechenizkiy; Bouchachia (1 de marzo de 2014). "Una encuesta sobre la adaptación a la deriva conceptual" (PDF) . ACM Computing Surveys . 46 (4): 1–37. doi :10.1145/2523813. S2CID 207208264.
- ^ Gomes, Heitor Murilo; Read; Bifet; Barddal; Gama (26 de noviembre de 2019). "Aprendizaje automático para transmisión de datos". Boletín de exploraciones de ACM SIGKDD . 21 (2): 6–22. doi :10.1145/3373464.3373470. S2CID 208607941.
- ^ Gomes, Heitor Murilo; Grzenda, Maciej; Mello, Rodrigo; Read, Jesse; Le Nguyen, Minh Huong; Bifet, Albert (28 de febrero de 2022). "Una encuesta sobre aprendizaje semisupervisado para flujos de datos parcialmente etiquetados con retraso". Encuestas de computación de ACM . 55 (4): 1–42. arXiv : 2106.09170 . doi : 10.1145/3523055 . ISSN 0360-0300.
- ^ Grzenda, Maciej; Gomes, Heitor Murilo; Bifet, Albert (16 de noviembre de 2019). "Evaluación de etiquetado retardado para flujos de datos". Minería de datos y descubrimiento de conocimiento . 34 (5): 1237–1266. doi : 10.1007/s10618-019-00654-y . ISSN 1573-756X.
- ^ Žliobaitė, Indrė; Bifet, Albert; Read, Jesse; Pfahringer, Bernhard; Holmes, Geoff (1 de marzo de 2015). "Métodos de evaluación y teoría de decisiones para la clasificación de datos en streaming con dependencia temporal". Aprendizaje automático . 98 (3): 455–482. doi : 10.1007/s10994-014-5441-4 . hdl : 10289/8954 . ISSN 1573-0565.
- ^ Montiel, Jacob; Read, Jesse; Bifet, Albert; Abdessalem, Talel (2018). "Scikit-Multiflow: un marco de transmisión de múltiples salidas". Revista de investigación en aprendizaje automático . 19 (72): 1–5. arXiv : 1807.04662 . Código Bibliográfico :2018arXiv180704662M. ISSN 1533-7928.
- ^ Características, scikit-multiflow, 2021-10-09 , consultado el 2021-10-11
- ^ Zaharia, Matei; Das, Tathagata; Li, Haoyuan; Hunter, Timothy; Shenker, Scott; Stoica, Ion (2013). "Flujos discretizados". Actas del vigésimo cuarto simposio de la ACM sobre principios de sistemas operativos . Nueva York, Nueva York, EE. UU.: ACM Press. págs. 423–438. doi : 10.1145/2517349.2522737 . ISBN . 978-1-4503-2388-8.
- ^ online-ml/river, OnlineML, 2021-10-11 , consultado el 2021-10-11