stringtranslate.com

Minería de flujo de datos

La minería de flujo de datos (también conocida como aprendizaje de flujo ) es el proceso de extracción de estructuras de conocimiento a partir de registros de datos continuos y rápidos. Un flujo de datos es una secuencia ordenada de instancias que, en muchas aplicaciones de minería de flujo de datos, se puede leer solo una vez o una pequeña cantidad de veces utilizando capacidades de computación y almacenamiento limitadas. [1]

En muchas aplicaciones de minería de flujo de datos, el objetivo es predecir la clase o el valor de nuevas instancias en el flujo de datos dado algún conocimiento sobre la membresía de clase o los valores de instancias anteriores en el flujo de datos. [2] Las técnicas de aprendizaje automático se pueden utilizar para aprender esta tarea de predicción a partir de ejemplos etiquetados de manera automatizada. A menudo, los conceptos del campo del aprendizaje incremental se aplican para hacer frente a los cambios estructurales, el aprendizaje en línea y las demandas en tiempo real. En muchas aplicaciones, especialmente las que operan en entornos no estacionarios, la distribución subyacente a las instancias o las reglas subyacentes a su etiquetado pueden cambiar con el tiempo, es decir, el objetivo de la predicción, la clase a predecir o el valor objetivo a predecir, pueden cambiar con el tiempo. [3] Este problema se conoce como deriva de concepto . Detectar la deriva de concepto es un tema central para la minería de flujo de datos. [4] [5] Otros desafíos [6] que surgen al aplicar el aprendizaje automático a la transmisión de datos incluyen: datos etiquetados parcialmente y retrasados, [7] [8] recuperación de las derivas de concepto, [1] y dependencias temporales. [9]

Entre los ejemplos de flujos de datos se incluyen el tráfico de redes informáticas, las conversaciones telefónicas, las transacciones en cajeros automáticos, las búsquedas web y los datos de sensores. La minería de flujos de datos puede considerarse un subcampo de la minería de datos , el aprendizaje automático y el descubrimiento de conocimientos .

Software para minería de flujo de datos

Eventos

Véase también

Libros

Referencias

  1. ^ ab Gomes, Heitor M.; Bifet, Albert; Read, Jesse; Barddal, Jean Paul; Enembreck, Fabrício; Pfharinger, Bernhard; Holmes, Geoff; Abdessalem, Talel (1 de octubre de 2017). "Bosques aleatorios adaptativos para la evolución de la clasificación de flujos de datos". Aprendizaje automático . 106 (9): 1469–1495. doi : 10.1007/s10994-017-5642-8 . hdl : 10289/11231 . ISSN  1573-0565.
  2. ^ Medhat, Mohamed; Zaslavsky; Krishnaswamy (1 de junio de 2005). "Minería de flujos de datos". ACM SIGMOD Record . 34 (2): 18–26. doi :10.1145/1083784.1083789. S2CID  705946.
  3. ^ Lemaire, Vincent; Salperwyck, Christophe; Bondu, Alexis (2015), Zimányi, Esteban; Kutsche, Ralf-Detlef (eds.), "A Survey on Supervised Classification on Data Streams", Business Intelligence: 4th European Summer School, eBISS 2014, Berlín, Alemania, 6 al 11 de julio de 2014, Tutorial Lectures , Lecture Notes in Business Information Processing, Springer International Publishing, págs. 88-125, doi :10.1007/978-3-319-17551-5_4, ISBN 978-3-319-17551-5
  4. ^ Webb, Geoffrey I.; Lee, Loong Kuan; Petitjean, François; Goethals, Bart (2 de abril de 2017). "Entender la deriva conceptual". arXiv : 1704.00362 [cs.LG].
  5. ^ Gama, João; Žliobaitė; Bifet; Pechenizkiy; Bouchachia (1 de marzo de 2014). "Una encuesta sobre la adaptación a la deriva conceptual" (PDF) . ACM Computing Surveys . 46 (4): 1–37. doi :10.1145/2523813. S2CID  207208264.
  6. ^ Gomes, Heitor Murilo; Read; Bifet; Barddal; Gama (26 de noviembre de 2019). "Aprendizaje automático para transmisión de datos". Boletín de exploraciones de ACM SIGKDD . 21 (2): 6–22. doi :10.1145/3373464.3373470. S2CID  208607941.
  7. ^ Gomes, Heitor Murilo; Grzenda, Maciej; Mello, Rodrigo; Read, Jesse; Le Nguyen, Minh Huong; Bifet, Albert (28 de febrero de 2022). "Una encuesta sobre aprendizaje semisupervisado para flujos de datos parcialmente etiquetados con retraso". Encuestas de computación de ACM . 55 (4): 1–42. arXiv : 2106.09170 . doi : 10.1145/3523055 . ISSN  0360-0300.
  8. ^ Grzenda, Maciej; Gomes, Heitor Murilo; Bifet, Albert (16 de noviembre de 2019). "Evaluación de etiquetado retardado para flujos de datos". Minería de datos y descubrimiento de conocimiento . 34 (5): 1237–1266. doi : 10.1007/s10618-019-00654-y . ISSN  1573-756X.
  9. ^ Žliobaitė, Indrė; Bifet, Albert; Read, Jesse; Pfahringer, Bernhard; Holmes, Geoff (1 de marzo de 2015). "Métodos de evaluación y teoría de decisiones para la clasificación de datos en streaming con dependencia temporal". Aprendizaje automático . 98 (3): 455–482. doi : 10.1007/s10994-014-5441-4 . hdl : 10289/8954 . ISSN  1573-0565.
  10. ^ Montiel, Jacob; Read, Jesse; Bifet, Albert; Abdessalem, Talel (2018). "Scikit-Multiflow: un marco de transmisión de múltiples salidas". Revista de investigación en aprendizaje automático . 19 (72): 1–5. arXiv : 1807.04662 . Código Bibliográfico :2018arXiv180704662M. ISSN  1533-7928.
  11. ^ Características, scikit-multiflow, 2021-10-09 , consultado el 2021-10-11
  12. ^ Zaharia, Matei; Das, Tathagata; Li, Haoyuan; Hunter, Timothy; Shenker, Scott; Stoica, Ion (2013). "Flujos discretizados". Actas del vigésimo cuarto simposio de la ACM sobre principios de sistemas operativos . Nueva York, Nueva York, EE. UU.: ACM Press. págs. 423–438. doi : 10.1145/2517349.2522737 . ISBN . 978-1-4503-2388-8.
  13. ^ online-ml/river, OnlineML, 2021-10-11 , consultado el 2021-10-11