Proceso estándar intersectorial para la minería de datos

El proceso estándar intersectorial para la minería de datos , conocido como CRISP-DM , ^[1] es un modelo de proceso estándar abierto que describe los enfoques comunes utilizados por los expertos en minería de datos . Es el modelo de análisis más utilizado . ^[2]

En 2015, IBM lanzó una nueva metodología llamada Analytics Solutions Unified Method for Data Mining/Predictive Analytics ^[3]^[4] (también conocida como ASUM-DM), que refina y amplía CRISP-DM.

Historia

CRISP-DM fue concebido en 1996 y se convirtió en un proyecto de la Unión Europea bajo la iniciativa de financiación ESPRIT en 1997. El proyecto fue liderado por cinco empresas: Integral Solutions Ltd (ISL), Teradata , Daimler AG , NCR Corporation y OHRA, una compañía de seguros.

Este consorcio central aportó diferentes experiencias al proyecto. ISL fue adquirida posteriormente y fusionada con SPSS . El gigante informático NCR Corporation produjo el almacén de datos Teradata y su propio software de minería de datos. Daimler-Benz tenía un equipo importante de minería de datos. OHRA estaba empezando a explorar el uso potencial de la minería de datos.

La primera versión de la metodología se presentó en el cuarto taller del SIG CRISP-DM en Bruselas en marzo de 1999 ^[5] y se publicó como guía de minería de datos paso a paso más tarde ese mismo año. ^[6]

Entre 2006 y 2008, se formó un SIG CRISP-DM 2.0 y hubo discusiones sobre la actualización del modelo de proceso CRISP-DM. ^[7] Se desconoce el estado actual de estos esfuerzos. Sin embargo, el sitio web original crisp-dm.org citado en las revisiones, ^[8]^[9] y el sitio web del SIG CRISP-DM 2.0 ya no están activos. ^[7]

Aunque muchos profesionales de minería de datos que no son de IBM utilizan CRISP-DM, ^[10]^[11]^[12] IBM es la principal corporación que utiliza actualmente el modelo de proceso CRISP-DM. Ofrece algunos de los antiguos documentos CRISP-DM para su descarga y los ha incorporado a su producto SPSS Modeler . ^[6]

Según las investigaciones actuales, CRISP-DM es la forma de modelo de minería de datos más utilizada debido a sus diversas ventajas, que resuelven los problemas existentes en las industrias de minería de datos. Una de las desventajas de este modelo es que no realiza actividades de gestión de proyectos. El éxito de CRISP-DM se debe en gran medida al hecho de que es neutral en cuanto a la industria, las herramientas y las aplicaciones. ^[13]

Fases principales

CRISP-DM divide el proceso de minería de datos en seis fases principales: ^[14]

Comprensión empresarial
Comprensión de datos
Preparación de datos
Modelado
Evaluación
Despliegue

La secuencia de las fases no es estricta y suele ser necesario pasar de una fase a otra. Las flechas del diagrama de proceso indican las dependencias más importantes y frecuentes entre fases. El círculo exterior del diagrama simboliza la naturaleza cíclica de la minería de datos en sí. Un proceso de minería de datos continúa después de que se haya implementado una solución. Las lecciones aprendidas durante el proceso pueden generar nuevas preguntas comerciales, a menudo más específicas, y los procesos de minería de datos posteriores se beneficiarán de las experiencias de los anteriores.

Encuestas y marcos de procesos alternativos

Las encuestas realizadas en el mismo sitio web ( KDNuggets ) en 2002, 2004, 2007 y 2014 muestran que fue la metodología líder utilizada por los mineros de datos de la industria que decidieron responder a la encuesta. ^[10]^[11]^[12]^[15] El único otro enfoque de minería de datos nombrado en estas encuestas fue SEMMA . Sin embargo, SAS Institute afirma claramente que SEMMA no es una metodología de minería de datos, sino más bien una "organización lógica del conjunto de herramientas funcionales de SAS Enterprise Miner". Una revisión y crítica de los modelos de proceso de minería de datos en 2009 llamó a CRISP-DM el "estándar de facto para desarrollar proyectos de minería de datos y descubrimiento de conocimiento". ^[16] Otras revisiones de CRISP-DM y modelos de proceso de minería de datos incluyen la revisión de 2006 de Kurgan y Musilek, ^[8] y la comparación de 2008 de Azevedo y Santos de CRISP-DM y SEMMA. ^[9] Los esfuerzos para actualizar la metodología comenzaron en 2006, pero a junio de 2015 no han conducido a una nueva versión, y el "Grupo de Interés Especial" (SIG) responsable, junto con el sitio web, ha desaparecido hace tiempo (véase Historia de CRISP-DM).

En 2024, Harvard Business Review publicó un marco actualizado, bizML, que está diseñado para una mayor relevancia para el personal comercial y para ser específico para proyectos de aprendizaje automático en particular, en lugar de para proyectos de análisis , ciencia de datos o minería de datos en general. ^[17]

Referencias

^ Shearer C., El modelo CRISP-DM: el nuevo modelo para la minería de datos , J Data Warehousing (2000); 5:13—22.
^ Lo que los profesionales de TI deben saber sobre el proceso de minería de datos Publicado por Forbes, 29 de julio de 2015, consultado el 24 de junio de 2018
^ ¿ Ha visto ASUM-DM?, por Jason Haffar, 16 de octubre de 2015, SPSS Predictive Analytics, IBM Archivado el 8 de marzo de 2016 en Wayback Machine.
^ Método unificado de soluciones analíticas: implementaciones con principios ágiles Publicado por IBM, 1 de marzo de 2016, consultado el 5 de octubre de 2018
^ Pete Chapman (1999); La guía del usuario de CRISP-DM.
^ por Pete Chapman, Julian Clinton, Randy Kerber, Thomas Khabaza, Thomas Reinartz, Colin Shearer y Rüdiger Wirth (2000); The CRISP-DM User Guide (entrada en Semantic Scholar, incluidos enlaces a archivos PDF), (versión PDF con gráficos de alta resolución archivada el 12 de septiembre de 2020 en Wayback Machine ).
^ por Colin Shearer (2006); Se realizó el primer taller sobre CRISP-DM 2.0
^ ab Lukasz Kurgan y Petr Musilek (2006); Un estudio de los modelos de procesos de descubrimiento de conocimiento y minería de datos. The Knowledge Engineering Review. Volumen 21, número 1, marzo de 2006, págs. 1–24, Cambridge University Press, Nueva York, NY, EE. UU. doi: 10.1017/S0269888906000737.
^ ab Azevedo, A. y Santos, MF (2008); KDD, SEMMA y CRISP-DM: una visión paralela. En Actas de la Conferencia Europea IADIS sobre Minería de Datos 2008, págs. 182-185.
^ de Gregory Piatetsky-Shapiro (2002); Encuesta sobre metodología de KDnuggets
^ de Gregory Piatetsky-Shapiro (2004); Encuesta sobre metodología de KDnuggets
^ de Gregory Piatetsky-Shapiro (2007); Encuesta sobre metodología de KDnuggets
^ Mariscal, G., Marban, O., Fernández, C. (2010). "Un estudio de modelos y metodologías de minería de datos y procesos de descubrimiento de conocimiento". The Knowledge Engineering Review . 25 (2): 137–166. doi :10.1017/S0269888910000032. S2CID 31359633.{{cite journal}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Harper, Gavin; Stephen D. Pickett (agosto de 2006). "Métodos para la extracción de datos de HTS". Drug Discovery Today . 11 (15–16): 694–699. doi :10.1016/j.drudis.2006.06.006. PMID 16846796.
^ Gregory Piatetsky-Shapiro (2014); Encuesta sobre la metodología de KDnuggets
^ Martínez-Plumed, Fernando; Contreras-Ochando, Lidia; Ferri, César; Flach, Pedro; Hernández-Orallo, José; Kull, Meelis; Lachiche, Nicolás; Ramírez-Quintana, María José (19 de septiembre de 2017). "CASP-DM: proceso estándar consciente del contexto para la minería de datos". arXiv : 1709.09003 [cs.DB].
^ Eric Siegel (2024); Cómo llevar los proyectos de aprendizaje automático de la idea a la ejecución