La minería de datos es el proceso de extraer y descubrir patrones en grandes conjuntos de datos que involucran métodos en la intersección del aprendizaje automático , las estadísticas y los sistemas de bases de datos . [1] La minería de datos es un subcampo interdisciplinario de la informática y la estadística con el objetivo general de extraer información (con métodos inteligentes) de un conjunto de datos y transformar la información en una estructura comprensible para su uso posterior. [1] [2] [3] [4] La minería de datos es el paso de análisis del proceso de " descubrimiento de conocimiento en bases de datos ", o KDD. [5] Además del paso de análisis sin procesar, también involucra aspectos de gestión de datos y bases de datos, preprocesamiento de datos , consideraciones de modelo e inferencia , métricas de interés, consideraciones de complejidad , posprocesamiento de estructuras descubiertas, visualización y actualización en línea . [1]
El término "minería de datos" es inapropiado porque el objetivo es la extracción de patrones y conocimientos a partir de grandes cantidades de datos, no la extracción ( minería ) de datos en sí . [6] También es una palabra de moda [7] y se aplica con frecuencia a cualquier forma de procesamiento de datos o información a gran escala ( recolección , extracción , almacenamiento , análisis y estadísticas), así como a cualquier aplicación de sistema informático de soporte de decisiones , incluido Inteligencia artificial (p. ej., aprendizaje automático) e inteligencia empresarial . A menudo, los términos más generales ( a gran escala ) , análisis y análisis de datos (o, cuando se hace referencia a métodos reales, inteligencia artificial y aprendizaje automático ), son más apropiados.
La tarea de minería de datos real es el análisis semiautomático o automático de grandes cantidades de datos para extraer patrones interesantes previamente desconocidos, como grupos de registros de datos ( análisis de conglomerados ), registros inusuales ( detección de anomalías ) y dependencias ( minería de reglas de asociación ). minería de patrones secuenciales ). Esto suele implicar el uso de técnicas de bases de datos, como índices espaciales . Luego, estos patrones pueden verse como una especie de resumen de los datos de entrada y pueden usarse en análisis posteriores o, por ejemplo, en aprendizaje automático y análisis predictivo . Por ejemplo, el paso de minería de datos podría identificar múltiples grupos en los datos, que luego pueden usarse para obtener resultados de predicción más precisos mediante un sistema de soporte de decisiones . Ni la recopilación de datos, ni la preparación de datos, ni la interpretación y presentación de informes de resultados son parte del paso de extracción de datos, aunque sí pertenecen al proceso general de KDD como pasos adicionales.
La diferencia entre análisis de datos y minería de datos es que el análisis de datos se utiliza para probar modelos e hipótesis sobre el conjunto de datos, por ejemplo, analizando la efectividad de una campaña de marketing , independientemente de la cantidad de datos. Por el contrario, la minería de datos utiliza el aprendizaje automático y modelos estadísticos para descubrir patrones clandestinos u ocultos en un gran volumen de datos. [8]
Los términos relacionados dragado de datos , pesca de datos y espionaje de datos se refieren al uso de métodos de extracción de datos para muestrear partes de un conjunto de datos de población más grande que son (o pueden ser) demasiado pequeñas para hacer inferencias estadísticas confiables sobre la validez de cualquier información. patrones descubiertos. Sin embargo, estos métodos se pueden utilizar para crear nuevas hipótesis que se puedan comparar con poblaciones de datos más grandes.
En la década de 1960, los estadísticos y economistas utilizaban términos como pesca de datos o dragado de datos para referirse a lo que consideraban una mala práctica de analizar datos sin una hipótesis a priori . El término "minería de datos" fue utilizado de manera igualmente crítica por el economista Michael Lovell en un artículo publicado en la Review of Economic Studies en 1983. [9] [10] Lovell indica que la práctica "se disfraza bajo una variedad de alias, que van desde la “experimentación” (positiva) hasta la “pesca” o el “husmeo” (negativa).
El término minería de datos apareció alrededor de 1990 en la comunidad de bases de datos, con connotaciones generalmente positivas. Durante un breve período en la década de 1980, se utilizó la frase "minería de bases de datos"™, pero como HNC, una empresa con sede en San Diego , la registró como marca registrada, para presentar su estación de trabajo de minería de bases de datos; [11] En consecuencia, los investigadores recurrieron a la minería de datos . Otros términos utilizados incluyen arqueología de datos , recolección de información , descubrimiento de información , extracción de conocimiento , etc. Gregory Piatetsky-Shapiro acuñó el término "descubrimiento de conocimiento en bases de datos" para el primer taller sobre el mismo tema (KDD-1989) y este término se hizo más popular. en las comunidades de IA y aprendizaje automático . Sin embargo, el término minería de datos se hizo más popular en las comunidades empresarial y periodística. [12] Actualmente, los términos minería de datos y descubrimiento de conocimiento se utilizan indistintamente.
La extracción manual de patrones a partir de datos se ha producido durante siglos. Los primeros métodos para identificar patrones en los datos incluyen el teorema de Bayes (década de 1700) y el análisis de regresión (década de 1800). [13] La proliferación, ubicuidad y el creciente poder de la tecnología informática han aumentado drásticamente la capacidad de recopilación, almacenamiento y manipulación de datos. A medida que los conjuntos de datos han crecido en tamaño y complejidad, el análisis de datos directo "práctico" se ha complementado cada vez más con el procesamiento de datos indirecto y automatizado, con la ayuda de otros descubrimientos en informática, especialmente en el campo del aprendizaje automático, como las redes neuronales . análisis de conglomerados , algoritmos genéticos (década de 1950), árboles de decisión y reglas de decisión (década de 1960) y máquinas de vectores de soporte (década de 1990). La minería de datos es el proceso de aplicar estos métodos con la intención de descubrir patrones ocultos. [14] en grandes conjuntos de datos. Cierra la brecha entre las estadísticas aplicadas y la inteligencia artificial (que generalmente proporcionan la base matemática) y la gestión de bases de datos al explotar la forma en que se almacenan e indexan los datos en las bases de datos para ejecutar los algoritmos reales de aprendizaje y descubrimiento de manera más eficiente, permitiendo que dichos métodos se apliquen a conjuntos de datos cada vez más grandes.
El proceso de descubrimiento de conocimiento en bases de datos (KDD) se define comúnmente con las etapas:
Sin embargo, existe en muchas variaciones sobre este tema, como el proceso estándar intersectorial para la minería de datos (CRISP-DM), que define seis fases:
o un proceso simplificado como (1) Preprocesamiento, (2) Minería de datos y (3) Validación de resultados.
Las encuestas realizadas en 2002, 2004, 2007 y 2014 muestran que la metodología CRISP-DM es la metodología líder utilizada por los mineros de datos. [15] [16] [17] [18]
El único otro estándar de minería de datos mencionado en estas encuestas fue SEMMA . Sin embargo, entre 3 y 4 veces más personas informaron haber usado CRISP-DM. Varios equipos de investigadores han publicado revisiones de modelos de procesos de minería de datos, [19] y Azevedo y Santos realizaron una comparación de CRISP-DM y SEMMA en 2008. [20]
Antes de poder utilizar algoritmos de minería de datos, se debe reunir un conjunto de datos objetivo. Como la minería de datos sólo puede descubrir patrones realmente presentes en los datos, el conjunto de datos objetivo debe ser lo suficientemente grande como para contener estos patrones y, al mismo tiempo, ser lo suficientemente conciso para poder extraerse dentro de un límite de tiempo aceptable. Una fuente común de datos es un data mart o almacén de datos . El preprocesamiento es esencial para analizar los conjuntos de datos multivariados antes de la extracción de datos. A continuación se limpia el conjunto de objetivos. La limpieza de datos elimina las observaciones que contienen ruido y aquellas a las que les faltan datos .
La minería de datos implica seis clases comunes de tareas: [5]
La minería de datos puede ser mal utilizada involuntariamente, produciendo resultados que parecen significativos pero que en realidad no predicen el comportamiento futuro y no pueden reproducirse en una nueva muestra de datos, por lo que son de poca utilidad. A veces, esto se debe a que se investigan demasiadas hipótesis y no se realizan pruebas estadísticas de hipótesis adecuadas . Una versión simple de este problema en el aprendizaje automático se conoce como sobreajuste , pero el mismo problema puede surgir en diferentes fases del proceso y, por lo tanto, una división entre tren y prueba, cuando sea aplicable, puede no ser suficiente para evitar que esto suceda. [21]
El paso final del descubrimiento de conocimiento a partir de datos es verificar que los patrones producidos por los algoritmos de minería de datos ocurren en un conjunto de datos más amplio. No todos los patrones encontrados por los algoritmos son necesariamente válidos. Es común que los algoritmos de minería de datos encuentren patrones en el conjunto de entrenamiento que no están presentes en el conjunto de datos general. A esto se le llama sobreajuste . Para superar esto, la evaluación utiliza un conjunto de datos de prueba en el que no se entrenó el algoritmo de minería de datos. Los patrones aprendidos se aplican a este conjunto de prueba y el resultado resultante se compara con el resultado deseado. Por ejemplo, un algoritmo de extracción de datos que intente distinguir los correos electrónicos "spam" de los "legítimos" se entrenaría en un conjunto de correos electrónicos de muestra. Una vez entrenados, los patrones aprendidos se aplicarían al conjunto de correos electrónicos de prueba en los que no habían sido entrenados. La precisión de los patrones se puede medir a partir de cuántos correos electrónicos clasifican correctamente. Se pueden utilizar varios métodos estadísticos para evaluar el algoritmo, como las curvas ROC .
Si los patrones aprendidos no cumplen con los estándares deseados, es necesario reevaluar y cambiar los pasos de preprocesamiento y extracción de datos. Si los patrones aprendidos cumplen con los estándares deseados, entonces el paso final es interpretar los patrones aprendidos y convertirlos en conocimiento.
El principal organismo profesional en este campo es el Grupo de Interés Especial (SIG) de la Asociación de Maquinaria de Computación (ACM) sobre Descubrimiento de Conocimiento y Minería de Datos ( SIGKDD ). [22] [23] Desde 1989, este ACM SIG ha organizado una conferencia internacional anual y ha publicado sus actas, [24] y desde 1999 ha publicado una revista académica bianual titulada "SIGKDD Explorations". [25]
Las conferencias de informática sobre minería de datos incluyen:
Los temas de minería de datos también están presentes en muchas conferencias sobre gestión de datos/bases de datos, como la Conferencia ICDE, la Conferencia SIGMOD y la Conferencia Internacional sobre bases de datos muy grandes .
Ha habido algunos esfuerzos para definir estándares para el proceso de minería de datos, por ejemplo, el proceso estándar europeo para minería de datos entre industrias de 1999 (CRISP-DM 1.0) y el estándar de minería de datos Java de 2004 (JDM 1.0). El desarrollo de sucesores de estos procesos (CRISP-DM 2.0 y JDM 2.0) estuvo activo en 2006, pero se ha estancado desde entonces. JDM 2.0 fue retirado sin llegar a un borrador final.
Para intercambiar los modelos extraídos, en particular para su uso en análisis predictivo , el estándar clave es el Predictive Model Markup Language (PMML), que es un lenguaje basado en XML desarrollado por Data Mining Group (DMG) y soportado como formato de intercambio por muchos. Aplicaciones de minería de datos. Como sugiere el nombre, solo cubre modelos de predicción, una tarea particular de minería de datos de gran importancia para las aplicaciones comerciales. Sin embargo, se han propuesto extensiones para cubrir (por ejemplo) la agrupación subespacial independientemente del DMG. [26]
La minería de datos se utiliza siempre que haya datos digitales disponibles. Se pueden encontrar ejemplos notables de minería de datos en los negocios, la medicina, la ciencia, las finanzas, la construcción y la vigilancia.
Si bien el término "minería de datos" en sí mismo puede no tener implicaciones éticas, a menudo se asocia con la extracción de información en relación con el comportamiento del usuario (ético o de otro tipo). [27]
Las formas en que se puede utilizar la minería de datos pueden, en algunos casos y contextos, plantear preguntas sobre la privacidad , la legalidad y la ética . [28] En particular, la extracción de datos de conjuntos de datos gubernamentales o comerciales con fines de seguridad nacional o aplicación de la ley , como en el Total Information Awareness Program o en ADVISE , ha planteado preocupaciones sobre la privacidad. [29] [30]
La minería de datos requiere una preparación de datos que descubra información o patrones que comprometan las obligaciones de confidencialidad y privacidad . Una forma común de que esto ocurra es mediante la agregación de datos . La agregación de datos implica combinar datos (posiblemente de varias fuentes) de una manera que facilite el análisis (pero que también pueda hacer que la identificación de datos privados a nivel individual sea deducible o evidente). [31] Esto no es minería de datos per se , sino el resultado de la preparación de datos antes y para los fines del análisis. La amenaza a la privacidad de un individuo entra en juego cuando los datos, una vez compilados, hacen que el minero de datos, o cualquier persona que tenga acceso al conjunto de datos recién compilado, pueda identificar individuos específicos, especialmente cuando los datos eran originalmente anónimos. [32]
Se recomienda [ ¿según quién? ] tener en cuenta lo siguiente antes de recopilar datos: [31]
Los datos también pueden modificarse para volverse anónimos, de modo que las personas no puedan ser identificadas fácilmente. [31] Sin embargo, incluso los conjuntos de datos " anonimizados " pueden potencialmente contener suficiente información para permitir la identificación de individuos, como ocurrió cuando los periodistas pudieron encontrar varios individuos basándose en un conjunto de historiales de búsqueda que AOL publicó inadvertidamente. [33]
La revelación involuntaria de información de identificación personal que conduzca al proveedor viola las Prácticas Justas de Información. Esta indiscreción puede causar daño financiero, emocional o corporal al individuo indicado. En un caso de violación de la privacidad , los patrocinadores de Walgreens presentaron una demanda contra la empresa en 2011 por vender información sobre prescripciones a empresas de extracción de datos, quienes a su vez proporcionaban los datos a empresas farmacéuticas. [34]
Europa tiene leyes de privacidad bastante estrictas y se están realizando esfuerzos para fortalecer aún más los derechos de los consumidores. Sin embargo, los Principios de Puerto Seguro entre Estados Unidos y la UE , desarrollados entre 1998 y 2000, actualmente exponen efectivamente a los usuarios europeos a la explotación de la privacidad por parte de empresas estadounidenses. Como consecuencia de la revelación de la vigilancia global de Edward Snowden , ha habido un creciente debate para revocar este acuerdo, ya que en particular los datos estarán completamente expuestos a la Agencia de Seguridad Nacional , y los intentos de llegar a un acuerdo con los Estados Unidos han fracasado. [35]
En el Reino Unido en particular ha habido casos de corporaciones que utilizan la minería de datos como una forma de dirigirse a ciertos grupos de clientes y obligarlos a pagar precios injustamente altos. Estos grupos tienden a ser personas de estatus socioeconómico más bajo que no conocen las formas en que pueden ser explotados en los mercados digitales. [36]
En los Estados Unidos, el Congreso ha abordado las preocupaciones sobre la privacidad mediante la aprobación de controles regulatorios como la Ley de Responsabilidad y Portabilidad del Seguro Médico (HIPAA). La HIPAA exige que las personas den su "consentimiento informado" con respecto a la información que proporcionan y sus usos presentes y futuros previstos. Según un artículo de Biotech Business Week , "'[e]n la práctica, es posible que la HIPAA no ofrezca mayor protección que las regulaciones de larga data en el ámbito de la investigación', dice la AAHC. Más importante aún, el objetivo de la regla de protección a través del consentimiento informado es acercarse a un nivel de incomprensibilidad para los individuos promedio". [37] Esto subraya la necesidad del anonimato de los datos en las prácticas de minería y agregación de datos.
La legislación estadounidense sobre privacidad de la información, como HIPAA y la Ley de Privacidad y Derechos Educativos de la Familia (FERPA), se aplica únicamente a las áreas específicas que aborda cada una de dichas leyes. El uso de la minería de datos por parte de la mayoría de las empresas en los EE. UU. no está controlado por ninguna legislación.
Según las leyes europeas de bases de datos de derechos de autor , la extracción de obras con derechos de autor (como la minería web ) sin el permiso del propietario de los derechos de autor no es legal. Cuando una base de datos es pura información en Europa, puede ser que no haya derechos de autor, pero pueden existir derechos sobre la base de datos, por lo que la extracción de datos queda sujeta a los derechos de propiedad intelectual de los propietarios que están protegidos por la Directiva sobre bases de datos . Por recomendación de la revisión de Hargreaves, esto llevó al gobierno del Reino Unido a modificar su ley de derechos de autor en 2014 para permitir la minería de contenidos como limitación y excepción . [38] El Reino Unido fue el segundo país del mundo en hacerlo después de Japón, que introdujo una excepción en 2009 para la extracción de datos. Sin embargo, debido a la restricción de la Directiva sobre la Sociedad de la Información (2001), la excepción del Reino Unido sólo permite la extracción de contenidos con fines no comerciales. La ley de derechos de autor del Reino Unido tampoco permite que esta disposición sea anulada por términos y condiciones contractuales. Desde 2020, Suiza también regula la minería de datos permitiéndola en el campo de la investigación bajo ciertas condiciones establecidas por el art. 24d de la Ley suiza de derechos de autor. Este nuevo artículo entró en vigor el 1 de abril de 2020. [39]
La Comisión Europea facilitó el debate entre las partes interesadas sobre la minería de textos y datos en 2013, bajo el título Licencias para Europa. [40] El enfoque en la solución a esta cuestión legal, como la concesión de licencias en lugar de limitaciones y excepciones, llevó a representantes de universidades, investigadores, bibliotecas, grupos de la sociedad civil y editores de acceso abierto a abandonar el diálogo con las partes interesadas en mayo de 2013. [41 ]
La ley de derechos de autor de EE. UU. , y en particular su disposición sobre uso legítimo , defiende la legalidad de la minería de contenidos en Estados Unidos y otros países de uso legítimo como Israel, Taiwán y Corea del Sur. Como la minería de contenidos es transformadora, es decir, no reemplaza el trabajo original, se considera legal bajo uso legítimo. Por ejemplo, como parte del acuerdo sobre Google Books, el juez que presidió el caso dictaminó que el proyecto de digitalización de libros con derechos de autor de Google era legal, en parte debido a los usos transformadores que mostraba el proyecto de digitalización, uno de ellos era la minería de textos y datos. [42]
Las siguientes aplicaciones están disponibles bajo licencias gratuitas/de código abierto. También está disponible el acceso público al código fuente de la aplicación.
Las siguientes aplicaciones están disponibles bajo licencias propietarias.
Para obtener más información sobre cómo extraer información de los datos (en lugar de analizarlos ), consulte:
Por lo tanto, la minería de datos debería haberse denominado más apropiadamente "minería de conocimiento a partir de datos", lo cual desafortunadamente es algo largo.
El 6 de octubre de 2015, el
TJUE
... emitió una decisión que invalidó el puerto seguro (con efecto inmediato), tal como se implementa actualmente.