A menudo, los términos más generales «análisis de datos», «análisis»; o, cuando se refieren a los métodos actuales, «inteligencia artificial» y «aprendizaje automático», son más apropiados.
Al hacer que la información esté disponible, las empresas pueden promover los problemas de privacidad y seguridad.
Una vez validado el modelo, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles) este ya está listo para su explotación.
En este sentido cabe destacar los esfuerzos del Data Mining Group, que está estandarizando el lenguaje PMML (Predictive Model Markup Language), de manera que los modelos de minería de datos sean interoperables en distintas plataformas, con independencia del sistema con el que han sido construidos.
En realidad, es mucho más compleja y esconde toda una jerarquía de subfases.
Según Gartner es previsible que durante 2016-2017 solo haya «profesionales cualificados para cubrir una tercera parte de los puesto»".
Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano.
En muchas industrias —como la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente, pasarse a la competencia.
Generalmente, estas operaciones fraudulentas o ilegales suelen seguir patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
Se ha sugerido que tanto la Agencia Central de Inteligencia y su homóloga canadiense, Servicio de Inteligencia y Seguridad Canadiense, también han empleado este método.
En los últimos años la minería de datos se está utilizando ampliamente en diversas áreas relacionadas con la ciencia y la ingeniería.
Algunos ejemplos de aplicación en estos campos son: En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la susceptibilidad a las enfermedades.
Esto es muy importante para ayudar a mejorar el diagnóstico, prevención y tratamiento de las enfermedades.
Estos mapas sirven para detectar condiciones anormales y para estimar la naturaleza de dichas anomalías.
El análisis de gases disueltos se conoce desde hace mucho tiempo como la herramienta para diagnosticar transformadores.
Suscita cierta polémica el definir las fronteras existentes entre la minería de datos y las disciplinas análogas, como pueden serlo la estadística, la inteligencia artificial, etc. Hay quienes sostienen que la minería de datos no es sino estadística envuelta en una jerga de negocios que la conviertan en un producto vendible.
Una vez construido el modelo no es posible conocer si el mismo ha capturado toda la información disponible en los datos.
Por esta razón la práctica común es realizar varios modelos con distintos parámetros para ver si alguno logra mejores resultados.
En este nuevo enfoque, una base de datos es un canal que transmite información.
La capacidad de medir información contenida en los datos tiene otras ventajas importantes.
Problemas descriptivos cuyo objetivo es derivar patrones (correlaciones, tendencias, agrupaciones o clústeres, trayectorias y anomalías) que resuman las características inherentes a los datos.