stringtranslate.com

Minería de estructuras

La minería de estructuras o minería de datos estructurados es el proceso de búsqueda y extracción de información útil de conjuntos de datos semiestructurados . La minería de grafos, la minería de patrones secuenciales y la minería de moléculas son casos especiales de minería de datos estructurados [ cita requerida ] .

Descripción

El crecimiento del uso de datos semiestructurados ha creado nuevas oportunidades para la minería de datos, que tradicionalmente se ha ocupado de conjuntos de datos tabulares, lo que refleja la fuerte asociación entre la minería de datos y las bases de datos relacionales . Gran parte de los datos interesantes y explotables del mundo no se integran fácilmente en bases de datos relacionales, aunque una generación de ingenieros de software ha sido entrenada para creer que esta era la única manera de manejar datos, y los algoritmos de minería de datos generalmente se han desarrollado solo para lidiar con datos tabulares.

XML , que es la forma más frecuente de representar datos semiestructurados, es capaz de representar tanto datos tabulares como árboles arbitrarios. Cualquier representación particular de datos que se intercambien entre dos aplicaciones en XML se describe normalmente mediante un esquema escrito a menudo en XSD . Los ejemplos prácticos de dichos esquemas, por ejemplo NewsML , son normalmente muy sofisticados y contienen múltiples subárboles opcionales, utilizados para representar datos de casos especiales. Con frecuencia, alrededor del 90% de un esquema se ocupa de la definición de estos elementos de datos y subárboles opcionales.

Por lo tanto, los mensajes y datos que se transmiten o codifican mediante XML y que se ajustan al mismo esquema pueden contener datos muy diferentes según lo que se esté transmitiendo.

Estos datos presentan grandes problemas para la minería de datos convencional. Dos mensajes que se ajustan al mismo esquema pueden tener pocos datos en común. La creación de un conjunto de entrenamiento a partir de estos datos implica que, si se intentara formatearlo como datos tabulares para la minería de datos convencional, grandes secciones de las tablas estarían o podrían estar vacías.

En el diseño de la mayoría de los algoritmos de minería de datos se asume tácitamente que los datos presentados estarán completos. La otra necesidad es que los algoritmos de minería reales empleados, ya sean supervisados ​​o no, deben ser capaces de manejar datos dispersos. Es decir, los algoritmos de aprendizaje automático funcionan mal con conjuntos de datos incompletos donde solo se proporciona parte de la información. Por ejemplo, los métodos basados ​​en redes neuronales . [ cita requerida ] o el algoritmo ID3 de Ross Quinlan . [ cita requerida ] son ​​muy precisos con muestras buenas y representativas del problema, pero funcionan mal con datos sesgados. La mayoría de las veces, una mejor presentación del modelo con una representación más cuidadosa e imparcial de la entrada y la salida es suficiente. Un área particularmente relevante donde encontrar la estructura y el modelo adecuados es la cuestión clave es la minería de texto .

XPath es el mecanismo estándar que se utiliza para hacer referencia a nodos y elementos de datos dentro de XML. Tiene similitudes con las técnicas estándar para navegar por jerarquías de directorios que se utilizan en las interfaces de usuario de los sistemas operativos. Para extraer datos y estructuras de datos XML de cualquier formato, se requieren al menos dos extensiones de la minería de datos convencional. Estas son la capacidad de asociar una declaración XPath con cualquier patrón de datos y declaraciones secundarias con cada nodo de datos en el patrón de datos, y la capacidad de extraer la presencia y el recuento de cualquier nodo o conjunto de nodos dentro del documento.

Por ejemplo, si se quisiera representar un árbol genealógico en XML, utilizando estas extensiones se podría crear un conjunto de datos que contuviera todos los nodos individuales del árbol, elementos de datos como el nombre y la edad al momento de la muerte, y recuentos de nodos relacionados, como el número de hijos. Búsquedas más sofisticadas podrían extraer datos como la esperanza de vida de los abuelos, etc.

La adición de estos tipos de datos relacionados con la estructura de un documento o mensaje facilita la minería de estructuras.

Véase también

Referencias

Enlaces externos