El aprendizaje de ontologías ( extracción de ontologías , generación de aumento de ontologías , generación de ontologías o adquisición de ontologías ) es la creación automática o semiautomática de ontologías , que incluye la extracción de los términos del dominio correspondiente y las relaciones entre los conceptos que estos términos representan de un corpus de texto en lenguaje natural, y su codificación con un lenguaje de ontologías para facilitar su recuperación. Como la creación manual de ontologías es extremadamente laboriosa y lleva mucho tiempo, existe una gran motivación para automatizar el proceso.
Por lo general, el proceso comienza con la extracción de términos y conceptos o frases nominales de un texto simple mediante procesadores lingüísticos como el etiquetado de partes del discurso y la fragmentación de frases . Luego se utilizan técnicas estadísticas [1] o simbólicas [2] [3] para extraer firmas de relación , a menudo basadas en técnicas de extracción de hiperónimos basadas en patrones [4] o en definiciones [5] .
El aprendizaje de ontologías (OL) se utiliza para extraer (semi)automáticamente ontologías completas de textos en lenguaje natural. [6] [7] El proceso generalmente se divide en las siguientes ocho tareas, que no necesariamente se aplican en todos los sistemas de aprendizaje de ontologías.
Durante el paso de extracción de terminología del dominio , se extraen términos específicos del dominio, que se utilizan en el siguiente paso (descubrimiento de conceptos) para derivar conceptos. Los términos relevantes se pueden determinar, por ejemplo, mediante el cálculo de los valores TF/IDF o mediante la aplicación del método de valor C/valor NC. La lista de términos resultante debe ser filtrada por un experto en el dominio. En el paso posterior, de manera similar a la resolución de correferencia en la extracción de información , el sistema OL determina sinónimos, porque comparten el mismo significado y, por lo tanto, corresponden al mismo concepto. Por lo tanto, los métodos más comunes son la agrupación y la aplicación de medidas de similitud estadística.
En el paso de descubrimiento de conceptos, los términos se agrupan en unidades portadoras de significado, que corresponden a una abstracción del mundo y, por lo tanto, a conceptos . Los términos agrupados son estos términos específicos del dominio y sus sinónimos, que se identificaron en el paso de extracción de terminología del dominio.
En el paso de derivación de la jerarquía de conceptos, el sistema OL intenta organizar los conceptos extraídos en una estructura taxonómica. Esto se logra principalmente con métodos de agrupamiento jerárquico no supervisado . Debido a que el resultado de tales métodos suele ser ruidoso, se agrega un paso de supervisión, por ejemplo, la evaluación del usuario. Existe un método adicional para la derivación de una jerarquía de conceptos en el uso de varios patrones que deberían indicar una relación de subsumo o supersumo . Patrones como "X, eso es un Y" o "X es un Y" indican que X es una subclase de Y. Tal patrón se puede analizar de manera eficiente, pero a menudo ocurren con muy poca frecuencia para extraer suficientes relaciones de subsumo o supersumo. En cambio, se desarrollan métodos de arranque, que aprenden estos patrones automáticamente y, por lo tanto, garantizan una cobertura más amplia.
En el paso de aprendizaje de relaciones no taxonómicas, se extraen relaciones que no expresan ninguna subsunción o supersunción. Tales relaciones son, por ejemplo, las que funcionan para o las que se encuentran en. Hay dos enfoques comunes para resolver esta subtarea. El primero se basa en la extracción de asociaciones anónimas, que se nombran apropiadamente en un segundo paso. El segundo enfoque extrae verbos, que indican una relación entre entidades, representadas por las palabras circundantes. El resultado de ambos enfoques debe ser evaluado por un ontólogo para garantizar la precisión.
Durante el descubrimiento de reglas , [8] se generan axiomas (descripciones formales de conceptos) para los conceptos extraídos. Esto se puede lograr, por ejemplo, analizando la estructura sintáctica de una definición de lenguaje natural y la aplicación de reglas de transformación en el árbol de dependencia resultante. El resultado de este proceso es una lista de axiomas, que, posteriormente, se convierte en una descripción de concepto. Luego, un ontólogo evalúa este resultado.
En este paso, la ontología se amplía con instancias de conceptos y propiedades. Para la ampliación con instancias de conceptos, se utilizan métodos basados en la correspondencia de patrones léxico-sintácticos. Las instancias de propiedades se añaden mediante la aplicación de métodos de arranque , que recogen tuplas de relaciones.
En este paso, el sistema OL intenta ampliar la estructura taxonómica de una ontología existente con más conceptos. Esto se puede realizar de forma supervisada con un clasificador entrenado o de forma no supervisada mediante la aplicación de medidas de similitud .
Durante la detección de cuadros o eventos, el sistema OL intenta extraer relaciones complejas del texto, por ejemplo, quién partió de dónde se dirigió a qué lugar y cuándo. Los enfoques varían desde la aplicación de SVM con métodos de núcleo hasta el etiquetado de roles semánticos (SRL) [9] y técnicas de análisis semántico profundo . [10]
Dog4Dag (Dresden Ontology Generator for Directed Acyclic Graphs) es un complemento de generación de ontologías para Protégé 4.1 y OBOEdit 2.1. Permite la generación de términos, la generación de hermanos, la generación de definiciones y la inducción de relaciones. Integrado en Protégé 4.1 y OBO-Edit 2.1, DOG4DAG permite la extensión de ontologías para todos los formatos de ontologías comunes (por ejemplo, OWL y OBO). Limitado principalmente a las extensiones de servicio de búsqueda EBI y Bio Portal. [11]