El aprendizaje de ontologías ( extracción de ontologías , generación de ontologías o adquisición de ontologías ) es la creación automática o semiautomática de ontologías , incluida la extracción de los términos del dominio correspondiente y las relaciones entre los conceptos que estos términos representan de un corpus de texto en lenguaje natural, y la codificación. con un lenguaje de ontología para una fácil recuperación. Como crear ontologías manualmente requiere mucho trabajo y mucho tiempo, existe una gran motivación para automatizar el proceso.
Normalmente, el proceso comienza extrayendo términos y conceptos o frases nominales de texto plano utilizando procesadores lingüísticos como el etiquetado de partes del discurso y la fragmentación de frases . Luego se utilizan técnicas estadísticas [1] o simbólicas [2] [3] para extraer firmas de relaciones , a menudo basadas en técnicas de extracción de hiperónimos basadas en patrones [4] o definiciones [5] .
El aprendizaje de ontologías (OL) se utiliza para extraer (semi)automáticamente ontologías completas de texto en lenguaje natural. [6] [7] El proceso generalmente se divide en las siguientes ocho tareas, que no necesariamente se aplican en todos los sistemas de aprendizaje de ontologías.
Durante el paso de extracción de la terminología del dominio , se extraen términos específicos del dominio, que se utilizan en el siguiente paso (descubrimiento de conceptos) para derivar conceptos. Los términos relevantes se pueden determinar, por ejemplo, mediante el cálculo de los valores TF/IDF o mediante la aplicación del método del valor C/valor NC. La lista de términos resultante debe ser filtrada por un experto en el dominio. En el paso siguiente, de manera similar a la resolución de correferencia en la extracción de información , el sistema OL determina sinónimos, porque comparten el mismo significado y, por lo tanto, corresponden al mismo concepto. Por tanto, los métodos más comunes son la agrupación y la aplicación de medidas de similitud estadística.
En el paso de descubrimiento de conceptos, los términos se agrupan en unidades portadoras de significado, que corresponden a una abstracción del mundo y, por lo tanto, a conceptos . Los términos agrupados son estos términos específicos del dominio y sus sinónimos, que se identificaron en el paso de extracción de la terminología del dominio.
En el paso de derivación de la jerarquía de conceptos, el sistema OL intenta organizar los conceptos extraídos en una estructura taxonómica. Esto se logra principalmente con métodos de agrupamiento jerárquico no supervisados . Debido a que el resultado de tales métodos suele ser ruidoso, se añade un paso de supervisión, por ejemplo, evaluación del usuario. Otro método para derivar una jerarquía de conceptos existe en el uso de varios patrones que deberían indicar una relación de subsunción o supersunción . Patrones como “X, es decir, una Y” o “X es una Y” indican que X es una subclase de Y. Dichos patrones pueden analizarse eficientemente, pero a menudo ocurren con poca frecuencia como para extraer suficientes relaciones de subsunción o supersunción. En su lugar, se desarrollan métodos de arranque, que aprenden estos patrones automáticamente y, por lo tanto, garantizan una cobertura más amplia.
En el paso de aprendizaje de relaciones no taxonómicas, se extraen relaciones que no expresan ninguna subsunción o supersunción. Estas relaciones son, por ejemplo, de trabajo para o ubicado en. Hay dos enfoques comunes para resolver esta subtarea. El primero se basa en la extracción de asociaciones anónimas, que en un segundo paso se denominan adecuadamente. El segundo enfoque extrae verbos, que indican una relación entre entidades, representadas por las palabras circundantes. El resultado de ambos enfoques debe ser evaluado por un ontólogo para garantizar la precisión.
Durante el descubrimiento de reglas , [8] se generan axiomas (descripción formal de conceptos) para los conceptos extraídos. Esto se puede lograr, por ejemplo, analizando la estructura sintáctica de una definición en lenguaje natural y la aplicación de reglas de transformación en el árbol de dependencia resultante. El resultado de este proceso es una lista de axiomas, que luego se comprenden hasta una descripción del concepto. Este resultado luego es evaluado por un ontólogo.
En este paso, la ontología se complementa con instancias de conceptos y propiedades. Para el aumento con instancias de conceptos se utilizan métodos basados en la correspondencia de patrones léxico-sintácticos. Las instancias de propiedades se agregan mediante la aplicación de métodos de arranque , que recopilan tuplas de relaciones.
En este paso, el sistema OL intenta ampliar la estructura taxonómica de una ontología existente con más conceptos. Esto se puede realizar de manera supervisada con un clasificador capacitado o de manera no supervisada mediante la aplicación de medidas de similitud .
Durante la detección de fotogramas/eventos, el sistema OL intenta extraer relaciones complejas del texto, por ejemplo, quién partió de dónde a qué lugar y cuándo. Los enfoques van desde la aplicación de SVM con métodos de kernel hasta el etiquetado de roles semánticos (SRL) [9] y técnicas de análisis semántico profundo . [10]
Dog4Dag (Generador de ontologías de Dresde para gráficos acíclicos dirigidos) es un complemento de generación de ontologías para Protégé 4.1 y OBOEdit 2.1. Permite la generación de términos, generación de hermanos, generación de definiciones e inducción de relaciones. Integrado en Protégé 4.1 y OBO-Edit 2.1, DOG4DAG permite la extensión de ontologías para todos los formatos de ontología comunes (por ejemplo, OWL y OBO). Limitado en gran medida a las extensiones del servicio de búsqueda de EBI y Bio Portal. [11]