Aprendizaje de ontología

El aprendizaje de ontologías ( extracción de ontologías , generación de aumento de ontologías , generación de ontologías o adquisición de ontologías ) es la creación automática o semiautomática de ontologías , que incluye la extracción de los términos del dominio correspondiente y las relaciones entre los conceptos que estos términos representan de un corpus de texto en lenguaje natural, y su codificación con un lenguaje de ontologías para facilitar su recuperación. Como la creación manual de ontologías es extremadamente laboriosa y lleva mucho tiempo, existe una gran motivación para automatizar el proceso.

Por lo general, el proceso comienza con la extracción de términos y conceptos o frases nominales de un texto simple mediante procesadores lingüísticos como el etiquetado de partes del discurso y la fragmentación de frases . Luego se utilizan técnicas estadísticas ^[1] o simbólicas ^[2]^{[3] para extraer}firmas de relación , a menudo basadas en técnicas de extracción de hiperónimos basadas en patrones ^[4] o en definiciones ^[5] .

Procedimiento

El aprendizaje de ontologías (OL) se utiliza para extraer (semi)automáticamente ontologías completas de textos en lenguaje natural. ^[6]^[7] El proceso generalmente se divide en las siguientes ocho tareas, que no necesariamente se aplican en todos los sistemas de aprendizaje de ontologías.

Extracción de terminología del dominio

Durante el paso de extracción de terminología del dominio , se extraen términos específicos del dominio, que se utilizan en el siguiente paso (descubrimiento de conceptos) para derivar conceptos. Los términos relevantes se pueden determinar, por ejemplo, mediante el cálculo de los valores TF/IDF o mediante la aplicación del método de valor C/valor NC. La lista de términos resultante debe ser filtrada por un experto en el dominio. En el paso posterior, de manera similar a la resolución de correferencia en la extracción de información , el sistema OL determina sinónimos, porque comparten el mismo significado y, por lo tanto, corresponden al mismo concepto. Por lo tanto, los métodos más comunes son la agrupación y la aplicación de medidas de similitud estadística.

Descubrimiento de conceptos

En el paso de descubrimiento de conceptos, los términos se agrupan en unidades portadoras de significado, que corresponden a una abstracción del mundo y, por lo tanto, a conceptos . Los términos agrupados son estos términos específicos del dominio y sus sinónimos, que se identificaron en el paso de extracción de terminología del dominio.

Derivación de la jerarquía de conceptos

En el paso de derivación de la jerarquía de conceptos, el sistema OL intenta organizar los conceptos extraídos en una estructura taxonómica. Esto se logra principalmente con métodos de agrupamiento jerárquico no supervisado . Debido a que el resultado de tales métodos suele ser ruidoso, se agrega un paso de supervisión, por ejemplo, la evaluación del usuario. Existe un método adicional para la derivación de una jerarquía de conceptos en el uso de varios patrones que deberían indicar una relación de subsumo o supersumo . Patrones como "X, eso es un Y" o "X es un Y" indican que X es una subclase de Y. Tal patrón se puede analizar de manera eficiente, pero a menudo ocurren con muy poca frecuencia para extraer suficientes relaciones de subsumo o supersumo. En cambio, se desarrollan métodos de arranque, que aprenden estos patrones automáticamente y, por lo tanto, garantizan una cobertura más amplia.

Aprendizaje de relaciones no taxonómicas

En el paso de aprendizaje de relaciones no taxonómicas, se extraen relaciones que no expresan ninguna subsunción o supersunción. Tales relaciones son, por ejemplo, las que funcionan para o las que se encuentran en. Hay dos enfoques comunes para resolver esta subtarea. El primero se basa en la extracción de asociaciones anónimas, que se nombran apropiadamente en un segundo paso. El segundo enfoque extrae verbos, que indican una relación entre entidades, representadas por las palabras circundantes. El resultado de ambos enfoques debe ser evaluado por un ontólogo para garantizar la precisión.

Descubrimiento de reglas

Durante el descubrimiento de reglas , ^[8] se generan axiomas (descripciones formales de conceptos) para los conceptos extraídos. Esto se puede lograr, por ejemplo, analizando la estructura sintáctica de una definición de lenguaje natural y la aplicación de reglas de transformación en el árbol de dependencia resultante. El resultado de este proceso es una lista de axiomas, que, posteriormente, se convierte en una descripción de concepto. Luego, un ontólogo evalúa este resultado.

Población de ontología

En este paso, la ontología se amplía con instancias de conceptos y propiedades. Para la ampliación con instancias de conceptos, se utilizan métodos basados en la correspondencia de patrones léxico-sintácticos. Las instancias de propiedades se añaden mediante la aplicación de métodos de arranque , que recogen tuplas de relaciones.

Extensión de la jerarquía de conceptos

En este paso, el sistema OL intenta ampliar la estructura taxonómica de una ontología existente con más conceptos. Esto se puede realizar de forma supervisada con un clasificador entrenado o de forma no supervisada mediante la aplicación de medidas de similitud .

Detección de cuadros y eventos

Durante la detección de cuadros o eventos, el sistema OL intenta extraer relaciones complejas del texto, por ejemplo, quién partió de dónde se dirigió a qué lugar y cuándo. Los enfoques varían desde la aplicación de SVM con métodos de núcleo hasta el etiquetado de roles semánticos (SRL) ^[9] y técnicas de análisis semántico profundo . ^[10]

Herramientas

Dog4Dag (Dresden Ontology Generator for Directed Acyclic Graphs) es un complemento de generación de ontologías para Protégé 4.1 y OBOEdit 2.1. Permite la generación de términos, la generación de hermanos, la generación de definiciones y la inducción de relaciones. Integrado en Protégé 4.1 y OBO-Edit 2.1, DOG4DAG permite la extensión de ontologías para todos los formatos de ontologías comunes (por ejemplo, OWL y OBO). Limitado principalmente a las extensiones de servicio de búsqueda EBI y Bio Portal. ^[11]

Véase también

Bibliografía

P. Buitelaar, P. Cimiano (Eds.). Ontología, aprendizaje y población: cerrando la brecha entre texto y conocimiento, Información de la serie para Frontiers in Artificial Intelligence and Applications , IOS Press, 2008.
P. Buitelaar, P. Cimiano y B. Magnini (Eds.). Aprendizaje de ontología a partir de texto: métodos, evaluación y aplicaciones, Información de la serie Frontiers in Artificial Intelligence and Applications , IOS Press, 2005.
Wong, W. (2009), "Aprendizaje de ontologías ligeras a partir de texto en diferentes dominios utilizando la Web como conocimiento de fondo ^{[ enlace muerto permanente ‍ ]} ". Tesis de doctorado, Universidad de Australia Occidental.
Wong, W., Liu, W. y Bennamoun, M. (2012), "Aprendizaje de ontología a partir de texto: una mirada al pasado y al futuro". ACM Computing Surveys, Volumen 44, Número 4, Páginas 20:1-20:36.
Thomas Wächter, Götz Fabian, Michael Schroeder: DOG4DAG: generación de ontologías semiautomática en OBO-Edit y Protégé. SWAT4LS Londres, 2011. doi :10.1145/2166896.2166926

Referencias

^ A. Maedche y S. Staab. Ontologías de aprendizaje para la web semántica. En Semantic Web Worskhop 2001.
^ Roberto Navigli y Paola Velardi . Aprendizaje de ontologías de dominio a partir de almacenes de documentos y sitios web dedicados, Computational Linguistics, 30(2), MIT Press, 2004, pp.151-179.
^ P. Velardi, S. Faralli, R. Navigli. OntoLearn Reloaded: Un algoritmo basado en gráficos para la inducción de taxonomías. Computational Linguistics, 39(3), MIT Press, 2013, pp.665-707.
^ Marti A. Hearst. Adquisición automática de hipónimos a partir de grandes corpus textuales. En Actas de la Decimocuarta Conferencia Internacional sobre Lingüística Computacional, páginas 539-545, Nantes, Francia, julio de 1992.
^ R. Navigli, P. Velardi. Aprendizaje de redes de clases de palabras para la extracción de definiciones e hiperónimos. Actas de la 48.ª Reunión Anual de la Asociación de Lingüística Computacional (ACL 2010), Uppsala, Suecia, 11-16 de julio de 2010, págs. 1318-1327.
^ Cimiano, Philipp; Völker, Johanna; Studer, Rudi (2006). "Ontologías a pedido: una descripción del estado del arte, las aplicaciones, los desafíos y las tendencias para el aprendizaje de ontologías a partir de texto", Información, Wissenschaft und Praxis , 57, pág. 315 - 320, http://people.aifb.kit.edu/pci/Publications/iwp06.pdf%5B%5D (consultado: 18.06.2012).
^ Wong, W., Liu, W. y Bennamoun, M. (2012), "Aprendizaje de ontología a partir de texto: una mirada al pasado y al futuro". ACM Computing Surveys, volumen 44, número 4, páginas 20:1-20:36.
^ Johanna Völker; Pascal Hitzler ; Cimiano, Philipp (2007). "Adquisición de axiomas OWL DL a partir de recursos léxicos", Actas de la 4.ª conferencia europea sobre la Web semántica , págs. 670-685, http://smartweb.dfki.de/Vortraege/lexo_2007.pdf (consultado el 18 de junio de 2012).
^ Coppola B.; Gangemi A.; Gliozzo A.; Picca D.; Presutti V. (2009). "Detección de cuadros en la Web semántica", Actas de la Conferencia Europea de Web Semántica (ESWC2009), Springer, 2009.
^ Presutti V.; Draicchio F.; Gangemi A. (2009). "Extracción de conocimiento basada en la teoría de la representación del discurso y los marcos lingüísticos", Actas de la Conferencia sobre ingeniería del conocimiento y gestión del conocimiento (EKAW2012), LNCS, Springer, 2012.
^ Thomas Wächter, Götz Fabian, Michael Schroeder: DOG4DAG: generación de ontologías semiautomatizada en OBO-Edit y Protégé. SWAT4LS Londres, 2011. doi :10.1145/2166896.2166926 http://www.biotec.tu-dresden.de/research/schroeder/dog4dag/