Aprendizaje de ontología

El aprendizaje de ontologías ( extracción de ontologías , generación de ontologías o adquisición de ontologías ) es la creación automática o semiautomática de ontologías , incluida la extracción de los términos del dominio correspondiente y las relaciones entre los conceptos que estos términos representan de un corpus de texto en lenguaje natural, y la codificación. con un lenguaje de ontología para una fácil recuperación. Como crear ontologías manualmente requiere mucho trabajo y mucho tiempo, existe una gran motivación para automatizar el proceso.

Normalmente, el proceso comienza extrayendo términos y conceptos o frases nominales de texto plano utilizando procesadores lingüísticos como el etiquetado de partes del discurso y la fragmentación de frases . Luego se utilizan técnicas estadísticas ^[1] o simbólicas ^[2]^{[3] para extraer}firmas de relaciones , a menudo basadas en técnicas de extracción de hiperónimos basadas en patrones ^[4] o definiciones ^{[5] .}

Procedimiento

El aprendizaje de ontologías (OL) se utiliza para extraer (semi)automáticamente ontologías completas de texto en lenguaje natural. ^[6]^[7] El proceso generalmente se divide en las siguientes ocho tareas, que no necesariamente se aplican en todos los sistemas de aprendizaje de ontologías.

Extracción de terminología de dominio

Durante el paso de extracción de la terminología del dominio , se extraen términos específicos del dominio, que se utilizan en el siguiente paso (descubrimiento de conceptos) para derivar conceptos. Los términos relevantes se pueden determinar, por ejemplo, mediante el cálculo de los valores TF/IDF o mediante la aplicación del método del valor C/valor NC. La lista de términos resultante debe ser filtrada por un experto en el dominio. En el paso siguiente, de manera similar a la resolución de correferencia en la extracción de información , el sistema OL determina sinónimos, porque comparten el mismo significado y, por lo tanto, corresponden al mismo concepto. Por tanto, los métodos más comunes son la agrupación y la aplicación de medidas de similitud estadística.

Descubrimiento de conceptos

En el paso de descubrimiento de conceptos, los términos se agrupan en unidades portadoras de significado, que corresponden a una abstracción del mundo y, por lo tanto, a conceptos . Los términos agrupados son estos términos específicos del dominio y sus sinónimos, que se identificaron en el paso de extracción de la terminología del dominio.

Derivación de la jerarquía de conceptos

En el paso de derivación de la jerarquía de conceptos, el sistema OL intenta organizar los conceptos extraídos en una estructura taxonómica. Esto se logra principalmente con métodos de agrupamiento jerárquico no supervisados . Debido a que el resultado de tales métodos suele ser ruidoso, se añade un paso de supervisión, por ejemplo, evaluación del usuario. Otro método para derivar una jerarquía de conceptos existe en el uso de varios patrones que deberían indicar una relación de subsunción o supersunción . Patrones como “X, es decir, una Y” o “X es una Y” indican que X es una subclase de Y. Dichos patrones pueden analizarse eficientemente, pero a menudo ocurren con poca frecuencia como para extraer suficientes relaciones de subsunción o supersunción. En su lugar, se desarrollan métodos de arranque, que aprenden estos patrones automáticamente y, por lo tanto, garantizan una cobertura más amplia.

Aprendizaje de relaciones no taxonómicas.

En el paso de aprendizaje de relaciones no taxonómicas, se extraen relaciones que no expresan ninguna subsunción o supersunción. Estas relaciones son, por ejemplo, de trabajo para o ubicado en. Hay dos enfoques comunes para resolver esta subtarea. El primero se basa en la extracción de asociaciones anónimas, que en un segundo paso se denominan adecuadamente. El segundo enfoque extrae verbos, que indican una relación entre entidades, representadas por las palabras circundantes. El resultado de ambos enfoques debe ser evaluado por un ontólogo para garantizar la precisión.

Descubrimiento de reglas

Durante el descubrimiento de reglas , ^[8] se generan axiomas (descripción formal de conceptos) para los conceptos extraídos. Esto se puede lograr, por ejemplo, analizando la estructura sintáctica de una definición en lenguaje natural y la aplicación de reglas de transformación en el árbol de dependencia resultante. El resultado de este proceso es una lista de axiomas, que luego se comprenden hasta una descripción del concepto. Este resultado luego es evaluado por un ontólogo.

Población de ontologías

En este paso, la ontología se complementa con instancias de conceptos y propiedades. Para el aumento con instancias de conceptos se utilizan métodos basados en la correspondencia de patrones léxico-sintácticos. Las instancias de propiedades se agregan mediante la aplicación de métodos de arranque , que recopilan tuplas de relaciones.

Extensión de jerarquía de conceptos

En este paso, el sistema OL intenta ampliar la estructura taxonómica de una ontología existente con más conceptos. Esto se puede realizar de manera supervisada con un clasificador capacitado o de manera no supervisada mediante la aplicación de medidas de similitud .

Detección de fotogramas y eventos

Durante la detección de fotogramas/eventos, el sistema OL intenta extraer relaciones complejas del texto, por ejemplo, quién partió de dónde a qué lugar y cuándo. Los enfoques van desde la aplicación de SVM con métodos de kernel hasta el etiquetado de roles semánticos (SRL) ^{[9] y técnicas}de análisis semántico profundo . ^[10]

Herramientas

Dog4Dag (Generador de ontologías de Dresde para gráficos acíclicos dirigidos) es un complemento de generación de ontologías para Protégé 4.1 y OBOEdit 2.1. Permite la generación de términos, generación de hermanos, generación de definiciones e inducción de relaciones. Integrado en Protégé 4.1 y OBO-Edit 2.1, DOG4DAG permite la extensión de ontologías para todos los formatos de ontología comunes (por ejemplo, OWL y OBO). Limitado en gran medida a las extensiones del servicio de búsqueda de EBI y Bio Portal. ^[11]

Ver también

Bibliografía

P. Buitelaar, P. Cimiano (Eds.). Aprendizaje y población de ontologías: uniendo la brecha entre el texto y el conocimiento, serie de información sobre fronteras en inteligencia artificial y aplicaciones , IOS Press, 2008.
P. Buitelaar, P. Cimiano y B. Magnini (Eds.). Aprendizaje de ontología a partir del texto: métodos, evaluación y aplicaciones, serie de información sobre fronteras en inteligencia artificial y aplicaciones , IOS Press, 2005.
Wong, W. (2009), "Aprendizaje de ontologías ligeras a partir de texto en diferentes dominios utilizando la Web como conocimiento previo ^{[ enlace muerto permanente ]} ". Tesis de Doctorado en Filosofía, Universidad de Australia Occidental.
Wong, W., Liu, W. y Bennamoun, M. (2012), "Aprendizaje ontológico del texto: una mirada hacia atrás y hacia el futuro". ACM Computing Surveys, volumen 44, número 4, páginas 20:1-20:36.
Thomas Wächter, Götz Fabian, Michael Schroeder: DOG4DAG: generación de ontologías semiautomática en OBO-Edit y Protégé. SWAT4LS Londres, 2011. doi :10.1145/2166896.2166926

Referencias

^ A. Maedche y S. Staab. Aprendizaje de ontologías para la web semántica. En Semantic Web Worskhop 2001.
↑ Roberto Navigli y Paola Velardi . Aprendizaje de ontologías de dominio a partir de almacenes de documentos y sitios web dedicados, Computational Linguistics, 30(2), MIT Press, 2004, págs.151-179.
^ P. Velardi, S. Faralli, R. Navigli. OntoLearn Reloaded: un algoritmo basado en gráficos para la inducción de taxonomía. Lingüística computacional, 39 (3), MIT Press, 2013, páginas 665-707.
^ Martí A. Hearst. Adquisición automática de hipónimos a partir de grandes corpus de texto. En Actas de la Decimocuarta Conferencia Internacional sobre Lingüística Computacional, páginas 539-545, Nantes, Francia, julio de 1992.
^ R. Navigli, P. Velardi. Aprendizaje de celosías de clases de palabras para definición y extracción de hiperónimos. Procedimiento de la 48.ª reunión anual de la Asociación de Lingüística Computacional (ACL 2010), Uppsala, Suecia, 11 al 16 de julio de 2010, páginas 1318-1327.
^ Cimiano, Philipp; Völker, Johanna; Studer, Rudi (2006). "¿Ontologías bajo demanda? - Una descripción del estado del arte, las aplicaciones, los desafíos y las tendencias para el aprendizaje de ontologías a partir del texto", Information, Wissenschaft und Praxis , 57, p. 315 - 320, http://people.aifb.kit.edu/pci/Publications/iwp06.pdf%5B%5D (consultado: 18.06.2012).
^ Wong, W., Liu, W. y Bennamoun, M. (2012), "Aprendizaje ontológico del texto: una mirada hacia atrás y hacia el futuro". ACM Computing Surveys, volumen 44, número 4, páginas 20:1-20:36.
^ Johanna Volker; Pascal Hitzler ; Cimiano, Philipp (2007). "Adquisición de axiomas OWL DL a partir de recursos léxicos", Actas de la cuarta conferencia europea sobre la web semántica , p. 670 - 685, http://smartweb.dfki.de/Vortraege/lexo_2007.pdf (consultado el 18 de junio de 2012).
^ Coppola B.; Gangemi A.; Gliozzo A.; Picca D.; Presutti V. (2009). "Detección de marcos en la web semántica", Actas de la Conferencia europea sobre la web semántica (ESWC2009), Springer, 2009.
^ Presutti V.; Draicchio F.; Gangemi A. (2009). "Extracción de conocimientos basada en la teoría de la representación del discurso y marcos lingüísticos", Actas de la Conferencia sobre ingeniería del conocimiento y gestión del conocimiento (EKAW2012), LNCS, Springer, 2012.
^ Thomas Wächter, Götz Fabian, Michael Schroeder: DOG4DAG: generación de ontologías semiautomática en OBO-Edit y Protégé. SWAT4LS Londres, 2011. doi :10.1145/2166896.2166926 http://www.biotec.tu-dresden.de/research/schroeder/dog4dag/