stringtranslate.com

Construcción automática de taxonomías

La construcción automática de taxonomías (ATC) es el uso de programas de software para generar clasificaciones taxonómicas a partir de un conjunto de textos llamado corpus . La ATC es una rama del procesamiento del lenguaje natural , que a su vez es una rama de la inteligencia artificial .

Una taxonomía (o clasificación taxonómica) es un esquema de clasificación, especialmente, una clasificación jerárquica, en la que las cosas se organizan en grupos o tipos. [1] [2] [3] [4] [5] [6] Entre otras cosas, una taxonomía se puede utilizar para organizar e indexar el conocimiento (almacenado como documentos, artículos, vídeos, etc.), como en forma de un sistema de clasificación de bibliotecas o una taxonomía de motores de búsqueda , para que los usuarios puedan encontrar más fácilmente la información que buscan. Muchas taxonomías son jerarquías (y, por lo tanto, tienen una estructura de árbol intrínseca ), pero no todas lo son.

Desarrollar y mantener manualmente una taxonomía es una tarea que requiere mucho tiempo y recursos, incluida la familiaridad o la experiencia en el dominio de la taxonomía (alcance, tema o campo), lo que aumenta los costos y limita el alcance de dichos proyectos. Además, los modeladores de dominios tienen sus propios puntos de vista que inevitablemente, aunque sea de manera involuntaria, se abren camino en la taxonomía. ATC utiliza técnicas de inteligencia artificial para generar rápidamente y de manera automática una taxonomía para un dominio a fin de evitar estos problemas y eliminar limitaciones.

Aproches

Existen varios enfoques para el ATC. Un enfoque consiste en utilizar reglas para detectar patrones en el corpus y utilizar esos patrones para inferir relaciones como la hiponimia . Otros enfoques utilizan técnicas de aprendizaje automático como la inferencia bayesiana y las redes neuronales artificiales . [7]

Extracción de palabras clave

Un enfoque para construir una taxonomía es recopilar automáticamente las palabras clave de un dominio mediante la extracción de palabras clave , luego analizar las relaciones entre ellas (ver Hiponimia, a continuación) y luego organizarlas como una taxonomía basada en esas relaciones.

Hiponimia y relaciones “es-un”

En los programas ATC, una de las tareas más importantes es el descubrimiento de relaciones de hiperónimos e hipónimos entre palabras. Una forma de hacerlo a partir de un cuerpo de texto es buscar ciertas frases como "es un" y "tal como".

En lingüística , las relaciones es-un se denominan hiponimias . Las palabras que describen categorías se denominan hiperónimos y las palabras que son ejemplos de categorías se denominan hipónimos. Por ejemplo, perro es un hiperónimo y Fido es uno de sus hipónimos. Una palabra puede ser tanto hipónimo como hiperónimo. Por lo tanto, perro es un hipónimo de mamífero y también un hiperónimo de Fido .

Las taxonomías se representan a menudo como jerarquías de tipo es-a , donde cada nivel es más específico que (en lenguaje matemático, "un subconjunto de") el nivel superior. Por ejemplo, una taxonomía de biología básica tendría conceptos como mamífero , que es un subconjunto de animal , y perros y gatos , que son subconjuntos de mamífero . Este tipo de taxonomía se denomina modelo es-a porque los objetos específicos se consideran instancias de un concepto. Por ejemplo, Fido es una instancia del concepto perro y Fluffy es un gato . [8]

Aplicaciones

ATC se puede utilizar para crear taxonomías para motores de búsqueda y mejorar los resultados de búsqueda.

Los sistemas ATC son un componente clave del aprendizaje de ontologías (también conocido como construcción automática de ontologías) y se han utilizado para generar automáticamente grandes ontologías para dominios como los seguros y las finanzas. También se han utilizado para mejorar las grandes redes existentes, como Wordnet, para hacerlas más completas y consistentes. [9] [10] [11]

Software de control de tráfico aéreo

Otros nombres

Otros nombres para la construcción automática de taxonomías incluyen:

Véase también

Referencias

  1. ^ "Taxonomía". 10 de octubre de 2021.
  2. ^ "Definición y significado de taxonomía". Dictionary.com . Consultado el 13 de mayo de 2022 .
  3. ^ "¿Qué es la taxonomía?". 14 de agosto de 2017.
  4. ^ "TAXONOMÍA | Significado y definición para inglés británico". Lexico.com. Archivado desde el original el 2 de marzo de 2021. Consultado el 13 de mayo de 2022 .
  5. ^ "¿Qué es la taxonomía?". 20 de agosto de 2003.
  6. ^ "TAXONOMÍA (Sustantivo) definición y sinónimos | Diccionario Macmillan".
  7. ^ Neshati, Mahmood; Alijamaat, Ali; Abolhassani, Hassan; Rahimi, Afshin; Hoseini, Mehdi (2007). "Aprendizaje de taxonomías mediante la medida de similitud compuesta". IEEE/WIC/ACM International Conference on Web Intelligence (WI'07) . págs. 487–490. doi :10.1109/WI.2007.135. ISBN 978-0-7695-3026-0.S2CID14206314  .​
  8. ^ Brachman, Ronald (octubre de 1983). "Lo que es y no es IS-A. Un análisis de vínculos taxonómicos en redes semánticas". IEEE Computer . 16 (10): 30–36. doi :10.1109/MC.1983.1654194. OSTI  5363562. S2CID  16650410.
  9. ^ Velardi, Paola; Faralli, Stefano; Navigli, Roberto (10 de octubre de 2012). "OntoLearn Reloaded: Un algoritmo basado en grafos para la inducción de taxonomía". Lingüística computacional . Asociación de Lingüística Computacional. CiteSeerX 10.1.1.278.5674 . 
  10. ^ Liu, Xueqing; Song, Yangqiu; Liu, Shixia ; Wang, Haixun (12–16 de agosto de 2012). "Construcción automática de taxonomías a partir de palabras clave". Actas de la 18.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos (PDF) . ACM. pág. 1433. doi :10.1145/2339530.2339754. ISBN . 9781450314626. S2CID  9100603 . Consultado el 7 de marzo de 2017 .
  11. ^ Snow, Rion; Jurafsky, Daniel; Ng, Andrew. "Inducción de taxonomía semántica a partir de evidencia heterogénea" (PDF) . Universidad de Stanford . Consultado el 8 de marzo de 2017 . {{cite journal}}: Requiere citar revista |journal=( ayuda )

Lectura adicional

Enlaces externos