Subtarea de extracción de información
La extracción de terminología (también conocida como extracción de términos , extracción de glosario , reconocimiento de términos o minería terminológica ) es una subtarea de la extracción de información . El objetivo de la extracción de terminología es extraer automáticamente términos relevantes de un corpus determinado . [1]
En la era de la web semántica , un número cada vez mayor de comunidades y empresas en red comenzaron a acceder e interoperar a través de Internet . Modelar estas comunidades y sus necesidades de información es importante para varias aplicaciones web , como los rastreadores web basados en temas , [2] servicios web , [3] sistemas de recomendación , [4] etc. El desarrollo de la extracción de terminología también es esencial para la industria del lenguaje .
Uno de los primeros pasos para modelar un dominio de conocimiento es recopilar un vocabulario de términos relevantes para el dominio, que constituyen la manifestación superficial lingüística de los conceptos del dominio . En la literatura se han descrito varios métodos para extraer automáticamente términos técnicos de los almacenes de documentos específicos del dominio. [5] [6] [7] [8] [9] [10 ] [11] [12] [13] [14] [15] [16] [17]
Por lo general, los enfoques para la extracción automática de términos hacen uso de procesadores lingüísticos ( etiquetado de partes del discurso , fragmentación de frases ) para extraer candidatos terminológicos, es decir, frases nominales terminológicas sintácticamente plausibles . Las frases nominales incluyen compuestos (por ejemplo, "tarjeta de crédito"), frases nominales adjetivas (por ejemplo, "oficina de información turística local") y frases nominales preposicionales (por ejemplo, "junta directiva"). En inglés, las dos primeras (compuestos y frases nominales adjetivas) son las más frecuentes. [18] Luego, las entradas terminológicas se filtran de la lista de candidatos utilizando métodos estadísticos y de aprendizaje automático . Una vez filtrados, debido a su baja ambigüedad y alta especificidad, estos términos son particularmente útiles para conceptualizar un dominio de conocimiento o para respaldar la creación de una ontología de dominio o una base terminológica. Además, la extracción de terminología es un punto de partida muy útil para la similitud semántica , la gestión del conocimiento , la traducción humana y la traducción automática , etc.
Extracción de terminología bilingüe
Los métodos de extracción de terminología se pueden aplicar a corpus paralelos . Combinados con, por ejemplo , estadísticas de coocurrencia , se pueden obtener candidatos para traducciones de términos. [19] La terminología bilingüe también se puede extraer de corpus comparables [20] (corpus que contienen textos dentro del mismo tipo de texto, dominio pero no traducciones de documentos entre sí).
Véase también
Referencias
- ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Extracción automática no supervisada de frases clave mediante propagación de afinidad". Avances en sistemas de inteligencia computacional . Avances en sistemas inteligentes y computación. Vol. 650. págs. 222–235. doi :10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
- ^ Menczer F., Pant G. y Srinivasan P. Rastreadores basados en temas: problemas de aprendizaje automático.
- ^ Fan J. y Kambhampati S. Una instantánea de los servicios web públicos, en ACM SIGMOD Record archive Volumen 34, Número 1 (marzo de 2005).
- ^ Yan Zheng Wei, Luc Moreau, Nicholas R. Jennings. Un enfoque basado en el mercado para los sistemas de recomendación, en ACM Transactions on Information Systems (TOIS), 23(3), 2005.
- ^ Bourigault D. y Jacquemin C. Extracción de términos + agrupamiento de términos: una plataforma integrada para terminología asistida por computadora Archivado el 19 de junio de 2006 en Wayback Machine , en Proc. de EACL, 1999.
- ^ Collier, N.; Nobata, C.; Tsujii, J. (2002). "Adquisición y clasificación automática de terminología utilizando un corpus etiquetado en el dominio de la biología molecular". Terminología . 7 (2): 239–257. doi :10.1075/term.7.2.07col.
- ^ K. Frantzi, S. Ananiadou y H. Mima (2000). Reconocimiento automático de términos de varias palabras: el método de valor C/valor NC. En: C. Nikolau y C. Stephanidis (Eds.) International Journal on Digital Libraries, vol. 3, n.º 2, págs. 115-130.
- ^ K. Frantzi, S. Ananiadou y J. Tsujii. (1998) El método de valor C/valor NC de reconocimiento automático de términos de múltiples palabras, en: ECDL '98 Actas de la Segunda Conferencia Europea sobre Investigación y Tecnología Avanzada para Bibliotecas Digitales, págs. 585-604. ISBN 3-540-65101-2
- ^ L. Kozakov; Y. Park; T. Fin; Y. Drissi; Y. Doganata y T. Cofino. (2004). "Extracción y utilización de glosarios en el sistema de búsqueda y entrega de información para el soporte técnico de IBM" (PDF) . IBM Systems Journal . 43 (3): 546–563. doi :10.1147/sj.433.0546.
- ^ Navigli R. y Velardi, P. Aprendizaje de ontologías de dominios a partir de almacenes de documentos y sitios web dedicados. Computational Linguistics. 30 (2), MIT Press, 2004, págs. 151-179
- ^ Oliver, A. y Vàzquez, M. TBXTools: una herramienta gratuita, rápida y flexible para la extracción automática de terminología. Actas de Recent Advances in Natural Language Processing (RANLP 2015), 2015, págs. 473–479
- ^ Y. Park, RJ Byrd, B. Boguraev. "Extracción automática de glosarios: más allá de la identificación terminológica", Conferencia internacional sobre lingüística computacional, Actas de la 19.ª conferencia internacional sobre lingüística computacional, Taipei, Taiwán, 2002.
- ^ Sclano, F. y Velardi, P.. TermExtractor: una aplicación web para aprender la terminología compartida de las comunidades web emergentes. Publicado en Proc. de la 3.ª Conferencia internacional sobre interoperabilidad para software y aplicaciones empresariales (I-ESA 2007). Funchal (Isla de Madeira), Portugal, 28-30 de marzo de 2007.
- ^ P. Velardi, R. Navigli, P. D'Amadio. Minería de la Web para crear glosarios especializados, IEEE Intelligent Systems, 23(5), IEEE Press, 2008, págs. 18-25.
- ^ Wermter J. y Hahn U. Finding New terminology in Very Large Corpora, en Proc. of K-CAP'05, 2 al 5 de octubre de 2005, Banff, Alberta, Canadá
- ^ Wong, W., Liu, W. y Bennamoun, M. (2007) Determinación de la terminología para el aprendizaje de ontologías de dominios mediante la prevalencia y la tendencia de dominios. En: 6.ª Conferencia Australasiana sobre Minería de Datos (AusDM); Gold Coast. ISBN 978-1-920682-51-4
- ^ Wong, W., Liu, W. y Bennamoun, M. (2007) Determinación de la terminología para el aprendizaje de ontologías de dominios en un marco probabilístico. En: 6.ª Conferencia Australasiana sobre Minería de Datos (AusDM); Gold Coast. ISBN 978-1-920682-51-4
- ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Extracción automática no supervisada de frases clave mediante propagación de afinidad". Avances en sistemas de inteligencia computacional . Avances en sistemas inteligentes y computación. Vol. 650. págs. 222–235. doi :10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
- ^ Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Extracción de terminología bilingüe de corpus paralelos mediante alineación basada en fragmentos". Terminología . 19 (1): 1–30. doi :10.1075/term.19.1.01mac. hdl : 1854/LU-2128573 .
- ^ Sharoff, Serge; Rapp, Reinhard; Zweigenbaum, Pierre; Fung, Pascale (2013), Creación y uso de corpus comparables (PDF) , Berlín: Springer-Verlag