La extracción de palabras clave tiene como tarea la identificación automática de los términos que mejor describen el tema de un documento. [1] [2]
Frases clave , términos clave , segmentos clave o simplemente palabras clave son la terminología que se utiliza para definir los términos que representan la información más relevante contenida en el documento. Aunque la terminología es diferente, la función es la misma: caracterización del tema tratado en un documento. La tarea de extracción de palabras clave es un problema importante en la minería de textos , la extracción de información , la recuperación de información y el procesamiento del lenguaje natural (PLN). [3]
Asignación de palabras clave versus extracción
Los métodos de asignación de palabras clave se pueden dividir a grandes rasgos en:
- asignación de palabras clave (las palabras clave se eligen de un vocabulario o taxonomía controlada) y
- extracción de palabras clave (las palabras clave se eligen entre las palabras que se mencionan explícitamente en el texto original).
Los métodos de extracción automática de palabras clave pueden ser supervisados, semisupervisados o no supervisados. [4] [5] Los métodos no supervisados se pueden dividir en métodos estadísticos simples, lingüísticos o basados en gráficos, o en conjuntos que combinan algunos o la mayoría de estos métodos. [6]
Referencias
- ^ Beliga, Slobodan; Ana, Meštrović; Martinčić-Ipšić, Sanda. (2015). "Una descripción general de los métodos y enfoques de extracción de palabras clave basados en gráficos". Revista de Ciencias de la Información y Organizacionales . 39 (1): 1–20.
- ^ Rada Mihalcea; Paul Tarau (julio de 2004). TextRank: poner orden en los textos (PDF) . Actas de la Conferencia sobre métodos empíricos en el procesamiento del lenguaje natural (EMNLP 2004). Barcelona, España.
- ^ Beliga, Slobodan; Meštrović, Ana; Martinčić-Ipšić, Sanda. (2014). Hacia la extracción de palabras clave basada en la selectividad para las noticias croatas (PDF) . Emergiendo a lo profundo y la web social (SDSW 2014). vol. 1310. Italia: CEUR Proc. págs. 1-14.
- ^ Alrehamy, H.; Caminante, C. (2017). SemCluster: Extracción automática de frases clave sin supervisión mediante propagación por afinidad. 17º Taller del Reino Unido sobre Inteligencia Computacional.
- ^ "Extracción de palabras clave: de TF-IDF a BERT".
- ^ Pago Tayfun; Esteban Lucci (2017). Extracción automática de palabras clave: un método conjunto . 2017 Conferencia Internacional IEEE sobre Big Data (Big Data). doi :10.1109/BigData.2017.8258552.
Otras lecturas
- Nazanin Firoozeh; Adeline Nazarenko; Fabrice Alizon; Béatrice Daille (11 de noviembre de 2019). "Extracción de palabras clave: problemas y métodos". Ingeniería del Lenguaje Natural . 26 (3): 259–291. doi :10.1017/S1351324919000457. ISSN 1351-3249. Wikidata Q109971296.