Minería de conceptos

La minería de conceptos es una actividad que da como resultado la extracción de conceptos de artefactos . Las soluciones a la tarea generalmente involucran aspectos de inteligencia artificial y estadística , como minería de datos y minería de texto . ^[1]^[2] Debido a que los artefactos son típicamente una secuencia de palabras y otros símbolos poco estructurados (en lugar de conceptos), el problema no es trivial , pero puede proporcionar información valiosa sobre el significado, la procedencia y la similitud de los documentos.

Métodos

Tradicionalmente, la conversión de palabras a conceptos se ha realizado utilizando un tesauro , ^{[3] y para las técnicas computacionales la tendencia es hacer lo mismo. Los tesauros utilizados son creados especialmente para la tarea, o un modelo de lenguaje preexistente, generalmente relacionado con}WordNet de Princeton .

Las asignaciones de palabras a conceptos ^[4] suelen ser ambiguas . Normalmente, cada palabra de un idioma determinado se relaciona con varios conceptos posibles. Los seres humanos utilizan el contexto para desambiguar los diversos significados de un fragmento de texto determinado, mientras que los sistemas de traducción automática disponibles no pueden inferir fácilmente el contexto.

Sin embargo, a los efectos de la minería de conceptos, estas ambigüedades tienden a ser menos importantes que en la traducción automática, ya que en documentos grandes las ambigüedades tienden a compensarse, tal como sucede con la minería de texto.

Existen muchas técnicas de desambiguación que pueden emplearse. Algunos ejemplos son el análisis lingüístico del texto y el uso de información sobre la frecuencia de asociación de palabras y conceptos que puede inferirse de grandes corpus textuales. Recientemente han aparecido técnicas que se basan en la similitud semántica entre los posibles conceptos y el contexto y han despertado el interés de la comunidad científica.

Aplicaciones

Detección e indexación de documentos similares en grandes corpus

Una de las ventajas de calcular las estadísticas de documentos en el dominio de los conceptos, en lugar del dominio de las palabras, es que los conceptos forman estructuras de árbol naturales basadas en la hiperonimia y la meronimia . Estas estructuras se pueden utilizar para generar estadísticas de pertenencia a árboles simples, que se pueden utilizar para localizar cualquier documento en un espacio conceptual euclidiano. Si el tamaño de un documento también se considera como otra dimensión de este espacio, se puede crear un sistema de indexación extremadamente eficiente. Esta técnica se utiliza actualmente con fines comerciales para localizar documentos legales similares en un corpus de 2,5 millones de documentos.

Agrupamiento de documentos por tema

Se pueden utilizar técnicas de agrupamiento numérico estándar en el "espacio conceptual", como se describió anteriormente, para localizar e indexar documentos según el tema inferido. Estas técnicas son numéricamente mucho más eficientes que sus primas de minería de texto y tienden a comportarse de manera más intuitiva, ya que se corresponden mejor con las medidas de similitud que generaría un ser humano.

Véase también

Referencias

^ Yuen-Hsien Tseng, Chun-Yen Chang, Shu-Nu Chang Rundgren y Carl-Johan Rundgren, "Extracción de mapas conceptuales de noticias para medir la alfabetización científica cívica en los medios ^{[ enlace roto ]} ", Computers and Education, vol. 55, núm. 1, agosto de 2010, págs. 165-177.
^ Li, Keqian; Zha, Hanwen; Su, Yu; Yan, Xifeng (noviembre de 2018). "Minería de conceptos mediante incrustación". Conferencia internacional IEEE 2018 sobre minería de datos (ICDM) . IEEE. págs. 267–276. doi :10.1109/icdm.2018.00042. ISBN 978-1-5386-9159-5. Número de identificación del sujeto 52841398.
^ Yuen-Hsien Tseng, "Generación automática de tesauros para documentos chinos", Journal of the American Society for Information Science and Technology, vol. 53, núm. 13, noviembre de 2002, págs. 1130-1138.
^ Yuen-Hsien Tseng, "Etiquetado de título genérico para documentos agrupados", Expert Systems With Applications, vol. 37, n.º 3, 15 de marzo de 2010, págs. 2247-2254.