Minería conceptual

La minería de conceptos es una actividad que resulta en la extracción de conceptos de artefactos . Las soluciones a la tarea normalmente involucran aspectos de inteligencia artificial y estadísticas , como minería de datos y minería de textos . ^[1]^[2] Debido a que los artefactos suelen ser una secuencia poco estructurada de palabras y otros símbolos (en lugar de conceptos), el problema no es trivial , pero puede proporcionar información poderosa sobre el significado, la procedencia y la similitud de los documentos.

Métodos

Tradicionalmente, la conversión de palabras en conceptos se ha realizado mediante un tesauro , ^[3] y para las técnicas computacionales la tendencia es hacer lo mismo. Los tesauros utilizados se crean especialmente para la tarea o son un modelo de lenguaje preexistente, generalmente relacionado con WordNet de Princeton .

Las asignaciones de palabras a conceptos ^[4] son a menudo ambiguas . Normalmente, cada palabra en un idioma determinado se relacionará con varios conceptos posibles. Los seres humanos utilizan el contexto para eliminar la ambigüedad de los diversos significados de un texto determinado, mientras que los sistemas de traducción automática disponibles no pueden inferir fácilmente el contexto.

Sin embargo, a los efectos de la minería de conceptos, estas ambigüedades tienden a ser menos importantes que en la traducción automática, ya que en documentos grandes las ambigüedades tienden a nivelarse, como ocurre con la minería de textos.

Hay muchas técnicas de desambiguación que se pueden utilizar. Algunos ejemplos son el análisis lingüístico del texto y el uso de información de frecuencia de asociación de palabras y conceptos que puede inferirse de grandes corpus de texto. Recientemente han aparecido y ganado interés en la comunidad científica técnicas que se basan en la similitud semántica entre los conceptos posibles y el contexto.

Aplicaciones

Detectar e indexar documentos similares en grandes corpus

Una de las consecuencias del cálculo de estadísticas de documentos en el dominio de conceptos, en lugar del dominio de palabras, es que los conceptos forman estructuras de árbol naturales basadas en la hipernimia y la meronimia . Estas estructuras se pueden utilizar para generar estadísticas simples de membresía de árboles, que se pueden usar para ubicar cualquier documento en un espacio conceptual euclidiano. Si también se considera el tamaño de un documento como una dimensión más de este espacio, se puede crear un sistema de indexación extremadamente eficiente. Esta técnica se utiliza actualmente comercialmente y localiza documentos legales similares en un corpus de 2,5 millones de documentos.

Agrupar documentos por tema

Se pueden utilizar técnicas de agrupamiento numérico estándar en el "espacio conceptual" como se describe anteriormente para localizar e indexar documentos según el tema inferido. Estos son numéricamente mucho más eficientes que sus primos de minería de textos y tienden a comportarse de manera más intuitiva, ya que se corresponden mejor con las medidas de similitud que generaría un humano.

Ver también

Referencias

^ Yuen-Hsien Tseng, Chun-Yen Chang, Shu-Nu Chang Rundgren y Carl-Johan Rundgren, "Mapas conceptuales de minería a partir de noticias para medir la alfabetización científica cívica en los medios ^{[ enlace muerto ]} ", Computadoras y educación, vol. 55, N° 1, agosto de 2010, págs. 165-177.
^ Li, Keqian; Zha, Hanwen; Su, Yu; Yan, Xifeng (noviembre de 2018). "Minería de conceptos mediante incrustación". Conferencia internacional IEEE 2018 sobre minería de datos (ICDM) . IEEE. págs. 267–276. doi :10.1109/icdm.2018.00042. ISBN 978-1-5386-9159-5. S2CID 52841398.
^ Yuen-Hsien Tseng, "Generación automática de sinónimos para documentos chinos", Revista de la Sociedad Estadounidense de Ciencia y Tecnología de la Información, vol. 53, núm. 13, noviembre de 2002, págs. 1130-1138.
^ Yuen-Hsien Tseng, "Etiquetado de títulos genéricos para documentos agrupados", Sistemas expertos con aplicaciones, vol. 37, núm. 3, 15 de marzo de 2010, págs. 2247-2254.