stringtranslate.com

Modelo de espacio vectorial generalizado

El modelo de espacio vectorial generalizado es una generalización del modelo de espacio vectorial utilizado en la recuperación de información . Wong et al. [1] presentó un análisis de los problemas que crea el supuesto de ortogonalidad por pares del modelo de espacio vectorial (VSM). A partir de aquí ampliaron el VSM al modelo de espacio vectorial generalizado (GVSM).

Definiciones

GVSM introduce correlaciones término a término, que desaprueban el supuesto de ortogonalidad por pares. Más específicamente, el factor consideró un nuevo espacio, donde cada término vector ti se expresó como una combinación lineal de 2 n vectores m r donde r = 1...2 n .

Para un documento d k y una consulta q la función de similitud ahora se convierte en:

donde ti y t j son ahora vectores de un espacio de 2 n dimensiones.

La correlación de términos se puede implementar de varias maneras. Por ejemplo, Wong et al. utiliza el término matriz de frecuencia de ocurrencia obtenida de la indexación automática como entrada para su algoritmo. El término ocurrencia y resultado es el término correlación entre cualquier par de términos del índice.

Información semántica sobre GVSM

Hay al menos dos direcciones básicas para incorporar la relación entre términos, además de la concordancia exacta de palabras clave, en un modelo de recuperación:

  1. calcular correlaciones semánticas entre términos
  2. calcular estadísticas de coocurrencia de frecuencia a partir de grandes corpus

Recientemente, Tsatsaronis [2] se centró en el primer enfoque.

Miden la relación semántica ( SR ) utilizando un diccionario de sinónimos ( O ) como WordNet . Considera la longitud del camino, capturada por la compacidad ( SCM ), y la profundidad del camino, capturada por la elaboración semántica del camino ( SPE ). Estiman el producto interno mediante:

donde s i y s j son sentidos de los términos ti y t j respectivamente , maximizando .

Partiendo también del primer enfoque, Waitelonis et al. [3] han calculado la relación semántica a partir de recursos de datos abiertos vinculados, incluida DBpedia y la taxonomía YAGO . De este modo explotan las relaciones taxonómicas entre entidades semánticas en documentos y consultas después de la vinculación de entidades nombradas .

Referencias

  1. ^ Wong, SKM; Ziarko, Wojciech; Wong, Patrick CN (5 de junio de 1985), "Modelo de espacios vectoriales generalizados en la recuperación de información", Actas de la octava conferencia internacional anual ACM SIGIR sobre investigación y desarrollo en recuperación de información - SIGIR '85 , SIGIR ACM , págs. 25, doi : 10.1145/253495.253506 , ISBN 0897911598
  2. ^ Tsatsaronis, George; Panagiotopoulou, Vicky (2 de abril de 2009), Un modelo de espacio vectorial generalizado para la recuperación de texto basado en la relación semántica (PDF) , EACL ACM
  3. ^ Waitelonis, Jörg; Exeler, Claudia; Sack, Harald (11 de septiembre de 2015), Los datos vinculados permitieron el modelo de espacio vectorial generalizado para mejorar la recuperación de documentos (PDF) , ISWC 2015, CEUR-WS 1581