stringtranslate.com

Modelo de espacio vectorial basado en temas

El modelo de espacio vectorial basado en temas (TVSM) [1] (literatura: [1]) extiende el modelo de espacio vectorial de recuperación de información al eliminar la restricción de que los vectores de términos sean ortogonales. La suposición de términos ortogonales es incorrecta con respecto a los lenguajes naturales, lo que causa problemas con sinónimos y términos fuertemente relacionados. Esto facilita el uso de listas de palabras vacías, derivaciones y tesauros en TVSM. A diferencia del modelo de espacio vectorial generalizado, el TVSM no depende de similitudes entre términos basadas en la concurrencia.

Definiciones

La premisa básica de TVSM es la existencia de un espacio d dimensional R con solo intersecciones positivas en el eje, es decir, R en R + y d en N + . Cada dimensión de R representa un tema fundamental. Un vector de términos t tiene un peso específico para un determinado R. Para calcular estos pesos se hacen suposiciones teniendo en cuenta el contenido del documento. Idealmente, los términos importantes tendrán un peso alto y las palabras vacías y los términos irrelevantes para el tema tendrán un peso bajo. El modelo de documento TVSM se obtiene como una suma de vectores de términos que representan términos en el documento. La similitud entre dos documentos Di y Dj se define como el producto escalar de vectores de documentos.

Modelo de espacio vectorial basado en temas mejorado

La mejora del Modelo de espacio vectorial basado en temas mejorado (eTVSM) [2] (literatura: [2]) es una propuesta sobre cómo derivar vectores de términos a partir de una ontología . El uso de una ontología sinónimo creada a partir de WordNet Kuropka muestra buenos resultados para la similitud de documentos. Si se utiliza una ontología trivial, los resultados son similares al modelo de espacio vectorial.

Implementaciones

Referencias

  1. ^ Dominik Kuropka; Jörg Becker (2003), Modelo de espacio vectorial basado en temas (PDF)
  2. ^ Dominik Kuropka; Artem Polyvyanyy (2007), Una evaluación cuantitativa del modelo de espacio vectorial mejorado basado en temas (PDF)