stringtranslate.com

Modelo de espacio vectorial

El modelo de espacio vectorial o modelo de vector de término es un modelo algebraico para representar documentos de texto (o más generalmente, elementos) como vectores de modo que la distancia entre vectores represente la relevancia entre los documentos. Se utiliza en filtrado de información , recuperación de información , indexación y clasificaciones de relevancia. Su primer uso fue en el Sistema de recuperación de información SMART [ cita necesaria ] .

Definiciones

En esta sección consideramos un modelo de espacio vectorial particular basado en la representación de bolsa de palabras . Los documentos y consultas se representan como vectores.

Cada dimensión corresponde a un término separado. Si un término aparece en el documento, su valor en el vector es distinto de cero. Se han desarrollado varias formas diferentes de calcular estos valores, también conocidos como ponderaciones (término). Uno de los esquemas más conocidos es la ponderación tf-idf (consulte el ejemplo a continuación).

La definición del término depende de la aplicación. Normalmente, los términos son palabras sueltas, palabras clave o frases más largas. Si se eligen palabras como términos, la dimensionalidad del vector es el número de palabras en el vocabulario (el número de palabras distintas que aparecen en el corpus ).

Las operaciones vectoriales se pueden utilizar para comparar documentos con consultas. [1]

Aplicaciones

Los documentos candidatos del corpus se pueden recuperar y clasificar utilizando una variedad de métodos. Las clasificaciones de relevancia de los documentos en una búsqueda de palabras clave se pueden calcular, utilizando los supuestos de la teoría de similitudes de documentos , comparando la desviación de ángulos entre cada vector de documento y el vector de consulta original, donde la consulta se representa como un vector con la misma dimensión que los vectores que representan los demás documentos.

En la práctica, es más fácil calcular el coseno del ángulo entre los vectores, en lugar del ángulo en sí:

¿Dónde está la intersección (es decir, el producto escalar ) de los vectores del documento (d 2 en la figura de la derecha) y de la consulta (q en la figura), es la norma del vector d 2 y es la norma del vector q? La norma de un vector se calcula como tal:

Usando el coseno, la similitud entre el documento d j y la consulta q se puede calcular como:

Como todos los vectores considerados por este modelo son no negativos en cuanto a elementos, un valor de coseno de cero significa que la consulta y el vector del documento son ortogonales y no coinciden (es decir, el término de consulta no existe en el documento que se está considerando). Consulte similitud del coseno para obtener más información. [1]

Ponderaciones de frecuencia de documentos de frecuencia inversa de términos

En el modelo clásico de espacio vectorial propuesto por Salton , Wong y Yang [2], los pesos específicos de los términos en los vectores de documentos son productos de parámetros locales y globales. El modelo se conoce como modelo de frecuencia de documentos inversa a la frecuencia . El vector de peso para el documento d es , donde

y

Ventajas

El modelo de espacio vectorial tiene las siguientes ventajas sobre el modelo booleano estándar :

  1. Permite clasificar documentos según su posible relevancia
  2. Permite recuperar elementos con una superposición parcial de términos [1]

La mayoría de estas ventajas son consecuencia de la diferencia en la densidad de la representación de la colección de documentos entre los enfoques de frecuencia de documentos booleanos y de frecuencia inversa de términos. Cuando se utilizan pesos booleanos, cualquier documento se encuentra en un vértice de un hipercubo de n dimensiones . Por tanto, las posibles representaciones de documentos son y la distancia euclidiana máxima entre pares es . A medida que se agregan documentos a la colección de documentos, la región definida por los vértices del hipercubo se vuelve más poblada y, por lo tanto, más densa. A diferencia del booleano, cuando se agrega un documento utilizando ponderaciones de frecuencia de documento inversa de frecuencia, las frecuencias inversas de los términos del nuevo documento disminuyen mientras que las de los términos restantes aumentan. En promedio, a medida que se agregan documentos, la región donde se encuentran los documentos se expande regulando la densidad de toda la representación de la colección. Este comportamiento modela la motivación original de Salton y sus colegas de que una colección de documentos representada en una región de baja densidad podría producir mejores resultados de recuperación.

Limitaciones

El modelo de espacio vectorial tiene las siguientes limitaciones:

  1. Se supone que los términos de consulta son independientes, por lo que es posible que las frases no estén bien representadas en la clasificación.
  2. Sensibilidad semántica; Los documentos con contexto similar pero con vocabulario de términos diferente no se asociarán [1]

Sin embargo, muchas de estas dificultades pueden superarse mediante la integración de varias herramientas, incluidas técnicas matemáticas como la descomposición de valores singulares y bases de datos léxicas como WordNet .

Modelos basados ​​​​y ampliando el modelo del espacio vectorial.

Los modelos basados ​​​​y ampliando el modelo de espacio vectorial incluyen:

Software que implementa el modelo de espacio vectorial.

Los siguientes paquetes de software pueden ser de interés para quienes deseen experimentar con modelos vectoriales e implementar servicios de búsqueda basados ​​en ellos.

Software gratuito de código abierto

Otras lecturas

Ver también

Referencias

  1. ^ abcdBüttcher , Stefan; Clarke, Charles LA; Cormack, Gordon V. (2016). Recuperación de información: implementación y evaluación de motores de búsqueda (Primera edición de bolsillo de MIT Press). Cambridge, Massachusetts Londres, Inglaterra: The MIT Press. ISBN 978-0-262-52887-0.
  2. ^ G. Salton, A. Wong, CS Yang, Un modelo de espacio vectorial para indexación automática, Communications of the ACM, v.18 n.11, p.613–620, noviembre de 1975