stringtranslate.com

Modelo de independencia binaria

El modelo de independencia binaria ( BIM ) [1] [2] en informática y ciencias de la información es una técnica de recuperación de información probabilística . El modelo hace algunas suposiciones simples para hacer que la estimación de la similitud entre documentos y consultas sea probable y factible.

Definiciones

El supuesto de independencia binaria es que los documentos son vectores binarios . Es decir, solo se registra la presencia o ausencia de términos en los documentos. Los términos se distribuyen independientemente en el conjunto de documentos relevantes y también se distribuyen independientemente en el conjunto de documentos irrelevantes. La representación es un conjunto ordenado de variables booleanas . Es decir, la representación de un documento o consulta es un vector con un elemento booleano para cada término en consideración. Más específicamente, un documento se representa mediante un vector d = ( x 1 , ..., x m ) donde x t = 1 si el término t está presente en el documento d y x t = 0 si no lo está. Muchos documentos pueden tener la misma representación vectorial con esta simplificación. Las consultas se representan de forma similar. "Independencia" significa que los términos del documento se consideran independientemente unos de otros y no se modela ninguna asociación entre términos. Este supuesto es muy limitante, pero se ha demostrado que da resultados suficientemente buenos para muchas situaciones. Esta independencia es el supuesto "ingenuo" de un clasificador Naive Bayes , donde las propiedades que se implican entre sí se tratan, no obstante, como independientes por razones de simplicidad. Este supuesto permite que la representación se trate como una instancia de un modelo de espacio vectorial al considerar cada término como un valor de 0 o 1 a lo largo de una dimensión ortogonal a las dimensiones utilizadas para los otros términos.

La probabilidad de que un documento sea relevante se deriva de la probabilidad de relevancia del vector de términos de ese documento . Al utilizar la regla de Bayes obtenemos:

donde y son las probabilidades de recuperar un documento relevante o no relevante, respectivamente. Si es así, entonces la representación de ese documento es x . Las probabilidades exactas no se pueden conocer de antemano, por lo que se deben utilizar estimaciones a partir de estadísticas sobre la colección de documentos.

e indican la probabilidad previa de recuperar un documento relevante o no relevante respectivamente para una consulta q . Si, por ejemplo, supiéramos el porcentaje de documentos relevantes en la colección, entonces podríamos usarlo para estimar estas probabilidades. Dado que un documento es relevante o no relevante para una consulta, tenemos que:

Ponderación de los términos de consulta

Dada una consulta binaria y el producto escalar como la función de similitud entre un documento y una consulta, el problema es asignar pesos a los términos en la consulta de modo que la efectividad de recuperación sea alta. Sea y la probabilidad de que un documento relevante y un documento irrelevante tengan el término i ésimo respectivamente. Yu y Salton [1] , quienes introdujeron por primera vez BIM, proponen que el peso del término i ésimo es una función creciente de . Por lo tanto, si es mayor que , el peso del término i será mayor que el del término j . Yu y Salton [1] demostraron que dicha asignación de peso a los términos de consulta produce una mejor efectividad de recuperación que si los términos de consulta tienen el mismo peso. Robertson y Spärck Jones [2] demostraron más tarde que si al término i ésimo se le asigna el peso de , entonces se obtiene una efectividad de recuperación óptima bajo el supuesto de independencia binaria.

El modelo de independencia binaria fue introducido por Yu y Salton. [1] El nombre de modelo de independencia binaria fue acuñado por Robertson y Spärck Jones [2] quienes usaron la probabilidad de log-odds del modelo de relevancia probabilística para derivar donde la probabilidad de log-odds se muestra como equivalente en rango a la probabilidad de relevancia (es decir, ) por Luk, [3] obedeciendo el principio de clasificación de probabilidad. [4]

Véase también

Lectura adicional

Referencias

  1. ^ abcd Yu, CT; Salton, G. (1976). "Ponderación de precisión: un método de indexación automática eficaz" (PDF) . Revista de la ACM . 23 : 76–88. doi :10.1145/321921.321930. hdl : 1813/7313 .
  2. ^ abc Robertson, SE ; Spärck Jones, K. (1976). "Ponderación de relevancia de los términos de búsqueda". Revista de la Sociedad Americana de Ciencias de la Información . 27 (3): 129. doi :10.1002/asi.4630270302.
  3. ^ Luk, RWP (2022). "¿Por qué la recuperación de información es una disciplina científica?". Fundamentos de la ciencia . 27 (2): 427–453. doi :10.1007/s10699-020-09685-x. hdl : 10397/94873 .
  4. ^ Robertson, SE (1977). "El principio de clasificación de probabilidad en IR". Revista de documentación . 33 (4): 294–304. doi :10.1108/eb026647.