La lista de publicaciones es una estructura de datos que se utiliza habitualmente en los sistemas de recuperación de información (IR) para almacenar información de indexación sobre un corpus. Es fundamental para el diseño y la eficiencia de los motores de búsqueda y los sistemas de gestión de bases de datos que necesitan recuperar información rápidamente.
Como mínimo, una lista de publicaciones se asocia a un término de un documento y registra los lugares donde aparece ese término. Cada término que se encuentra en los documentos de un corpus se asigna a una lista de publicaciones correspondiente que contiene información como los documentos en los que aparece el término y, a menudo, las posiciones dentro de esos documentos. [1]
Una lista de publicaciones consta de elementos de publicación, a veces denominados publicaciones. Cada publicación normalmente contiene:
La estructura exacta de una lista de publicaciones puede variar según su aplicación; algunas utilizan listas vinculadas, matrices o estructuras de datos más complejas, como listas de omisión, para optimizar distintos tipos de búsquedas.
Durante una consulta de búsqueda, el sistema IR recupera listas de publicaciones para cada término de la consulta para determinar qué documentos contienen los términos y qué tan relevantes podrían ser esos documentos en función de la frecuencia y las posiciones de los términos.
Algunas variantes de listas de publicaciones incluyen: