Búsqueda de texto completo

En la recuperación de texto , la búsqueda de texto completo se refiere a las técnicas para buscar un solo documento almacenado en una computadora o una colección en una base de datos de texto completo . La búsqueda de texto completo se distingue de las búsquedas basadas en metadatos o en partes de los textos originales representados en bases de datos (como títulos, resúmenes, secciones seleccionadas o referencias bibliográficas).

En una búsqueda de texto completo, un motor de búsqueda examina todas las palabras de cada documento almacenado mientras intenta encontrar una coincidencia con los criterios de búsqueda (por ejemplo, el texto especificado por un usuario). Las técnicas de búsqueda de texto completo aparecieron en la década de 1960, por ejemplo, IBM STAIRS a partir de 1969, y se volvieron comunes en las bases de datos bibliográficas en línea en la década de 1990. ^{[ verificación necesaria ]} Muchos sitios web y programas de aplicación (como el software de procesamiento de textos ) proporcionan capacidades de búsqueda de texto completo. Algunos motores de búsqueda web, como el antiguo AltaVista , emplean técnicas de búsqueda de texto completo, mientras que otros indexan solo una parte de las páginas web examinadas por sus sistemas de indexación. ^{[ 1 ]}

Indexación

Cuando se trabaja con una pequeña cantidad de documentos, es posible que el motor de búsqueda de texto completo escanee directamente el contenido de los documentos con cada consulta , una estrategia llamada " escaneo en serie ". Esto es lo que hacen algunas herramientas, como grep , al realizar búsquedas.

Sin embargo, cuando el número de documentos a buscar es potencialmente grande, o la cantidad de consultas de búsqueda a realizar es sustancial, el problema de la búsqueda de texto completo a menudo se divide en dos tareas: indexación y búsqueda. La etapa de indexación escaneará el texto de todos los documentos y creará una lista de términos de búsqueda (a menudo llamada índice , pero más correctamente llamada concordancia ). En la etapa de búsqueda, cuando se realiza una consulta específica, solo se hace referencia al índice, en lugar del texto de los documentos originales. ^[2]

El indexador creará una entrada en el índice para cada término o palabra que se encuentre en un documento y posiblemente anotará su posición relativa dentro del documento. Por lo general, el indexador ignorará las palabras vacías (como "the" y "and") que son comunes y no tienen el suficiente significado como para ser útiles en la búsqueda. Algunos indexadores también emplean la derivación específica del idioma en las palabras que se indexan. Por ejemplo, las palabras "drives", "drove" y "driven" se registrarán en el índice bajo la palabra conceptual única "drive".

El equilibrio entre precisión y recuperación

Diagrama de una búsqueda de baja precisión y baja recuperación

La recuperación mide la cantidad de resultados relevantes que devuelve una búsqueda, mientras que la precisión es la medida de la calidad de los resultados devueltos. La recuperación es la relación entre los resultados relevantes devueltos y todos los resultados relevantes. La precisión es la relación entre la cantidad de resultados relevantes devueltos y la cantidad total de resultados devueltos.

El diagrama de la derecha representa una búsqueda de baja precisión y baja recuperación. En el diagrama, los puntos rojos y verdes representan la población total de resultados de búsqueda potenciales para una búsqueda determinada. Los puntos rojos representan resultados irrelevantes y los puntos verdes representan resultados relevantes. La relevancia se indica por la proximidad de los resultados de búsqueda al centro del círculo interior. De todos los resultados posibles que se muestran, los que realmente fueron devueltos por la búsqueda se muestran sobre un fondo azul claro. En el ejemplo, solo se devolvió 1 resultado relevante de 3 resultados relevantes posibles, por lo que la recuperación es una proporción muy baja de 1/3, o 33%. La precisión para el ejemplo es un 1/4 muy bajo, o 25%, ya que solo 1 de los 4 resultados devueltos fue relevante. ^[3]

Debido a las ambigüedades del lenguaje natural , los sistemas de búsqueda de texto completo suelen incluir opciones como el filtrado para aumentar la precisión y la búsqueda de raíces para aumentar la recuperación. La búsqueda de vocabulario controlado también ayuda a aliviar los problemas de baja precisión al etiquetar los documentos de tal manera que se eliminan las ambigüedades. La compensación entre precisión y recuperación es simple: un aumento de la precisión puede reducir la recuperación general, mientras que un aumento de la recuperación reduce la precisión. ^[4]

Problema de falsos positivos

Es probable que la búsqueda de texto completo recupere muchos documentos que no son relevantes para la pregunta de búsqueda deseada . Dichos documentos se denominan falsos positivos (consulte Error de tipo I ). La recuperación de documentos irrelevantes suele deberse a la ambigüedad inherente del lenguaje natural . En el diagrama de ejemplo de la derecha, los falsos positivos están representados por los resultados irrelevantes (puntos rojos) que arrojó la búsqueda (sobre un fondo azul claro).

Las técnicas de agrupamiento basadas en algoritmos bayesianos pueden ayudar a reducir los falsos positivos. Para un término de búsqueda de "banco", se puede utilizar el agrupamiento para categorizar el universo de documentos/datos en "institución financiera", "lugar para sentarse", "lugar para almacenar", etc. Según la frecuencia con la que aparezcan palabras relevantes para las categorías, los términos de búsqueda o un resultado de búsqueda se pueden colocar en una o más de las categorías. Esta técnica se está implementando ampliamente en el dominio del descubrimiento electrónico . ^{[ Aclaración necesaria ]}

Mejoras de rendimiento

Las deficiencias de la búsqueda de texto completo se han abordado de dos maneras: proporcionando a los usuarios herramientas que les permiten expresar sus preguntas de búsqueda con mayor precisión y desarrollando nuevos algoritmos de búsqueda que mejoran la precisión de la recuperación.

Herramientas de consulta mejoradas

Palabras clave . Se solicita a los creadores de documentos (o indexadores capacitados) que proporcionen una lista de palabras que describan el tema del texto, incluidos sinónimos de palabras que describan este tema. Las palabras clave mejoran la recuperación, en particular si la lista de palabras clave incluye una palabra de búsqueda que no está en el texto del documento.
Búsqueda restringida por campos. Algunos motores de búsqueda permiten a los usuarios limitar las búsquedas de texto completo a un campo en particular dentro de un registro de datos almacenado , como "Título" o "Autor".
Consultas booleanas . Las búsquedas que utilizanoperadores booleanos (por ejemplo, "enciclopedia" AND "online" NOT "Encarta" ) pueden aumentar drásticamente la precisión de una búsqueda de texto completo. El operador AND dice, en efecto, "No recuperar ningún documento a menos que contenga ambos términos". El operador NOT dice, en efecto, "No recuperar ningún documento que contenga esta palabra". Si la lista de recuperación recupera muy pocos documentos,se puede utilizar el operador OR para aumentar la recuperación ; considere, por ejemplo, "enciclopedia" AND "online" OR "Internet" NOT "Encarta" . Esta búsqueda recuperará documentos sobre enciclopedias en línea que utilicen el término "Internet" en lugar de "online". Este aumento de precisión es muy comúnmente contraproducente ya que generalmente viene con una pérdida drástica de recuperación.^[5]
Búsqueda por frase . La búsqueda por frase solo coincide con aquellos documentos que contienen una frase específica, como "Wikipedia, la enciclopedia libre".
Búsqueda de conceptos . Una búsqueda que se basa en conceptos de varias palabras, por ejemplo, procesamiento de términos compuestos . Este tipo de búsqueda se está volviendo popular en muchas soluciones de descubrimiento electrónico.
Búsqueda por concordancia . Una búsqueda por concordancia produce una lista alfabética de todas las palabras principales que aparecen en un texto con su contexto inmediato.
Búsqueda por proximidad . Una búsqueda por frase solo coincide con aquellos documentos que contienen dos o más palabras separadas por una cantidad específica de palabras; una búsqueda de "Wikipedia" WITHIN2 "free" recuperaría solo aquellos documentos en los que las palabras "Wikipedia" y "free" aparecen con dos palabras de diferencia entre sí.
Expresión regular . Una expresión regular emplea una sintaxis de consulta compleja pero potente que se puede utilizar para especificar condiciones de recuperación con precisión.
La búsqueda difusa buscará documentos que coincidan con los términos dados y alguna variación en torno a ellos (usando, por ejemplo, la distancia de edición para establecer el umbral de la variación múltiple)
Búsqueda con comodín . Una búsqueda que sustituye uno o más caracteres en una consulta de búsqueda por un carácter comodín, como un asterisco . Por ejemplo, si se utiliza el asterisco en una consulta de búsqueda "s*n", se encontrarán "sin", "son", "sun", etc. en un texto.

Algoritmos de búsqueda mejorados

El algoritmo PageRank desarrollado por Google da más importancia a los documentos que tienen enlaces a otras páginas web . ^[6] Véase Motor de búsqueda para ver ejemplos adicionales.

Software

A continuación se presenta una lista parcial de productos de software disponibles cuyo propósito principal es realizar búsquedas e indexaciones de texto completo. Algunos de ellos se acompañan de descripciones detalladas de su teoría de funcionamiento o algoritmos internos, que pueden brindar información adicional sobre cómo se puede realizar la búsqueda de texto completo.

Software libre y de código abierto

Software propietario

Referencias

^ En la práctica, puede resultar difícil determinar cómo funciona un motor de búsqueda determinado. Los algoritmos de búsqueda que emplean los servicios de búsqueda web rara vez se revelan por completo, por temor a que los empresarios web utilicen técnicas de optimización de motores de búsqueda para mejorar su prominencia en las listas de resultados.
^ "Capacidades del sistema de búsqueda de texto completo". Archivado desde el original el 23 de diciembre de 2010.
^ Coles, Michael (2008). Búsqueda de texto completo profesional en SQL Server 2008 (versión 1.ª ed.). Apress Publishing Company . ISBN 978-1-4302-1594-3.
^ B., Yuwono; Lee, DL (1996). Algoritmos de búsqueda y clasificación para localizar recursos en la World Wide Web . 12.ª Conferencia Internacional sobre Ingeniería de Datos (ICDE'96). pág. 164.
^ Comparación experimental de esquemas para interpretar consultas booleanas
^ US 6285999, Page, Lawrence, "Método para la clasificación de nodos en una base de datos vinculada", publicado el 9 de enero de 1998, emitido el 4 de septiembre de 2001. "Un método asigna rangos de importancia a los nodos en una base de datos vinculada, como cualquier base de datos de documentos que contenga citas, la World Wide Web o cualquier otra base de datos hipermedia. El rango asignado a un documento se calcula a partir de los rangos de los documentos que lo citan. Además, el rango de un documento es..."
^ "SAP agrega paquetes de software basados en HANA a su cartera de IoT | MarTech Advisor". www.martechadvisor.com .
^ "Búsqueda de inteligencia artificial Vertex". cloud.google.com/enterprise-search .

Véase también

Coincidencia de patrones y coincidencia de cadenas
Procesamiento de términos compuestos
Búsqueda empresarial
Extracción de información
Recuperación de información
Búsqueda por facetas
WebCrawler , el primer motor FTS
Indexación de motores de búsqueda : cómo los motores de búsqueda generan índices para respaldar la búsqueda de texto completo