RetrievalWare es un motor de búsqueda empresarial que enfatiza el procesamiento del lenguaje natural y las redes semánticas , que estuvo disponible comercialmente entre 1992 y 2007 y es especialmente conocido por su uso por parte de agencias de inteligencia gubernamentales. [1]
RetrievalWare fue creado inicialmente por Paul Nelson, [2] Kenneth Clark, [3] y Edwin Addison [4] como parte de ConQuest Software. El desarrollo comenzó en 1989, pero el software no estuvo disponible comercialmente a gran escala hasta 1992. La financiación inicial fue proporcionada por Rome Laboratory a través de una subvención para la investigación de innovación para pequeñas empresas . [5]
El 6 de julio de 1995, ConQuest Software se fusionó con la empresa NASDAQ, Excalibur Technologies [6] y el producto fue rebautizado como RetrievalWare. El 21 de diciembre de 2000, Excalibur Technologies se fusionó con la división Interactive Media Services de Intel Corporation para formar Convera Corporation . [7] Finalmente, el 9 de abril de 2007, el software y el negocio de RetrievalWare fueron adquiridos por Fast Search & Transfer , momento en el que el producto fue retirado oficialmente. [8] Microsoft Corporation continúa manteniendo el producto para su base de clientes existente.
Los ingresos anuales de RetrievalWare alcanzaron su punto máximo en 2001, con alrededor de 40 millones de dólares estadounidenses. [9]
RetrievalWare es un sistema de búsqueda de texto por relevancia con mejoras de procesamiento extraídas de los campos del procesamiento del lenguaje natural (PLN) y las redes semánticas . Los algoritmos de PNL incluyen la lematización basada en diccionarios y la identificación de frases basada en diccionarios. RetrievalWare utiliza redes semánticas para expandir las palabras de consulta ingresadas por el usuario a términos relacionados con pesos de términos determinados por la distancia a los términos originales del usuario. Además de la expansión automática, estaba disponible un modo de retroalimentación mediante el cual los usuarios podían elegir el significado de la palabra antes de realizar la expansión. Las primeras redes semánticas se construyeron utilizando WordNet .
Además, RetrievalWare implementó una forma de búsqueda de n-gramas (conocida como APRP - Adaptive Pattern Recognition Processing [10] ), diseñada para buscar en documentos con errores de OCR . Los términos de consulta se dividen en conjuntos de 2-gramas que se utilizan para localizar términos coincidentes de manera similar en el índice invertido . Las coincidencias resultantes se ponderan en función de medidas similares y luego se utilizan para buscar documentos.
Todas estas características estaban disponibles a más tardar en 1993 [11] y ConQuest software afirmó que fue el primer sistema de búsqueda de texto comercial en implementar estas técnicas. [12]
Otras características notables de RetrievalWare incluyen servidores de búsqueda distribuidos, [11] sincronizadores para indexar sistemas de gestión de contenido externo y bases de datos relacionales , [13] un modelo de seguridad heterogéneo, [13] categorización de documentos , [13] coincidencia de consultas de documentos en tiempo real (creación de perfiles), [11] búsquedas multilingües (consultas que contienen términos de varios idiomas que buscan documentos que contienen términos de varios idiomas) y búsquedas interlingües (consultas en un idioma que buscan documentos en un idioma diferente). [14]
RetrievalWare participó en la Conferencia de recuperación de texto en 1992 (TREC-1), 1993 (TREC-2) y 1995 (TREC-4). [15]
En TREC-1 [16] y TREC-4, [17] las ejecuciones de RetrievalWare para consultas ingresadas manualmente produjeron los mejores resultados según los promedios de 11 puntos en todos los motores de búsqueda que participaron en la categoría ad hoc donde a los motores de búsqueda se les permite una única oportunidad de procesar consultas previamente desconocidas contra una base de datos existente.
Si bien FAST seguirá brindando soporte a la plataforma RetrievalWare, no continuará con el desarrollo de la misma ni agregará nuevas funciones. A los clientes de RetrievalWare se les ofrecerá una ruta de actualización a la propia oferta de FAST.
ConQuest es el único motor de búsqueda que utiliza diccionarios, tesauros y otros recursos léxicos para crear una base de conocimiento semántico de más de 440.000 significados de palabras y 1,6 millones de relaciones entre palabras.