La búsqueda empresarial es una tecnología de software para buscar fuentes de datos internas de una empresa, normalmente contenido de intranets y bases de datos . La búsqueda generalmente se ofrece solo a los usuarios internos de la empresa. [1] [2] La búsqueda empresarial se puede contrastar con la búsqueda web , que aplica la tecnología de búsqueda a los documentos en la web abierta, y la búsqueda de escritorio , que aplica la tecnología de búsqueda al contenido de una sola computadora.
Los sistemas de búsqueda empresarial indexan datos y documentos de diversas fuentes, como sistemas de archivos , intranets , sistemas de gestión de documentos , correo electrónico y bases de datos . Muchos sistemas de búsqueda empresarial integran datos estructurados y no estructurados en sus colecciones. [3] Los sistemas de búsqueda empresarial también utilizan controles de acceso para aplicar una política de seguridad a sus usuarios. [4]
La búsqueda empresarial puede verse como un tipo de búsqueda vertical de una empresa.
En un sistema de búsqueda empresarial, el contenido pasa por varias fases desde el repositorio de origen hasta los resultados de la búsqueda:
El conocimiento del contenido (o "recopilación de contenido") suele ser un modelo push o pull. En el modelo push, un sistema de origen se integra con el motor de búsqueda de tal manera que se conecta a él y envía contenido nuevo directamente a sus API . Este modelo se utiliza cuando la indexación en tiempo real es importante. En el modelo pull, el software recopila contenido de las fuentes utilizando un conector como un rastreador web o un conector de base de datos . El conector normalmente sondea la fuente con ciertos intervalos para buscar contenido nuevo, actualizado o eliminado. [5]
El contenido de diferentes fuentes puede tener muchos formatos o tipos de documentos diferentes, como XML, HTML, formatos de documentos de Office o texto sin formato. La fase de procesamiento de contenido procesa los documentos entrantes a texto sin formato mediante filtros de documentos. A menudo, también es necesario normalizar el contenido de varias maneras para mejorar la recuperación o la precisión . Estas pueden incluir la derivación , la lematización , la expansión de sinónimos , la extracción de entidades y el etiquetado de partes del discurso .
Como parte del procesamiento y análisis, se aplica la tokenización para dividir el contenido en tokens , que es la unidad de coincidencia básica. También es común normalizar los tokens a minúsculas para proporcionar una búsqueda que no distinga entre mayúsculas y minúsculas, así como normalizar los acentos para proporcionar una mejor recuperación.
El texto resultante se almacena en un índice , que está optimizado para realizar búsquedas rápidas sin almacenar el texto completo del documento. El índice puede contener el diccionario de todas las palabras únicas del corpus, así como información sobre la clasificación y la frecuencia de los términos .
A través de una página web, el usuario envía una consulta al sistema. La consulta consta de los términos que el usuario introduce, así como de acciones de navegación, como la creación de facetas y la paginación de información.
La consulta procesada se compara luego con el índice almacenado y el sistema de búsqueda devuelve resultados (o "resultados") que hacen referencia a los documentos fuente que coinciden. Algunos sistemas pueden presentar el documento tal como fue indexado.