Un motor de búsqueda vertical se diferencia de un motor de búsqueda web general en que se centra en un segmento específico de contenido en línea. También se denominan motores de búsqueda especializados o temáticos. El área de contenido vertical puede basarse en la actualidad, el tipo de medio o el género del contenido. Los verticales más comunes incluyen compras, la industria automotriz, información legal, información médica, literatura académica, búsqueda de empleo y viajes. Algunos ejemplos de motores de búsqueda verticales incluyen la Biblioteca del Congreso , Mocavo , Nuroa , Trulia y Yelp .
A diferencia de los motores de búsqueda web generales, que intentan indexar grandes porciones de la World Wide Web mediante un rastreador web , los motores de búsqueda verticales suelen utilizar un rastreador específico que intenta indexar solo las páginas web relevantes para un tema o un conjunto de temas predefinidos. Algunos sitios de búsqueda vertical se centran en verticales individuales, mientras que otros incluyen múltiples búsquedas verticales dentro de un motor de búsqueda.
La búsqueda vertical ofrece varios beneficios potenciales sobre los motores de búsqueda generales:
La búsqueda vertical puede considerarse similar a la búsqueda empresarial , en la que el ámbito de interés es la empresa, como una compañía, un gobierno u otra organización. En 2013, los sitios web de comparación de precios al consumidor con motores de búsqueda verticales integrados, como FindTheBest, atrajeron grandes rondas de financiación de capital de riesgo, lo que indica una tendencia de crecimiento para estas aplicaciones de la tecnología de búsqueda vertical. [1] [2]
Los mercados verticales específicos de un dominio se centran en un tema específico. John Battelle lo describe en su libro The Search (2005):
Las soluciones de búsqueda específicas de dominio se centran en un área de conocimiento, creando experiencias de búsqueda personalizadas que, debido al corpus limitado del dominio y las relaciones claras entre los conceptos, brindan resultados extremadamente relevantes para los buscadores. [3]
Cualquier motor de búsqueda general indexaría todas las páginas y buscaría en amplitud para recopilar documentos. El rastreo en motores de búsqueda específicos de un dominio busca de manera más eficiente un pequeño subconjunto de documentos al centrarse en un conjunto particular. Se ha descubierto que el rastreo realizado con un marco de aprendizaje de refuerzo es tres veces más eficiente que la búsqueda en amplitud . [4]
A principios de 2014, la Agencia de Proyectos de Investigación Avanzada de Defensa ( DARPA ) publicó una declaración en su sitio web que describe los detalles preliminares del "programa Memex", que tiene como objetivo desarrollar nuevas tecnologías de búsqueda que superen algunas limitaciones de la búsqueda basada en texto. [5] DARPA quiere que la tecnología Memex desarrollada en esta investigación sea utilizable para motores de búsqueda que puedan buscar información en la Deep Web , la parte de Internet a la que los motores de búsqueda comerciales como Google o Yahoo pueden acceder en gran medida . El sitio web de DARPA describe que "el objetivo es inventar mejores métodos para interactuar y compartir información, de modo que los usuarios puedan organizar y buscar de forma rápida y completa subconjuntos de información relevantes para sus intereses individuales". [6] Como se informó en un artículo de Wired de 2015 , la tecnología de búsqueda que se está desarrollando en el programa Memex "tiene como objetivo arrojar luz sobre la dark web y descubrir patrones y relaciones en los datos en línea para ayudar a las fuerzas del orden y otros a rastrear la actividad ilegal". [7] La DARPA pretende que el programa sustituya los procedimientos centralizados utilizados por los motores de búsqueda comerciales, afirmando que la "creación de un nuevo paradigma de indexación y búsqueda específico de dominio proporcionará mecanismos para mejorar el descubrimiento de contenido, la extracción de información, la recuperación de información, la colaboración del usuario y la extensión de las capacidades de búsqueda actuales a la web profunda, la web oscura y el contenido no tradicional (por ejemplo, multimedia)". [8] En su descripción del programa, la DARPA explica el nombre del programa como un homenaje a la invención original de Bush, Memex, que sirvió de inspiración. [5]
En abril de 2015, se anunció que algunas partes de Memex serían de código abierto. [9] Algunos módulos estaban disponibles para su descarga. [8]