stringtranslate.com

Motor de metabúsqueda

Arquitectura de un metabuscador

Un metabuscador (o agregador de búsquedas ) es una herramienta de recuperación de información en línea que utiliza los datos de un motor de búsqueda web para generar sus propios resultados. [1] [2] Los metabuscadores toman la información de un usuario e inmediatamente consultan a los motores de búsqueda [3] para obtener resultados. Se recopilan datos suficientes , se clasifican y se presentan a los usuarios.

Problemas como el spam reducen la precisión y exactitud de los resultados. [4] El proceso de fusión tiene como objetivo mejorar la ingeniería de un metabuscador. [5]

Algunos ejemplos de metabuscadores son Skyscanner y Kayak.com , que agregan resultados de búsqueda de agencias de viajes en línea y sitios web de proveedores, y Searx , un motor de búsqueda gratuito y de código abierto que agrega resultados de motores de búsqueda de Internet.

Historia

La primera persona que incorporó la idea de la metabúsqueda fue Daniel Dreilinger, de la Universidad Estatal de Colorado . Desarrolló SearchSavvy, que permitía a los usuarios buscar en hasta 20 motores de búsqueda y directorios diferentes a la vez. Aunque era rápido, el motor de búsqueda estaba restringido a búsquedas simples y, por lo tanto, no era confiable. El estudiante de la Universidad de Washington Eric Selberg lanzó una versión más "actualizada" llamada MetaCrawler . Este motor de búsqueda mejoró la precisión de SearchSavvy al agregar su propia sintaxis de búsqueda en segundo plano y hacer coincidir la sintaxis con la de los motores de búsqueda que estaba investigando. Metacrawler redujo la cantidad de motores de búsqueda consultados a 6, pero aunque produjo resultados más precisos, todavía no se consideró tan preciso como buscar una consulta en un motor individual. [6]

El 20 de mayo de 1996, HotBot , entonces propiedad de Wired , era un motor de búsqueda con resultados de búsqueda provenientes de las bases de datos Inktomi y Direct Hit. Era conocido por sus resultados rápidos y como un motor de búsqueda con la capacidad de buscar dentro de los resultados de búsqueda. Tras ser comprado por Lycos en 1998, el desarrollo del motor de búsqueda se tambaleó y su participación de mercado cayó drásticamente. Después de pasar por algunas modificaciones, HotBot fue rediseñado en una interfaz de búsqueda simplificada, con sus características incorporadas en el rediseño del sitio web de Lycos. [7]

Bo Shu y Subhash Kak desarrollaron en 1999 un metabuscador llamado Anvish; los resultados de la búsqueda se ordenaban utilizando redes neuronales entrenadas instantáneamente . [8] Esto se incorporó posteriormente a otro metabuscador llamado Solosearch. [9]

En agosto de 2000, India obtuvo su primer metabuscador cuando se lanzó HumHaiIndia.com. [10] Fue desarrollado por Sumeet Lamba, que entonces tenía 16 años. [11] El sitio web luego fue rebautizado como Tazaa.com. [12]

Ixquick es un motor de búsqueda conocido por su declaración de política de privacidad. Desarrollado y lanzado en 1998 por David Bodnick, es propiedad de Surfboard Holding BV. En junio de 2006, Ixquick comenzó a eliminar los detalles privados de sus usuarios siguiendo el mismo proceso que con Scroogle . La política de privacidad de Ixquick incluye la no grabación de las direcciones IP de los usuarios, la no utilización de cookies de identificación, la no recopilación de datos personales y la no compartición de datos personales con terceros. [13] También utiliza un sistema de clasificación único en el que un resultado se clasifica por estrellas. Cuantas más estrellas tenga un resultado, más motores de búsqueda estarán de acuerdo con el resultado.

En abril de 2005, Dogpile , que en ese entonces era propiedad y estaba operada por InfoSpace , Inc., colaboró ​​con investigadores de la Universidad de Pittsburgh y la Universidad Estatal de Pensilvania para medir la superposición y las diferencias de clasificación de los principales motores de búsqueda web con el fin de evaluar los beneficios de utilizar un metabuscador para buscar en la web. Los resultados encontraron que de 10.316 consultas aleatorias definidas por el usuario de Google , Yahoo! y Ask Jeeves , solo el 3,2% de los resultados de búsqueda de la primera página eran los mismos en esos motores de búsqueda para una consulta determinada. Otro estudio realizado más tarde ese año utilizando 12.570 consultas aleatorias definidas por el usuario de Google , Yahoo!, MSN Search y Ask Jeeves encontró que solo el 1,1% de los resultados de búsqueda de la primera página eran los mismos en esos motores de búsqueda para una consulta determinada. [14]

Ventajas

Al enviar múltiples consultas a varios motores de búsqueda, se amplía la cobertura de datos del tema y se puede encontrar más información. Utilizan los índices creados por otros motores de búsqueda, agregando y, a menudo, procesando posteriormente los resultados de formas únicas. Un metabuscador tiene una ventaja sobre un motor de búsqueda único porque se pueden recuperar más resultados con la misma cantidad de esfuerzo. [2] También reduce el trabajo de los usuarios, que no tienen que escribir individualmente búsquedas de diferentes motores para buscar recursos. [2]

La metabúsqueda también es un método útil si el objetivo de la búsqueda del usuario es obtener una visión general del tema o conseguir respuestas rápidas. En lugar de tener que pasar por varios motores de búsqueda como Yahoo! o Google y comparar resultados, los metabuscadores pueden recopilar y combinar resultados rápidamente. Pueden hacerlo ya sea enumerando los resultados de cada motor consultado sin posprocesamiento adicional (Dogpile) o analizando los resultados y clasificándolos según sus propias reglas (IxQuick, Metacrawler y Vivismo).

Un metabuscador también puede ocultar la dirección IP del buscador a los motores de búsqueda consultados, proporcionando así privacidad a la búsqueda.

Desventajas

Los metabuscadores no son capaces de analizar los formularios de consulta ni de traducir completamente la sintaxis de la consulta . La cantidad de hipervínculos generados por los metabuscadores es limitada y, por lo tanto, no proporcionan al usuario los resultados completos de una consulta. [15]

La mayoría de los metabuscadores no ofrecen más de diez archivos vinculados desde un único motor de búsqueda y, por lo general, no interactúan con motores de búsqueda más grandes para obtener resultados. Los enlaces de pago por clic tienen prioridad y normalmente se muestran en primer lugar. [16]

La metabúsqueda también da la ilusión de que hay más cobertura del tema consultado, en particular si el usuario está buscando información popular o común. Es común terminar con múltiples resultados idénticos de los motores consultados. También es más difícil para los usuarios buscar con la sintaxis de búsqueda avanzada que se envía con la consulta, por lo que los resultados pueden no ser tan precisos como cuando un usuario está utilizando una interfaz de búsqueda avanzada en un motor específico. Esto hace que muchos motores de metabúsqueda utilicen la búsqueda simple. [17]

Operación

Un metabuscador acepta una única solicitud de búsqueda del usuario . Esta solicitud de búsqueda se transmite a la base de datos de otro motor de búsqueda . Un metabuscador no crea una base de datos de páginas web , sino que genera un sistema de base de datos federada de integración de datos de múltiples fuentes. [18] [19] [20]

Como cada motor de búsqueda es único y tiene diferentes algoritmos para generar datos clasificados, también se generarán duplicados. Para eliminar los duplicados, un metabuscador procesa estos datos y aplica su propio algoritmo. Se produce una lista revisada como resultado para el usuario. [ cita requerida ] Cuando un metabuscador se comunica con otros motores de búsqueda, estos responderán de tres maneras:

Arquitectura del ranking

Las páginas web que ocupan un lugar destacado en muchos motores de búsqueda probablemente sean más relevantes a la hora de proporcionar información útil. [21] Sin embargo, todos los motores de búsqueda tienen diferentes puntuaciones de clasificación para cada sitio web y la mayoría de las veces estas puntuaciones no son las mismas. Esto se debe a que los motores de búsqueda priorizan diferentes criterios y métodos de puntuación, por lo que un sitio web puede aparecer en un lugar destacado en un motor de búsqueda y en un lugar bajo en otro. Esto es un problema porque los metabuscadores dependen en gran medida de la coherencia de estos datos para generar cuentas fiables. [21]

Fusión

Modelo de fusión de datos

Un metabuscador utiliza el proceso de fusión para filtrar datos y obtener resultados más eficientes. Los dos métodos de fusión principales que se utilizan son: fusión de colecciones y fusión de datos.

indexación de spam

El spamdexing es la manipulación deliberada de los índices de los motores de búsqueda. Utiliza una serie de métodos para manipular la relevancia o prominencia de los recursos indexados de una manera que no está alineada con la intención del sistema de indexación. El spamdexing puede ser muy molesto para los usuarios y problemático para los motores de búsqueda porque el contenido devuelto por las búsquedas tiene poca precisión. [ cita requerida ] Esto eventualmente hará que el motor de búsqueda se vuelva poco confiable y no confiable para el usuario. Para abordar el spamdexing, los algoritmos de los robots de búsqueda se vuelven más complejos y se cambian casi todos los días para eliminar el problema. [24]

Es un problema importante para los metabuscadores porque altera los criterios de indexación del rastreador web , de los que se depende en gran medida para dar formato a las listas de clasificación. El spamdexing manipula el sistema de clasificación natural de un motor de búsqueda y coloca los sitios web en una posición más alta en la lista de clasificación de la que tendrían de forma natural. [25] Hay tres métodos principales que se utilizan para lograr esto:

Contenido spam

El spam de contenido son técnicas que alteran la visión lógica que tiene un motor de búsqueda sobre el contenido de una página. Entre estas técnicas se incluyen:

Enlace spam

El spam de enlaces son enlaces entre páginas que existen por razones distintas a su mérito. Las técnicas incluyen:

Encubierto

Esta es una técnica de SEO en la que se envían diferentes materiales e información al rastreador web y al navegador web . [26] Se utiliza comúnmente como una técnica de spamdexing porque puede engañar a los motores de búsqueda para que visiten un sitio que es sustancialmente diferente de la descripción del motor de búsqueda o para que le den a un determinado sitio una clasificación más alta.

Véase también

Referencias

  1. ^ Berger, Sandy (2005). "Guía de Internet de Sandy Berger para la edad avanzada" (Documento). Que Publishing. Libro  de bolsillo de la editorial .
  2. ^ abc "Arquitectura de un metabuscador que satisfaga las necesidades de información del usuario". 1999.
  3. ^ Ride, Onion (2021). "Cómo funcionan los motores de búsqueda". OnionRide.
  4. ^ Lawrence, Stephen R.; Lee Giles, C. (10 de octubre de 1997). "Patente US6999959 - Motor de búsqueda meta" – vía Google Books .
  5. ^ Voorhees, Ellen M.; Gupta, Narendra; Johnson-Laird, Ben (abril de 2000). "El problema de la fusión de colecciones".
  6. ^ "El metabuscador: la historia de los motores de búsqueda". Archivado desde el original el 30 de enero de 2020. Consultado el 2 de diciembre de 2014 .
  7. ^ "Clasificaciones de motores de búsqueda en HotBot: una breve historia del motor de búsqueda HotBot".
  8. ^ Shu, Bo; Kak, Subhash (1999). "Un motor de metabúsqueda inteligente basado en redes neuronales". Ciencias de la información . 120 (4): 1–11. CiteSeerX 10.1.1.84.6837 . doi :10.1016/S0020-0255(99)00062-6. 
  9. ^ Kak, Subhash (noviembre de 1999). "Mejores búsquedas y predicciones en la Web con redes neuronales entrenadas instantáneamente" (PDF) . IEEE Intelligent Systems.
  10. ^ "Nuevo chico en la ciudad". India Today . 6 de julio de 2012 . Consultado el 14 de marzo de 2024 .
  11. ^ "¿Qué es un metabuscador?". GeeksforGeeks . 2020-08-01 . Consultado el 2024-03-14 .
  12. ^ "www.metaseek.nl". www.metaseek.nl . Consultado el 14 de marzo de 2024 .
  13. ^ "SOBRE NOSOTROS – Nuestra historia".
  14. ^ Spink, Amanda; Jansen, Bernard J.; Kathuria, Vinish; Koshman, Sherry (2006). "Superposición entre los principales motores de búsqueda web" (PDF) . Emerald.
  15. ^ "Departamento de Informática". Universidad de Friburgo .
  16. ^ "Explotación de inteligencia en Internet" (PDF) . 2002.
  17. ^ HENNEGAR, ANNE (16 de septiembre de 2009). "Los metabuscadores amplían sus horizontes".
  18. ^ MENG, WEIYI (5 de mayo de 2008). «Metabuscadores» (PDF) .
  19. ^ Selberg, Erik; Etzioni, Oren (1997). "La arquitectura MetaCrawler para la agregación de recursos en la Web". Experto del IEEE. págs. 11–14.
  20. ^ Manoj, M; Jacob, Elizabeth (julio de 2013). "Diseño y desarrollo de un motor de búsqueda meta programable" (PDF) . Foundation of Computer Science. págs. 6–11.
  21. ^ abcd Manoj, M.; Jacob, Elizabeth (octubre de 2008). "Recuperación de información en Internet mediante metabuscadores: una revisión" (PDF) . Consejo de Investigación Científica e Industrial .
  22. ^ Wu, Shengli; Crestani, Fabio; Bi, Yaxin (2006). "Evaluación de métodos de normalización de puntuaciones en la fusión de datos". Tecnología de recuperación de información . Apuntes de clase en informática. Vol. 4182. págs. 642–648. CiteSeerX 10.1.1.103.295 . doi :10.1007/11880592_57. ISBN.  978-3-540-45780-0.
  23. ^ Manmatha, R.; Sever, H. (2014). "Un enfoque formal para la normalización de puntuaciones en metabúsquedas" (PDF) . Archivado desde el original (PDF) el 2019-09-30 . Consultado el 2014-10-27 .
  24. ^ Najork, Marc (2014). "Detección de spam en la Web". Microsoft .
  25. ^ Vandendriessche, Gerrit (febrero de 2009). "Algunos comentarios legales sobre spamdexing".
  26. ^ Wang, Yi-Min; Ma, Ming; Niu, Yuan; Chen, Hao (8 de mayo de 2007). "Conectando a los spammers web con los anunciantes" (PDF) .