Motor de metabúsqueda

Un metabuscador (o agregador de búsquedas ) es una herramienta de recuperación de información en línea que utiliza los datos de un motor de búsqueda web para generar sus propios resultados. ^[1]^[2] Los metabuscadores toman la información de un usuario e inmediatamente consultan a los motores de búsqueda ^{[3] para obtener resultados. Se recopilan}datos suficientes , se clasifican y se presentan a los usuarios.

Problemas como el spam reducen la precisión y exactitud de los resultados. ^[4] El proceso de fusión tiene como objetivo mejorar la ingeniería de un metabuscador. ^[5]

Algunos ejemplos de metabuscadores son Skyscanner y Kayak.com , que agregan resultados de búsqueda de agencias de viajes en línea y sitios web de proveedores, y Searx , un motor de búsqueda gratuito y de código abierto que agrega resultados de motores de búsqueda de Internet.

Historia

La primera persona que incorporó la idea de la metabúsqueda fue Daniel Dreilinger, de la Universidad Estatal de Colorado . Desarrolló SearchSavvy, que permitía a los usuarios buscar en hasta 20 motores de búsqueda y directorios diferentes a la vez. Aunque era rápido, el motor de búsqueda estaba restringido a búsquedas simples y, por lo tanto, no era confiable. El estudiante de la Universidad de Washington Eric Selberg lanzó una versión más "actualizada" llamada MetaCrawler . Este motor de búsqueda mejoró la precisión de SearchSavvy al agregar su propia sintaxis de búsqueda en segundo plano y hacer coincidir la sintaxis con la de los motores de búsqueda que estaba investigando. Metacrawler redujo la cantidad de motores de búsqueda consultados a 6, pero aunque produjo resultados más precisos, todavía no se consideró tan preciso como buscar una consulta en un motor individual. ^[6]

El 20 de mayo de 1996, HotBot , entonces propiedad de Wired , era un motor de búsqueda con resultados de búsqueda provenientes de las bases de datos Inktomi y Direct Hit. Era conocido por sus resultados rápidos y como un motor de búsqueda con la capacidad de buscar dentro de los resultados de búsqueda. Tras ser comprado por Lycos en 1998, el desarrollo del motor de búsqueda se tambaleó y su participación de mercado cayó drásticamente. Después de pasar por algunas modificaciones, HotBot fue rediseñado en una interfaz de búsqueda simplificada, con sus características incorporadas en el rediseño del sitio web de Lycos. ^[7]

Bo Shu y Subhash Kak desarrollaron en 1999 un metabuscador llamado Anvish; los resultados de la búsqueda se ordenaban utilizando redes neuronales entrenadas instantáneamente . ^[8] Esto se incorporó posteriormente a otro metabuscador llamado Solosearch. ^[9]

En agosto de 2000, India obtuvo su primer metabuscador cuando se lanzó HumHaiIndia.com. ^[10] Fue desarrollado por Sumeet Lamba, que entonces tenía 16 años. ^[11] El sitio web luego fue rebautizado como Tazaa.com. ^[12]

Ixquick es un motor de búsqueda conocido por su declaración de política de privacidad. Desarrollado y lanzado en 1998 por David Bodnick, es propiedad de Surfboard Holding BV. En junio de 2006, Ixquick comenzó a eliminar los detalles privados de sus usuarios siguiendo el mismo proceso que con Scroogle . La política de privacidad de Ixquick incluye la no grabación de las direcciones IP de los usuarios, la no utilización de cookies de identificación, la no recopilación de datos personales y la no compartición de datos personales con terceros. ^[13] También utiliza un sistema de clasificación único en el que un resultado se clasifica por estrellas. Cuantas más estrellas tenga un resultado, más motores de búsqueda estarán de acuerdo con el resultado.

En abril de 2005, Dogpile , que en ese entonces era propiedad y estaba operada por InfoSpace , Inc., colaboró con investigadores de la Universidad de Pittsburgh y la Universidad Estatal de Pensilvania para medir la superposición y las diferencias de clasificación de los principales motores de búsqueda web con el fin de evaluar los beneficios de utilizar un metabuscador para buscar en la web. Los resultados encontraron que de 10.316 consultas aleatorias definidas por el usuario de Google , Yahoo! y Ask Jeeves , solo el 3,2% de los resultados de búsqueda de la primera página eran los mismos en esos motores de búsqueda para una consulta determinada. Otro estudio realizado más tarde ese año utilizando 12.570 consultas aleatorias definidas por el usuario de Google , Yahoo!, MSN Search y Ask Jeeves encontró que solo el 1,1% de los resultados de búsqueda de la primera página eran los mismos en esos motores de búsqueda para una consulta determinada. ^[14]

Ventajas

Al enviar múltiples consultas a varios motores de búsqueda, se amplía la cobertura de datos del tema y se puede encontrar más información. Utilizan los índices creados por otros motores de búsqueda, agregando y, a menudo, procesando posteriormente los resultados de formas únicas. Un metabuscador tiene una ventaja sobre un motor de búsqueda único porque se pueden recuperar más resultados con la misma cantidad de esfuerzo. ^[2] También reduce el trabajo de los usuarios, que no tienen que escribir individualmente búsquedas de diferentes motores para buscar recursos. ^[2]

La metabúsqueda también es un método útil si el objetivo de la búsqueda del usuario es obtener una visión general del tema o conseguir respuestas rápidas. En lugar de tener que pasar por varios motores de búsqueda como Yahoo! o Google y comparar resultados, los metabuscadores pueden recopilar y combinar resultados rápidamente. Pueden hacerlo ya sea enumerando los resultados de cada motor consultado sin posprocesamiento adicional (Dogpile) o analizando los resultados y clasificándolos según sus propias reglas (IxQuick, Metacrawler y Vivismo).

Un metabuscador también puede ocultar la dirección IP del buscador a los motores de búsqueda consultados, proporcionando así privacidad a la búsqueda.

Desventajas

Los metabuscadores no son capaces de analizar los formularios de consulta ni de traducir completamente la sintaxis de la consulta . La cantidad de hipervínculos generados por los metabuscadores es limitada y, por lo tanto, no proporcionan al usuario los resultados completos de una consulta. ^[15]

La mayoría de los metabuscadores no ofrecen más de diez archivos vinculados desde un único motor de búsqueda y, por lo general, no interactúan con motores de búsqueda más grandes para obtener resultados. Los enlaces de pago por clic tienen prioridad y normalmente se muestran en primer lugar. ^[16]

La metabúsqueda también da la ilusión de que hay más cobertura del tema consultado, en particular si el usuario está buscando información popular o común. Es común terminar con múltiples resultados idénticos de los motores consultados. También es más difícil para los usuarios buscar con la sintaxis de búsqueda avanzada que se envía con la consulta, por lo que los resultados pueden no ser tan precisos como cuando un usuario está utilizando una interfaz de búsqueda avanzada en un motor específico. Esto hace que muchos motores de metabúsqueda utilicen la búsqueda simple. ^[17]

Operación

Un metabuscador acepta una única solicitud de búsqueda del usuario . Esta solicitud de búsqueda se transmite a la base de datos de otro motor de búsqueda . Un metabuscador no crea una base de datos de páginas web , sino que genera un sistema de base de datos federada de integración de datos de múltiples fuentes. ^[18]^[19]^[20]

Como cada motor de búsqueda es único y tiene diferentes algoritmos para generar datos clasificados, también se generarán duplicados. Para eliminar los duplicados, un metabuscador procesa estos datos y aplica su propio algoritmo. Se produce una lista revisada como resultado para el usuario. ^{[ cita requerida ]} Cuando un metabuscador se comunica con otros motores de búsqueda, estos responderán de tres maneras:

Ambos cooperarán y proporcionarán acceso completo a la interfaz del motor de metabúsqueda, incluido el acceso privado a la base de datos del índice, e informarán al motor de metabúsqueda de cualquier cambio realizado en la base de datos del índice;
Los motores de búsqueda pueden comportarse de manera no cooperativa, es decir, no negarán ni proporcionarán ningún acceso a las interfaces;
El motor de búsqueda puede ser completamente hostil y negar al metabuscador el acceso total a su base de datos y en circunstancias graves, buscar métodos legales . ^[21]

Arquitectura del ranking

Las páginas web que ocupan un lugar destacado en muchos motores de búsqueda probablemente sean más relevantes a la hora de proporcionar información útil. ^[21] Sin embargo, todos los motores de búsqueda tienen diferentes puntuaciones de clasificación para cada sitio web y la mayoría de las veces estas puntuaciones no son las mismas. Esto se debe a que los motores de búsqueda priorizan diferentes criterios y métodos de puntuación, por lo que un sitio web puede aparecer en un lugar destacado en un motor de búsqueda y en un lugar bajo en otro. Esto es un problema porque los metabuscadores dependen en gran medida de la coherencia de estos datos para generar cuentas fiables. ^[21]

Fusión

Un metabuscador utiliza el proceso de fusión para filtrar datos y obtener resultados más eficientes. Los dos métodos de fusión principales que se utilizan son: fusión de colecciones y fusión de datos.

Collection Fusion: también conocida como recuperación distribuida, se ocupa específicamente de los motores de búsqueda que indexan datos no relacionados. Para determinar el valor de estas fuentes, Collection Fusion analiza el contenido y luego clasifica los datos en función de la probabilidad de que proporcionen información relevante en relación con la consulta. A partir de lo que se genera, Collection Fusion puede seleccionar los mejores recursos de la clasificación. Estos recursos seleccionados se fusionan luego en una lista. ^[21]
Fusión de datos: se ocupa de la información recuperada de los motores de búsqueda que indexan conjuntos de datos comunes. El proceso es muy similar. Las puntuaciones iniciales de los datos se fusionan en una única lista, tras lo cual se analizan las clasificaciones originales de cada uno de estos documentos. Los datos con puntuaciones altas indican un alto nivel de relevancia para una consulta en particular y, por lo tanto, se seleccionan. Para producir una lista, las puntuaciones deben normalizarse utilizando algoritmos como CombSum. Esto se debe a que los motores de búsqueda adoptan diferentes políticas de algoritmos, lo que da como resultado que la puntuación producida sea incomparable. ^[22]^[23]

indexación de spam

El spamdexing es la manipulación deliberada de los índices de los motores de búsqueda. Utiliza una serie de métodos para manipular la relevancia o prominencia de los recursos indexados de una manera que no está alineada con la intención del sistema de indexación. El spamdexing puede ser muy molesto para los usuarios y problemático para los motores de búsqueda porque el contenido devuelto por las búsquedas tiene poca precisión. ^{[ cita requerida ]} Esto eventualmente hará que el motor de búsqueda se vuelva poco confiable y no confiable para el usuario. Para abordar el spamdexing, los algoritmos de los robots de búsqueda se vuelven más complejos y se cambian casi todos los días para eliminar el problema. ^[24]

Es un problema importante para los metabuscadores porque altera los criterios de indexación del rastreador web , de los que se depende en gran medida para dar formato a las listas de clasificación. El spamdexing manipula el sistema de clasificación natural de un motor de búsqueda y coloca los sitios web en una posición más alta en la lista de clasificación de la que tendrían de forma natural. ^[25] Hay tres métodos principales que se utilizan para lograr esto:

Contenido spam

El spam de contenido son técnicas que alteran la visión lógica que tiene un motor de búsqueda sobre el contenido de una página. Entre estas técnicas se incluyen:

Relleno de palabras clave: ubicaciones calculadas de palabras clave dentro de una página para aumentar el recuento, la variedad y la densidad de palabras clave de la página.
Texto oculto/invisible: texto no relacionado disfrazado haciéndolo del mismo color que el fondo, utilizando un tamaño de fuente pequeño u ocultándolo dentro del código HTML.
Relleno de metaetiquetas: repetición de palabras clave en metaetiquetas o uso de palabras clave no relacionadas con el contenido del sitio
Páginas de entrada: páginas web de baja calidad con poco contenido, pero con palabras clave o frases relacionadas
Sitios raspadores: programas que permiten a los sitios web copiar contenido de otros sitios web y crear contenido para un sitio web.
Reescritura de artículos: reescritura de artículos existentes en lugar de copiar contenido de otros sitios
Traducción automática: utiliza la traducción automática para reescribir contenido en varios idiomas diferentes, lo que da como resultado un texto ilegible.

Enlace spam

El spam de enlaces son enlaces entre páginas que existen por razones distintas a su mérito. Las técnicas incluyen:

Software de construcción de enlaces: automatización del proceso de optimización de motores de búsqueda (SEO)
Link Farms: páginas que hacen referencia entre sí (también conocidas como sociedades de admiración mutua)
Enlaces ocultos: colocar hipervínculos donde los visitantes no los verán o no podrán verlos
Ataque Sybil: falsificación de identidades múltiples con fines maliciosos
Blogs spam: blogs creados únicamente para promoción comercial y la transferencia de autoridad de enlaces a sitios de destino.
Secuestro de páginas: creación de una copia de un sitio web popular con contenido similar, pero que redirige a los internautas a sitios web no relacionados o incluso maliciosos.
Comprar dominios vencidos: comprar dominios vencidos y reemplazar páginas con enlaces a sitios web no relacionados
Relleno de cookies: colocar una cookie de seguimiento de afiliados en la computadora de un visitante del sitio web sin su conocimiento
Spam en foros: sitios web que los usuarios pueden editar para insertar enlaces a sitios spam

Encubierto

Esta es una técnica de SEO en la que se envían diferentes materiales e información al rastreador web y al navegador web . ^[26] Se utiliza comúnmente como una técnica de spamdexing porque puede engañar a los motores de búsqueda para que visiten un sitio que es sustancialmente diferente de la descripción del motor de búsqueda o para que le den a un determinado sitio una clasificación más alta.

Véase también

Referencias

^ Berger, Sandy (2005). "Guía de Internet de Sandy Berger para la edad avanzada" (Documento). Que Publishing. Libro de bolsillo de la editorial .
^ abc "Arquitectura de un metabuscador que satisfaga las necesidades de información del usuario". 1999.
^ Ride, Onion (2021). "Cómo funcionan los motores de búsqueda". OnionRide.
^ Lawrence, Stephen R.; Lee Giles, C. (10 de octubre de 1997). "Patente US6999959 - Motor de búsqueda meta" – vía Google Books .
^ Voorhees, Ellen M.; Gupta, Narendra; Johnson-Laird, Ben (abril de 2000). "El problema de la fusión de colecciones".
^ "El metabuscador: la historia de los motores de búsqueda". Archivado desde el original el 30 de enero de 2020. Consultado el 2 de diciembre de 2014 .
^ "Clasificaciones de motores de búsqueda en HotBot: una breve historia del motor de búsqueda HotBot".
^ Shu, Bo; Kak, Subhash (1999). "Un motor de metabúsqueda inteligente basado en redes neuronales". Ciencias de la información . 120 (4): 1–11. CiteSeerX 10.1.1.84.6837 . doi :10.1016/S0020-0255(99)00062-6.
^ Kak, Subhash (noviembre de 1999). "Mejores búsquedas y predicciones en la Web con redes neuronales entrenadas instantáneamente" (PDF) . IEEE Intelligent Systems.
^ "Nuevo chico en la ciudad". India Today . 6 de julio de 2012 . Consultado el 14 de marzo de 2024 .
^ "¿Qué es un metabuscador?". GeeksforGeeks . 2020-08-01 . Consultado el 2024-03-14 .
^ "www.metaseek.nl". www.metaseek.nl . Consultado el 14 de marzo de 2024 .
^ "SOBRE NOSOTROS – Nuestra historia".
^ Spink, Amanda; Jansen, Bernard J.; Kathuria, Vinish; Koshman, Sherry (2006). "Superposición entre los principales motores de búsqueda web" (PDF) . Emerald.
^ "Departamento de Informática". Universidad de Friburgo .
^ "Explotación de inteligencia en Internet" (PDF) . 2002.
^ HENNEGAR, ANNE (16 de septiembre de 2009). "Los metabuscadores amplían sus horizontes".
^ MENG, WEIYI (5 de mayo de 2008). «Metabuscadores» (PDF) .
^ Selberg, Erik; Etzioni, Oren (1997). "La arquitectura MetaCrawler para la agregación de recursos en la Web". Experto del IEEE. págs. 11–14.
^ Manoj, M; Jacob, Elizabeth (julio de 2013). "Diseño y desarrollo de un motor de búsqueda meta programable" (PDF) . Foundation of Computer Science. págs. 6–11.
^ abcd Manoj, M.; Jacob, Elizabeth (octubre de 2008). "Recuperación de información en Internet mediante metabuscadores: una revisión" (PDF) . Consejo de Investigación Científica e Industrial .
^ Wu, Shengli; Crestani, Fabio; Bi, Yaxin (2006). "Evaluación de métodos de normalización de puntuaciones en la fusión de datos". Tecnología de recuperación de información . Apuntes de clase en informática. Vol. 4182. págs. 642–648. CiteSeerX 10.1.1.103.295 . doi :10.1007/11880592_57. ISBN. 978-3-540-45780-0.
^ Manmatha, R.; Sever, H. (2014). "Un enfoque formal para la normalización de puntuaciones en metabúsquedas" (PDF) . Archivado desde el original (PDF) el 2019-09-30 . Consultado el 2014-10-27 .
^ Najork, Marc (2014). "Detección de spam en la Web". Microsoft .
^ Vandendriessche, Gerrit (febrero de 2009). "Algunos comentarios legales sobre spamdexing".
^ Wang, Yi-Min; Ma, Ming; Niu, Yuan; Chen, Hao (8 de mayo de 2007). "Conectando a los spammers web con los anunciantes" (PDF) .