Motor de búsqueda

Un motor de búsqueda es un sistema de software que proporciona hipervínculos a páginas web y otra información relevante en la Web en respuesta a la consulta de un usuario . El usuario ingresa una consulta dentro de un navegador web o una aplicación móvil y los resultados de la búsqueda suelen ser una lista de hipervínculos, acompañados de resúmenes textuales e imágenes. Los usuarios también tienen la opción de limitar la búsqueda a un tipo específico de resultados, como imágenes, videos o noticias.

Para un proveedor de búsqueda, su motor es parte de un sistema informático distribuido que puede abarcar muchos centros de datos en todo el mundo. La velocidad y precisión de la respuesta de un motor a una consulta se basa en un sistema complejo de indexación que se actualiza continuamente mediante rastreadores web automatizados . Esto puede incluir la minería de datos de los archivos y bases de datos almacenados en servidores web , pero algunos contenidos no son accesibles para los rastreadores.

Desde los albores de la Web en la década de 1990, han existido muchos motores de búsqueda, pero Google Search se convirtió en el dominante en la década de 2000 y se ha mantenido así. Actualmente, tiene una participación de mercado global del 91 %. ^[1]^[2] El negocio de los sitios web que mejoran su visibilidad en los resultados de búsqueda , conocido como marketing y optimización , se ha centrado en gran medida en Google.

Historia

Antes de 1990

En 1945, Vannevar Bush describió un sistema de recuperación de información que permitiría a un usuario acceder a una gran cantidad de información, todo en un solo escritorio. ^[3] Lo llamó memex . Describió el sistema en un artículo titulado " As We May Think " que se publicó en The Atlantic Monthly . ^[4] El memex tenía como objetivo brindarle al usuario la capacidad de superar la creciente dificultad de localizar información en índices centralizados de trabajo científico cada vez más numerosos. Vannevar Bush imaginó bibliotecas de investigación con anotaciones conectadas, que son similares a los hipervínculos modernos . ^[5]

El análisis de enlaces eventualmente se convirtió en un componente crucial de los motores de búsqueda a través de algoritmos como Hyper Search y PageRank . ^[6]^[7]

Años 90: Nacimiento de los motores de búsqueda

Los primeros motores de búsqueda en Internet son anteriores al debut de la Web en diciembre de 1990: la búsqueda de usuarios WHOIS se remonta a 1982, ^[8] y la búsqueda de usuarios multired del Servicio de Información Knowbot se implementó por primera vez en 1989. ^[9] El primer motor de búsqueda bien documentado que buscaba archivos de contenido, es decir, archivos FTP , fue Archie , que debutó el 10 de septiembre de 1990. ^[10]

Antes de septiembre de 1993, la World Wide Web estaba indexada completamente a mano. Había una lista de servidores web editada por Tim Berners-Lee y alojada en el servidor web del CERN . Se conserva una instantánea de la lista de 1992, ^[11] pero, a medida que se iban poniendo en línea más y más servidores web, la lista central ya no podía seguir el ritmo. En el sitio de la NCSA , se anunciaban los nuevos servidores bajo el título "¡Novedades!". ^[12]

La primera herramienta utilizada para buscar contenido (en lugar de usuarios) en Internet fue Archie . ^[13] El nombre significa "archivo" sin la "v". ^[14] Fue creado por Alan Emtage , ^[14]^[15]^[16]^[17] estudiante de informática en la Universidad McGill en Montreal, Quebec , Canadá. El programa descargaba los listados de directorios de todos los archivos ubicados en sitios FTP ( Protocolo de transferencia de archivos ) públicos y anónimos, creando una base de datos de nombres de archivos en la que se podían realizar búsquedas; sin embargo, Archie Search Engine no indexaba los contenidos de estos sitios ya que la cantidad de datos era tan limitada que se podía buscar fácilmente de forma manual.

El auge de Gopher (creado en 1991 por Mark McCahill en la Universidad de Minnesota ) dio lugar a dos nuevos programas de búsqueda, Veronica y Jughead . Al igual que Archie, buscaban los nombres de archivos y títulos almacenados en los sistemas de índice de Gopher. Veronica (Very Easy Rodent-Oriented Net-wide Index to Computerized Archives) proporcionaba una búsqueda por palabra clave de la mayoría de los títulos de menú de Gopher en todos los listados de Gopher. Jughead (Jonzy's Universal Gopher Hierarchy Excavation And Display) era una herramienta para obtener información de menú de servidores Gopher específicos. Si bien el nombre del motor de búsqueda " Archie Search Engine " no era una referencia a la serie de cómics Archie , " Veronica " y " Jughead " son personajes de la serie, por lo que hacen referencia a su predecesor.

En el verano de 1993 no existía ningún motor de búsqueda para la web, aunque se mantenían a mano numerosos catálogos especializados. Oscar Nierstrasz, de la Universidad de Ginebra, escribió una serie de scripts en Perl que reflejaban periódicamente estas páginas y las reescribían en un formato estándar. Esto formó la base de W3Catalog , el primer motor de búsqueda primitivo de la web, lanzado el 2 de septiembre de 1993. ^[18]

En junio de 1993, Matthew Gray, entonces en el MIT , produjo lo que probablemente fue el primer robot web , el World Wide Web Wanderer basado en Perl , y lo utilizó para generar un índice llamado "Wandex". El propósito de Wanderer era medir el tamaño de la World Wide Web, lo que hizo hasta fines de 1995. El segundo motor de búsqueda de la web, Aliweb, apareció en noviembre de 1993. Aliweb no usaba un robot web , sino que dependía de que los administradores del sitio web le notificaran la existencia en cada sitio de un archivo de índice en un formato particular.

JumpStation (creada en diciembre de 1993 ^[19] por Jonathon Fletcher ) utilizaba un robot web para buscar páginas web y crear su índice, y utilizaba un formulario web como interfaz para su programa de consulta. Por lo tanto, fue la primera herramienta de descubrimiento de recursos de la WWW que combinaba las tres características esenciales de un motor de búsqueda web (rastreo, indexación y búsqueda), como se describe a continuación. Debido a los recursos limitados disponibles en la plataforma en la que se ejecutaba, su indexación y, por lo tanto, la búsqueda se limitaban a los títulos y encabezados encontrados en las páginas web que encontraba el rastreador.

Uno de los primeros motores de búsqueda basados en rastreadores "todo texto" fue WebCrawler , que salió al mercado en 1994. A diferencia de sus predecesores, permitía a los usuarios buscar cualquier palabra en cualquier página web , lo que se ha convertido en el estándar para todos los motores de búsqueda más importantes desde entonces. También fue el motor de búsqueda más conocido por el público. Además, en 1994, se lanzó Lycos (que comenzó en la Universidad Carnegie Mellon ) y se convirtió en un importante emprendimiento comercial.

El primer motor de búsqueda popular en la Web fue Yahoo! Search . ^[20] El primer producto de Yahoo !, fundado por Jerry Yang y David Filo en enero de 1994, fue un directorio web llamado Yahoo! Directory . En 1995, se agregó una función de búsqueda, que permitía a los usuarios buscar en Yahoo! Directory. ^[21]^[22] Se convirtió en una de las formas más populares para que las personas encontraran páginas web de interés, pero su función de búsqueda operaba en su directorio web, en lugar de sus copias de texto completo de las páginas web.

Poco después, aparecieron varios motores de búsqueda que competían por ganar popularidad. Entre ellos, se encontraban Magellan , Excite , Infoseek , Inktomi , Northern Light y AltaVista . Los buscadores de información también podían navegar por el directorio en lugar de realizar una búsqueda basada en palabras clave.

En 1996, Robin Li desarrolló el algoritmo de puntuación de sitios RankDex para la clasificación de las páginas de resultados de los motores de búsqueda ^[23]^[24]^[25] y recibió una patente estadounidense para la tecnología. ^[26] Fue el primer motor de búsqueda que utilizó hipervínculos para medir la calidad de los sitios web que estaba indexando, ^[27] precediendo a la patente de algoritmo muy similar presentada por Google dos años después en 1998. ^[28]Larry Page hizo referencia al trabajo de Li en algunas de sus patentes estadounidenses para PageRank. ^[29] Li utilizó más tarde su tecnología Rankdex para el motor de búsqueda Baidu , que fue fundado por él en China y lanzado en 2000.

En 1996, Netscape quería ofrecer a un único motor de búsqueda un contrato exclusivo como motor de búsqueda destacado en el navegador web de Netscape. Hubo tanto interés que, en su lugar, Netscape llegó a acuerdos con cinco de los principales motores de búsqueda: por 5 millones de dólares al año, cada motor de búsqueda estaría en rotación en la página de motores de búsqueda de Netscape. Los cinco motores eran Yahoo!, Magellan, Lycos, Infoseek y Excite. ^[30]^[31]

Google adoptó la idea de vender términos de búsqueda en 1998 de una pequeña empresa de motores de búsqueda llamada goto.com . Esta medida tuvo un efecto significativo en el negocio de los motores de búsqueda, que pasó de estar en dificultades a convertirse en uno de los negocios más rentables de Internet. ^{[ cita requerida ]}

Los motores de búsqueda también fueron conocidos como algunas de las estrellas más brillantes en el frenesí de inversión en Internet que se produjo a finales de los años 1990. ^[32] Varias empresas entraron en el mercado de forma espectacular, recibiendo ganancias récord durante sus ofertas públicas iniciales . Algunas han retirado su motor de búsqueda público y están comercializando ediciones exclusivas para empresas, como Northern Light. Muchas empresas de motores de búsqueda se vieron atrapadas en la burbuja punto-com , un auge del mercado impulsado por la especulación que alcanzó su punto máximo en marzo de 2000.

Década de 2000-presente: después de la burbuja puntocom

Alrededor del año 2000, el motor de búsqueda de Google saltó a la fama. ^[33] La compañía logró mejores resultados para muchas búsquedas con un algoritmo llamado PageRank , como se explicó en el artículo Anatomy of a Search Engine escrito por Sergey Brin y Larry Page , los posteriores fundadores de Google. ^[7] Este algoritmo iterativo clasifica las páginas web en función del número y PageRank de otros sitios web y páginas que enlazan allí, bajo la premisa de que las páginas buenas o deseables están enlazadas a más que otras. La patente de Larry Page para PageRank cita la patente anterior RankDex de Robin Li como una influencia. ^[29]^[25] Google también mantuvo una interfaz minimalista para su motor de búsqueda. En contraste, muchos de sus competidores incorporaron un motor de búsqueda en un portal web . De hecho, el motor de búsqueda de Google se volvió tan popular que surgieron motores falsos como Mystery Seeker .

En el año 2000, Yahoo! ofrecía servicios de búsqueda basados en el motor de búsqueda de Inktomi. Yahoo! adquirió Inktomi en 2002 y Overture (que era propietaria de AlltheWeb y AltaVista) en 2003. Yahoo! cambió al motor de búsqueda de Google hasta 2004, cuando lanzó su propio motor de búsqueda basado en las tecnologías combinadas de sus adquisiciones.

Microsoft lanzó por primera vez MSN Search en el otoño de 1998 utilizando los resultados de búsqueda de Inktomi. A principios de 1999, el sitio comenzó a mostrar listados de Looksmart , combinados con resultados de Inktomi. Durante un breve período en 1999, MSN Search utilizó en su lugar los resultados de AltaVista. En 2004, Microsoft comenzó una transición hacia su propia tecnología de búsqueda, impulsada por su propio rastreador web (llamado msnbot ).

El motor de búsqueda renombrado de Microsoft, Bing , se lanzó el 1 de junio de 2009. El 29 de julio de 2009, Yahoo! y Microsoft finalizaron un acuerdo en el que Yahoo! Search sería impulsado por la tecnología Bing de Microsoft.

A partir de 2019, ^[actualizar]los rastreadores de motores de búsqueda activos incluyen los de Google, Sogou , Baidu, Bing, Gigablast , Mojeek , DuckDuckGo y Yandex .

Acercarse

Un motor de búsqueda mantiene los siguientes procesos casi en tiempo real: ^[34]

Los motores de búsqueda web obtienen su información rastreando la web de un sitio a otro. La "araña" busca el nombre de archivo estándar robots.txt , que está dirigido a ella. El archivo robots.txt contiene directivas para las arañas de búsqueda, indicándoles qué páginas rastrear y cuáles no. Después de buscar robots.txt y encontrarlo o no, la araña envía cierta información para que sea indexada dependiendo de muchos factores, como los títulos, el contenido de la página, JavaScript , hojas de estilo en cascada (CSS), encabezados o sus metadatos en metaetiquetas HTML . Después de una cierta cantidad de páginas rastreadas, una cierta cantidad de datos indexados o un tiempo de permanencia en el sitio web, la araña deja de rastrear y continúa. "Ningún rastreador web puede rastrear realmente toda la web accesible. Debido a la infinidad de sitios web, las trampas para arañas, el spam y otras exigencias de la web real, los rastreadores aplican en cambio una política de rastreo para determinar cuándo el rastreo de un sitio debe considerarse suficiente. Algunos sitios web se rastrean exhaustivamente, mientras que otros se rastrean solo parcialmente". ^[36]

La indexación consiste en asociar palabras y otros elementos definibles que se encuentran en las páginas web a sus nombres de dominio y campos basados en HTML . Las asociaciones se realizan en una base de datos pública, que se pone a disposición para las consultas de búsqueda web. Una consulta de un usuario puede ser una sola palabra, varias palabras o una frase. El índice ayuda a encontrar información relacionada con la consulta lo más rápido posible. ^[35] Algunas de las técnicas de indexación y almacenamiento en caché son secretos comerciales, mientras que el rastreo web es un proceso sencillo de visitar todos los sitios de forma sistemática.

Entre las visitas de la araña , la versión en caché de la página (parte o todo el contenido necesario para mostrarla) almacenada en la memoria de trabajo del motor de búsqueda se envía rápidamente a un consultante. Si una visita se retrasa, el motor de búsqueda puede actuar simplemente como un proxy web en su lugar. En este caso, la página puede diferir de los términos de búsqueda indexados. ^[35] La página almacenada en caché mantiene la apariencia de la versión cuyas palabras se indexaron previamente, por lo que una versión en caché de una página puede ser útil para el sitio web cuando se ha perdido la página real, pero este problema también se considera una forma leve de linkrot .

Arquitectura de alto nivel de un rastreador web estándar

Por lo general, cuando un usuario ingresa una consulta en un motor de búsqueda, se trata de algunas palabras clave . ^[37] El índice ya tiene los nombres de los sitios que contienen las palabras clave, y estos se obtienen instantáneamente del índice. La carga de procesamiento real está en generar las páginas web que son la lista de resultados de búsqueda: cada página en toda la lista debe ponderarse de acuerdo con la información en los índices. ^[35] Luego, el elemento de resultado de búsqueda superior requiere la búsqueda, reconstrucción y marcado de los fragmentos que muestran el contexto de las palabras clave coincidentes. Estos son solo una parte del procesamiento que requiere cada página web de resultados de búsqueda, y las páginas posteriores (junto a la parte superior) requieren más de este posprocesamiento.

Más allá de las simples búsquedas de palabras clave, los motores de búsqueda ofrecen su propia interfaz gráfica de usuario (GUI ) u operadores controlados por comandos y parámetros de búsqueda para refinar los resultados de búsqueda. Estos proporcionan los controles necesarios para el usuario involucrado en el bucle de retroalimentación que los usuarios crean al filtrar y ponderar mientras refinan los resultados de búsqueda, dadas las páginas iniciales de los primeros resultados de búsqueda. Por ejemplo, desde 2007, el motor de búsqueda Google.com ha permitido filtrar por fecha haciendo clic en "Mostrar herramientas de búsqueda" en la columna más a la izquierda de la página de resultados de búsqueda inicial y luego seleccionando el rango de fechas deseado. ^[38] También es posible ponderar por fecha porque cada página tiene una hora de modificación. La mayoría de los motores de búsqueda admiten el uso de los operadores booleanos AND, OR y NOT para ayudar a los usuarios finales a refinar la consulta de búsqueda . Los operadores booleanos son para búsquedas literales que permiten al usuario refinar y ampliar los términos de la búsqueda. El motor busca las palabras o frases exactamente como se ingresaron. Algunos motores de búsqueda proporcionan una función avanzada llamada búsqueda de proximidad , que permite a los usuarios definir la distancia entre palabras clave. ^[35] También existe la búsqueda basada en conceptos , en la que la investigación implica el uso de análisis estadístico en páginas que contienen las palabras o frases que se buscan.

La utilidad de un motor de búsqueda depende de la relevancia del conjunto de resultados que devuelve. Si bien puede haber millones de páginas web que incluyan una palabra o frase en particular, algunas páginas pueden ser más relevantes, populares o autorizadas que otras. La mayoría de los motores de búsqueda emplean métodos para clasificar los resultados y proporcionar los "mejores" resultados primero. La forma en que un motor de búsqueda decide qué páginas son las mejores coincidencias y en qué orden deben mostrarse los resultados varía ampliamente de un motor a otro. ^[35] Los métodos también cambian con el tiempo a medida que cambia el uso de Internet y evolucionan nuevas técnicas. Hay dos tipos principales de motores de búsqueda que han evolucionado: uno es un sistema de palabras clave predefinidas y ordenadas jerárquicamente que los humanos han programado extensivamente. El otro es un sistema que genera un " índice invertido " al analizar los textos que localiza. Esta primera forma depende mucho más de la propia computadora para hacer la mayor parte del trabajo.

La mayoría de los motores de búsqueda web son empresas comerciales que se sustentan con los ingresos por publicidad y, por lo tanto, algunos de ellos permiten a los anunciantes que sus anuncios aparezcan en posiciones más altas en los resultados de búsqueda a cambio de una tarifa. Los motores de búsqueda que no aceptan dinero por sus resultados de búsqueda ganan dinero publicando anuncios relacionados con la búsqueda junto con los resultados habituales del motor de búsqueda. Los motores de búsqueda ganan dinero cada vez que alguien hace clic en uno de estos anuncios. ^[39]

Búsqueda local

La búsqueda local es el proceso que optimiza los esfuerzos de las empresas locales. Se centran en el cambio para asegurarse de que todas las búsquedas sean coherentes. Es importante porque muchas personas deciden a dónde piensan ir y qué comprar en función de sus búsquedas. ^[40]

Cuota de mercado

A partir de enero de 2022, Google es, con diferencia, el motor de búsqueda más utilizado del mundo, con una cuota de mercado del 90,6%, y los otros motores de búsqueda más utilizados del mundo fueron Bing , Yahoo !, Baidu , Yandex y DuckDuckGo . ^[2] En 2024, el dominio de Google fue declarado un monopolio ilegal en un caso presentado por el Departamento de Justicia de Estados Unidos. ^[41]^[actualizar]

Rusia y Asia Oriental

En Rusia, Yandex tiene una cuota de mercado del 62,6%, frente al 28,3% de Google. Y Yandex es el segundo motor de búsqueda más utilizado en los teléfonos inteligentes de Asia y Europa. ^[42] En China, Baidu es el motor de búsqueda más popular. ^[43] El portal de búsqueda local de Corea del Sur, Naver , se utiliza para el 62,8% de las búsquedas en línea del país. ^[44] Yahoo! Japón y Yahoo! Taiwán son las vías más populares para las búsquedas en Internet en Japón y Taiwán, respectivamente. ^[45] China es uno de los pocos países en los que Google no está entre los tres principales motores de búsqueda web por cuota de mercado. Google era anteriormente uno de los principales motores de búsqueda en China, pero se retiró tras un desacuerdo con el gobierno sobre la censura y un ciberataque. Pero Bing está entre los tres principales motores de búsqueda web con una cuota de mercado del 14,95%. Baidu está a la cabeza con una cuota de mercado del 49,1%. ^[46]^{[ cita requerida ]}

Europa

La mayoría de los mercados de los países de la Unión Europea están dominados por Google, a excepción de la República Checa , donde Seznam es un fuerte competidor. ^[47]

El motor de búsqueda Qwant tiene su sede en París , Francia , de donde atrae a la mayoría de sus 50 millones de usuarios registrados mensualmente.

Sesgo de los motores de búsqueda

Aunque los motores de búsqueda están programados para clasificar los sitios web en función de una combinación de su popularidad y relevancia, los estudios empíricos indican diversos sesgos políticos, económicos y sociales en la información que proporcionan ^[48]^[49] y las suposiciones subyacentes sobre la tecnología. ^[50] Estos sesgos pueden ser un resultado directo de procesos económicos y comerciales (por ejemplo, las empresas que se anuncian con un motor de búsqueda también pueden volverse más populares en sus resultados de búsqueda orgánicos ) y procesos políticos (por ejemplo, la eliminación de resultados de búsqueda para cumplir con las leyes locales). ^[51] Por ejemplo, Google no mostrará ciertos sitios web neonazis en Francia y Alemania, donde la negación del Holocausto es ilegal.

Los sesgos también pueden ser resultado de procesos sociales, ya que los algoritmos de los motores de búsqueda suelen estar diseñados para excluir puntos de vista no normativos en favor de resultados más "populares". ^[52] Los algoritmos de indexación de los principales motores de búsqueda se inclinan hacia la cobertura de sitios con sede en Estados Unidos, en lugar de sitios web de países no estadounidenses. ^[49]

El Google Bombing es un ejemplo de un intento de manipular los resultados de búsqueda por razones políticas, sociales o comerciales.

Varios investigadores han estudiado los cambios culturales provocados por los motores de búsqueda, ^[53] y la representación de ciertos temas controvertidos en sus resultados, como el terrorismo en Irlanda , ^[54] la negación del cambio climático , ^[55] y las teorías de la conspiración . ^[56]

Resultados personalizados y burbujas de filtro

Se ha expresado la preocupación de que los motores de búsqueda como Google y Bing proporcionen resultados personalizados en función del historial de actividad del usuario, lo que lleva a lo que Eli Pariser denominó cámaras de eco o burbujas de filtro en 2011. ^[57] El argumento es que los motores de búsqueda y las plataformas de redes sociales utilizan algoritmos para adivinar selectivamente qué información le gustaría ver a un usuario, basándose en información sobre el usuario (como la ubicación, el comportamiento de clic anterior y el historial de búsqueda). Como resultado, los sitios web tienden a mostrar solo información que concuerda con el punto de vista anterior del usuario. Según Eli Pariser, los usuarios tienen menos exposición a puntos de vista conflictivos y están aislados intelectualmente en su propia burbuja informativa. Desde que se identificó este problema, han surgido motores de búsqueda competitivos que buscan evitarlo al no rastrear o "burbujear" a los usuarios, como DuckDuckGo . Sin embargo, muchos académicos han cuestionado el punto de vista de Pariser, encontrando que hay poca evidencia de la burbuja de filtro. ^[58]^[59]^[60] Por el contrario, una serie de estudios que intentan verificar la existencia de burbujas de filtros han encontrado solo niveles menores de personalización en la búsqueda, ^[60] que la mayoría de las personas encuentran una variedad de puntos de vista cuando navegan en línea y que Google News tiende a promover los principales medios de comunicación establecidos. ^[61]^[59]

Motores de búsqueda religiosos

El crecimiento global de Internet y los medios electrónicos en el mundo árabe y musulmán durante la última década ha animado a los seguidores islámicos en Oriente Medio y el subcontinente asiático a probar sus propios motores de búsqueda, sus propios portales de búsqueda filtrados que permitirían a los usuarios realizar búsquedas seguras . Más que los filtros de búsqueda seguros habituales , estos portales web islámicos clasifican los sitios web en " halal " o " haram ", según la interpretación de la "Ley del Islam" . ImHalal se puso en línea en septiembre de 2011. Halalgoogling se puso en línea en julio de 2013. Estos utilizan filtros haram en las colecciones de Google y Bing (y otros). ^[62]

Aunque la falta de inversión y el ritmo lento de las tecnologías en el mundo musulmán han obstaculizado el progreso y frustrado el éxito de un motor de búsqueda islámico, cuyo principal consumidor son los seguidores del Islam, proyectos como Muxlim , un sitio de estilo de vida musulmán, recibieron millones de dólares de inversores como Rite Internet Ventures, y también fracasaron. Otros motores de búsqueda orientados a la religión son Jewogle, la versión judía de Google, ^[63] y SeekFind.org, que es cristiano. SeekFind filtra los sitios que atacan o degradan su fe. ^[64]

Envío a motor de búsqueda

El envío a un motor de búsqueda web es un proceso en el que un webmaster envía un sitio web directamente a un motor de búsqueda. Si bien el envío a un motor de búsqueda a veces se presenta como una forma de promocionar un sitio web, generalmente no es necesario porque los principales motores de búsqueda utilizan rastreadores web que eventualmente encontrarán la mayoría de los sitios web en Internet sin ayuda. Pueden enviar una página web a la vez o pueden enviar el sitio completo utilizando un mapa del sitio , pero normalmente solo es necesario enviar la página de inicio de un sitio web, ya que los motores de búsqueda pueden rastrear un sitio web bien diseñado. Hay dos razones restantes para enviar un sitio web o una página web a un motor de búsqueda: agregar un sitio web completamente nuevo sin esperar a que un motor de búsqueda lo descubra y tener el registro de un sitio web actualizado después de un rediseño sustancial.

Algunos programas de envío a motores de búsqueda no solo envían sitios web a varios motores de búsqueda, sino que también agregan enlaces a sitios web desde sus propias páginas. Esto podría parecer útil para aumentar la clasificación de un sitio web , porque los enlaces externos son uno de los factores más importantes que determinan la clasificación de un sitio web. Sin embargo, John Mueller de Google ha declarado que esto "puede generar una enorme cantidad de enlaces no naturales para su sitio" con un impacto negativo en la clasificación del sitio. ^[65]

Comparación con los marcadores sociales

En comparación con los motores de búsqueda, un sistema de marcadores sociales tiene varias ventajas sobre el software tradicional de clasificación y localización automatizada de recursos, como las arañas de los motores de búsqueda . Toda la clasificación basada en etiquetas de los recursos de Internet (como los sitios web) la realizan seres humanos, que entienden el contenido del recurso, a diferencia del software, que intenta determinar algorítmicamente el significado y la calidad de un recurso. Además, las personas pueden encontrar y marcar páginas web que aún no han sido detectadas o indexadas por las arañas web. ^[66] Además, un sistema de marcadores sociales puede clasificar un recurso en función de la cantidad de veces que los usuarios lo han marcado, lo que puede ser una métrica más útil para los usuarios finales que los sistemas que clasifican los recursos en función de la cantidad de enlaces externos que apuntan a él. Sin embargo, ambos tipos de clasificación son vulnerables al fraude (consulte Cómo engañar al sistema ) y ambos necesitan contramedidas técnicas para tratar de lidiar con esto.

Tecnología

Archie

El primer motor de búsqueda web fue Archie , creado en 1990 ^[67] por Alan Emtage , un estudiante de la Universidad McGill en Montreal. El autor originalmente quería llamar al programa "archivos", pero tuvo que acortarlo para cumplir con el estándar mundial Unix de asignar a los programas y archivos nombres cortos y crípticos como grep, cat, troff, sed, awk, perl, etc.

El método principal para almacenar y recuperar archivos era a través del Protocolo de Transferencia de Archivos (FTP). Este era (y sigue siendo) un sistema que especificaba una forma común para que las computadoras intercambiaran archivos a través de Internet. Funciona de la siguiente manera: un administrador decide que desea que los archivos estén disponibles desde su computadora. Configura un programa en su computadora, llamado servidor FTP. Cuando alguien en Internet desea recuperar un archivo de esta computadora, se conecta a ella a través de otro programa llamado cliente FTP. Cualquier programa cliente FTP puede conectarse con cualquier programa servidor FTP siempre que tanto el programa cliente como el servidor cumplan completamente con las especificaciones establecidas en el protocolo FTP.

En un principio, todo aquel que quisiera compartir un archivo tenía que configurar un servidor FTP para que el archivo estuviera disponible para otros. Más tarde, los sitios FTP "anónimos" se convirtieron en repositorios de archivos, lo que permitía a todos los usuarios publicarlos y recuperarlos.

Incluso con los sitios de archivo, muchos archivos importantes seguían estando dispersos en pequeños servidores FTP. Estos archivos sólo se podían encontrar mediante el equivalente en Internet del boca a boca: alguien publicaba un correo electrónico en una lista de mensajes o en un foro de discusión anunciando la disponibilidad de un archivo.

Archie cambió todo eso. Combinó un recopilador de datos basado en scripts, que obtenía listados de sitios de archivos FTP anónimos, con un comparador de expresiones regulares para recuperar nombres de archivos que coincidían con una consulta del usuario. (4) En otras palabras, el recopilador de Archie rastreaba sitios FTP en Internet e indexaba todos los archivos que encontraba. Su comparador de expresiones regulares proporcionaba a los usuarios acceso a su base de datos. ^[68]

Verónica

En 1993, el grupo de Servicios de Sistemas Informáticos de la Universidad de Nevada desarrolló Veronica . ^[67] Fue creado como un tipo de dispositivo de búsqueda similar a Archie pero para archivos Gopher. Otro servicio de búsqueda Gopher, llamado Jughead, apareció un poco más tarde, probablemente con el único propósito de completar el triunvirato de tiras cómicas. Jughead es un acrónimo de Jonzy's Universal Gopher Hierarchy Excavation and Display, aunque, al igual que Veronica, es probablemente seguro asumir que el creador se basó en el acrónimo. La funcionalidad de Jughead era bastante idéntica a la de Veronica, aunque parece ser un poco más tosca. ^[68]

El vagabundo solitario

El World Wide Web Wanderer , desarrollado por Matthew Gray en 1993 ^[69] , fue el primer robot de la Web y fue diseñado para rastrear el crecimiento de la Web. Inicialmente, el Wanderer solo contaba servidores web, pero poco después de su introducción, comenzó a capturar URL a medida que avanzaba. La base de datos de URL capturadas se convirtió en Wandex, la primera base de datos web.

Wanderer, de Matthew Gray, generó una gran controversia en su momento, en parte porque las primeras versiones del software se extendieron por la red y causaron una notable degradación del rendimiento en toda la red. Esta degradación se produjo porque Wanderer accedía a la misma página cientos de veces al día. Wanderer pronto modificó sus métodos, pero la controversia sobre si los robots eran buenos o malos para Internet persistió.

En respuesta al Wanderer, Martijn Koster creó Archie-Like Indexing of the Web, o ALIWEB, en octubre de 1993. Como su nombre lo indica, ALIWEB era el equivalente HTTP de Archie y, por eso, sigue siendo único en muchos sentidos.

ALIWEB no tiene un robot de búsqueda web. En su lugar, los webmasters de los sitios participantes publican su propia información de índice para cada página que desean que aparezca en la lista. La ventaja de este método es que los usuarios pueden describir su propio sitio y un robot no tiene que andar por ahí consumiendo ancho de banda de la red. Las desventajas de ALIWEB son más problemáticas hoy en día. La principal desventaja es que se debe enviar un archivo de indexación especial. La mayoría de los usuarios no entienden cómo crear un archivo de este tipo y, por lo tanto, no envían sus páginas. Esto da lugar a una base de datos relativamente pequeña, lo que significa que los usuarios tienen menos probabilidades de buscar en ALIWEB que en uno de los grandes sitios basados en bots. Este dilema se ha compensado en cierta medida con la incorporación de otras bases de datos a la búsqueda de ALIWEB, pero aún no tiene el atractivo masivo de los motores de búsqueda como Yahoo! o Lycos. ^[68]

Excitar

Excite , inicialmente llamado Architext, fue creado por seis estudiantes de Stanford en febrero de 1993. Su idea era utilizar el análisis estadístico de las relaciones entre palabras para proporcionar búsquedas más eficientes a través de la gran cantidad de información que hay en Internet. Su proyecto fue financiado en su totalidad a mediados de 1993. Una vez que se consiguió la financiación, lanzaron una versión de su software de búsqueda para que los webmasters lo utilizaran en sus propios sitios web. En ese momento, el software se llamaba Architext, pero ahora se conoce con el nombre de Excite for Web Servers. ^[68]

Excite fue el primer motor de búsqueda comercial serio que se lanzó en 1995. ^[70] Fue desarrollado en Stanford y fue adquirido por @Home por 6.500 millones de dólares. En 2001, Excite y @Home se declararon en quiebra e InfoSpace compró Excite por 10 millones de dólares.

Algunos de los primeros análisis de búsquedas web se realizaron en registros de búsqueda de Excite ^[71]^[72]

¡Yahoo!

En abril de 1994, dos candidatos a doctorado de la Universidad de Stanford, David Filo y Jerry Yang , crearon algunas páginas que se hicieron bastante populares. Llamaron a la colección de páginas Yahoo! Su explicación oficial para la elección del nombre fue que se consideraban un par de yahoos.

A medida que el número de enlaces aumentó y sus páginas comenzaron a recibir miles de visitas al día, el equipo creó formas de organizar mejor los datos. Para facilitar la recuperación de datos, Yahoo! (www.yahoo.com) se convirtió en un directorio con capacidad de búsqueda. La función de búsqueda era un simple motor de búsqueda de bases de datos. Debido a que las entradas de Yahoo! se ingresaban y categorizaban manualmente, Yahoo! no se clasificaba realmente como un motor de búsqueda. En cambio, generalmente se consideraba un directorio con capacidad de búsqueda. Desde entonces, Yahoo! ha automatizado algunos aspectos del proceso de recopilación y clasificación, desdibujando la distinción entre motor y directorio.

Wanderer sólo capturó URL, lo que dificultó la búsqueda de elementos que no estuvieran explícitamente descritos en su URL. Como las URL son bastante crípticas, esto no ayudó al usuario promedio. La búsqueda en Yahoo! o Galaxy fue mucho más efectiva porque contenían información descriptiva adicional sobre los sitios indexados.

Licos

En la Universidad Carnegie Mellon, durante julio de 1994, Michael Mauldin, en licencia de la CMU, desarrolló el motor de búsqueda Lycos .

Tipos de motores de búsqueda web

Los motores de búsqueda de la web son sitios web enriquecidos con la posibilidad de buscar el contenido almacenado en otros sitios. Existen diferencias en la forma en que funcionan los distintos motores de búsqueda, pero todos realizan tres tareas básicas. ^[73]

Búsqueda y selección de contenido completo o parcial en función de las palabras clave proporcionadas.
Mantener el índice del contenido y referenciarlo a la ubicación donde se encuentran.
Permitir a los usuarios buscar palabras o combinaciones de palabras encontradas en ese índice.

El proceso comienza cuando un usuario ingresa una declaración de consulta en el sistema a través de la interfaz proporcionada.

Básicamente, existen tres tipos de motores de búsqueda: aquellos que funcionan con robots (llamados crawlers , hormigas o arañas), aquellos que funcionan con envíos humanos y aquellos que son un híbrido de los dos.

Los motores de búsqueda basados en rastreadores son aquellos que utilizan agentes de software automatizados (llamados rastreadores) que visitan un sitio web, leen la información del sitio en sí, leen las metaetiquetas del sitio y también siguen los enlaces a los que se conecta el sitio, realizando también la indexación de todos los sitios web vinculados. El rastreador devuelve toda esa información a un depósito central, donde se indexan los datos. El rastreador volverá periódicamente a los sitios para comprobar si hay alguna información que haya cambiado. La frecuencia con la que esto sucede la determinan los administradores del motor de búsqueda.

Los motores de búsqueda controlados por humanos dependen de que los humanos envíen información que luego se indexa y cataloga. Solo la información enviada se incluye en el índice.

En ambos casos, cuando se realiza una consulta a un motor de búsqueda para localizar información, en realidad se está buscando en el índice que el motor de búsqueda ha creado, no en la Web. Estos índices son bases de datos gigantes de información que se recopilan, almacenan y, posteriormente, se buscan. Esto explica por qué, a veces, una búsqueda en un motor de búsqueda comercial, como Yahoo! o Google, devolverá resultados que, de hecho, son enlaces inactivos. Dado que los resultados de la búsqueda se basan en el índice, si este no se ha actualizado desde que una página web dejó de ser válida, el motor de búsqueda trata la página como si todavía fuera un enlace activo, aunque ya no lo sea. Seguirá siendo así hasta que se actualice el índice.

Entonces, ¿por qué la misma búsqueda en distintos motores de búsqueda produce resultados diferentes? Parte de la respuesta a esa pregunta es que no todos los índices van a ser exactamente iguales. Depende de lo que encuentren las arañas o de lo que envíen los humanos. Pero lo que es más importante, no todos los motores de búsqueda utilizan el mismo algoritmo para buscar en los índices. El algoritmo es lo que utilizan los motores de búsqueda para determinar la relevancia de la información del índice con respecto a lo que el usuario está buscando.

Uno de los elementos que analiza el algoritmo de un motor de búsqueda es la frecuencia y la ubicación de las palabras clave en una página web. Las que tienen una frecuencia más alta suelen considerarse más relevantes. Pero la tecnología de los motores de búsqueda se está volviendo cada vez más sofisticada en su intento de desalentar lo que se conoce como relleno de palabras clave o spamdexing.

Otro elemento común que los algoritmos analizan es la forma en que las páginas se vinculan a otras páginas de la Web. Al analizar cómo se vinculan las páginas entre sí, un motor puede determinar de qué trata una página (si las palabras clave de las páginas vinculadas son similares a las palabras clave de la página original) y si esa página se considera "importante" y merece una mejora en el ranking. Así como la tecnología se está volviendo cada vez más sofisticada para ignorar el relleno de palabras clave, también se está volviendo más astuto para los webmasters que crean enlaces artificiales en sus sitios para construir un ranking artificial.

Los motores de búsqueda web modernos son sistemas de software muy complejos que emplean tecnología que ha evolucionado a lo largo de los años. Hay varias subcategorías de software de motores de búsqueda que se aplican por separado a necesidades de "navegación" específicas. Entre ellas se incluyen los motores de búsqueda web (por ejemplo, Google ), los motores de búsqueda de bases de datos o datos estructurados (por ejemplo, Dieselpoint ) y los motores de búsqueda mixtos o de búsqueda empresarial. Los motores de búsqueda más habituales, como Google y Yahoo !, utilizan cientos de miles de ordenadores para procesar billones de páginas web con el fin de devolver resultados bastante precisos. Debido a este alto volumen de consultas y procesamiento de texto, se requiere que el software se ejecute en un entorno muy disperso con un alto grado de superfluidad.

Otra categoría de motores de búsqueda son los motores de búsqueda científicos. Se trata de motores de búsqueda que buscan literatura científica. El ejemplo más conocido es Google Scholar. Los investigadores están trabajando para mejorar la tecnología de los motores de búsqueda haciéndoles comprender el elemento de contenido de los artículos, como por ejemplo, extrayendo construcciones teóricas o hallazgos clave de la investigación. ^[74]

Véase también

Comparación de motores de búsqueda web
Burbuja de filtro
Efecto Google
Recuperación de información
Uso de buscadores web en bibliotecas
Pinta
Lista de motores de búsqueda
Respuesta a preguntas
Efecto de manipulación de motores de búsqueda
Privacidad de los motores de búsqueda
Web semántica
Corrector ortográfico
Herramientas de desarrollo web
Consulta web
Wikipedia:Prueba de motor de búsqueda , para obtener un tutorial sobre el uso de motores de búsqueda para investigar artículos de Wikipedia

Referencias

^ "Cuota de mercado de los motores de búsqueda en todo el mundo | Estadísticas globales de StatCounter". StatCounter . Consultado el 19 de febrero de 2024 .
^ ab "Cuota de mercado de los motores de búsqueda en todo el mundo". Similarweb Principales motores de búsqueda . Consultado el 19 de febrero de 2024 .
^ Bush, Vannevar (1 de julio de 1945). «Como podemos pensar». The Atlantic . Archivado desde el original el 22 de agosto de 2012. Consultado el 22 de febrero de 2024 .
^ "Search Engine History.com" (Historia de los motores de búsqueda). www.searchenginehistory.com . Consultado el 2 de julio de 2020 .
^ "Inicio de sesión seguro en Penn State WebAccess". webaccess.psu.edu . Archivado desde el original el 22 de enero de 2022 . Consultado el 2 de julio de 2020 .
^ Marchiori, Massimo (1997). "La búsqueda de información correcta en la Web: hipermotores de búsqueda". Actas de la Sexta Conferencia Internacional sobre la World Wide Web (WWW6) . Consultado el 10 de enero de 2021 .
^ ab Brin, Sergey; Page, Larry (1998). "La anatomía de un motor de búsqueda web hipertextual a gran escala" (PDF) . Actas de la Séptima Conferencia Internacional sobre la World Wide Web (WWW7) . Archivado desde el original (PDF) el 2017-07-13 . Consultado el 2021-01-10 .
^ Harrenstien, K.; Blanco, V. (1982). "RFC 812 - NICNAME/WHOIS". Rastreador de datos del IETF . doi : 10.17487/RFC0812 .
^ "Programación de Knowbot: Soporte del sistema para agentes móviles". cnri.reston.va.us .
^ Deutsch, Peter (11 de septiembre de 1990). «[Siguiente] Un servidor de archivos de Internet (se trataba de Lisp)». groups.google.com . Consultado el 29 de diciembre de 2017 .
^ "Servidores de la World Wide Web". W3C . Consultado el 14 de mayo de 2012 .
^ "¡Novedades! Febrero de 1994". Mosaic Communications Corporation . Consultado el 14 de mayo de 2012 .
^ Search Engine Watch (septiembre de 2001). «Motores de búsqueda». Historia de Internet . Países Bajos: Universiteit Leiden. Archivado desde el original el 13 de abril de 2009.
^ ab "Archie". PCMag . Consultado el 20 de septiembre de 2020 .
^ Alexandra Samuel (21 de febrero de 2017). "Conoce a Alan Emtage, el tecnólogo negro que inventó ARCHIE, el primer motor de búsqueda de Internet". ITHAKA . Consultado el 20 de septiembre de 2020 .
^ loop news barbados. "Alan Emtage, un barbadense que debes conocer". loopnewsbarbados.com. Archivado desde el original el 23 de septiembre de 2020. Consultado el 21 de septiembre de 2020 .
^ Dino Grandoni, Alan Emtage (abril de 2013). "Alan Emtage: el hombre que inventó el primer motor de búsqueda del mundo (pero no lo patentó)". huffingtonpost .co.uk . Consultado el 21 de septiembre de 2020 .
^ Oscar Nierstrasz (2 de septiembre de 1993). "Catálogo de recursos de la WWW con capacidad de búsqueda (experimental)".
^ "Archivo de NCSA: página de novedades de diciembre de 1993". 20 de junio de 2001. Archivado desde el original el 20 de junio de 2001. Consultado el 14 de mayo de 2012 .
^ "¿Qué es el pionero?". SearchCIO . TechTarget . Septiembre de 2005 . Consultado el 5 de septiembre de 2019 .
^ Oppitz, Marcus; Tomsu, Peter (2017). Inventar el siglo de la nube: cómo la nubosidad sigue cambiando nuestra vida, economía y tecnología. Springer. pág. 238. ISBN 9783319611617.
^ "Yahoo! Search". Yahoo! . 28 de noviembre de 1996. Archivado desde el original el 28 de noviembre de 1996 . Consultado el 5 de septiembre de 2019 .
^ Greenberg, Andy, "El hombre que está venciendo a Google", revista Forbes , 5 de octubre de 2009
^ Yanhong Li, "Hacia un motor de búsqueda cualitativo", IEEE Internet Computing , vol. 2, núm. 4, págs. 24-29, julio/agosto de 1998, doi :10.1109/4236.707687
^ ab "Acerca de: RankDex", rankdex.com
^ USPTO, "Sistema y método de recuperación de documentos de hipertexto", número de patente de EE. UU.: 5920859, inventor: Yanhong Li, fecha de presentación: 5 de febrero de 1997, fecha de emisión: 6 de julio de 1999
^ "Baidu vs Google: Comparación de los gemelos de la búsqueda". FourWeekMBA . 18 de septiembre de 2018 . Consultado el 16 de junio de 2019 .
^ Altucher, James (18 de marzo de 2011). «10 cosas inusuales sobre Google». Forbes . Consultado el 16 de junio de 2019 .
^ ab "Método para la clasificación de nodos en una base de datos vinculada". Google Patents. Archivado desde el original el 15 de octubre de 2015 . Consultado el 19 de octubre de 2015 .
^ "Yahoo! y Netscape firman un acuerdo de distribución internacional" (PDF) . Archivado desde el original (PDF) el 2013-11-16 . Consultado el 2009-08-12 .
^ "Las ofertas de navegadores impulsan las acciones de Netscape un 7,8%". Los Angeles Times . 1 de abril de 1996.
^ Gandal, Neil (2001). "La dinámica de la competencia en el mercado de motores de búsqueda en Internet". Revista Internacional de Organización Industrial . 19 (7): 1103–1117. doi :10.1016/S0167-7187(01)00065-0. ISSN 0167-7187.
^ "Nuestra historia en profundidad". Archivado desde el original el 1 de noviembre de 2012. Consultado el 31 de octubre de 2012 .
^ "Definición: motor de búsqueda". Techtarget . Consultado el 1 de junio de 2023 .
^ abcdef Jawadekar, Waman S (2011), "8. Gestión del conocimiento: herramientas y tecnología", Gestión del conocimiento: texto y casos , Nueva Delhi: Tata McGraw-Hill Education Private Ltd, pág. 278, ISBN 978-0-07-07-0086-4, consultado el 23 de noviembre de 2012
^ Dasgupta, Anirban; Ghosh, Arpita; Kumar, Ravi; Olston, Christopher; Pandey, Sandeep; y Tomkins, Andrew. La capacidad de descubrimiento de la Web . http://www.arpitaghosh.com/papers/discoverability.pdf
^ Jansen, BJ, Spink, A. y Saracevic, T. 2000. Vida real, usuarios reales y necesidades reales: un estudio y análisis de las consultas de los usuarios en la web. Procesamiento y gestión de la información. 36(2), 207–227.
^ Chitu, Alex (30 de agosto de 2007). "Una forma sencilla de encontrar páginas web recientes". Sistema operativo de Google . Consultado el 22 de febrero de 2015 .
^ "¿Cómo funciona un motor de búsqueda?". GFO . Consultado el 26 de junio de 2018 .
^ "¿Qué es el SEO local y por qué es importante la búsqueda local?". Search Engine Journal . Consultado el 26 de abril de 2020 .
^ NPR https://www.npr.org/2024/05/02/1248152695/google-doj-monopoly-trial-antitrust-closing-arguments. {{cite web}}: Falta o está vacío |title=( ayuda )
^ "Internet en vivo - Estadísticas del sitio". Internet en vivo . Consultado el 4 de junio de 2014 .
^ Arthur, Charles (3 de junio de 2014). "Las empresas tecnológicas chinas están preparadas para dominar el mundo". The Guardian . Consultado el 4 de junio de 2014 .
^ "Cómo Naver perjudica la productividad de las empresas". The Wall Street Journal . 21 de mayo de 2014 . Consultado el 4 de junio de 2014 .
^ "La era de los imperios de Internet". Oxford Internet Institute . Consultado el 15 de agosto de 2019 .
^ Waddell, Kaveh (19 de enero de 2016). "Por qué Google abandonó China y por qué está volviendo". The Atlantic . Consultado el 26 de abril de 2020 .
^ Seznam se enfrenta a Google en la República Checa. Doz.
^ Segev, El (2010). Google y la brecha digital: los sesgos del conocimiento en línea, Oxford: Chandos Publishing.
^ ab Vaughan, Liwen; Mike Thelwall (2004). "Sesgo de cobertura de los motores de búsqueda: evidencia y posibles causas". Procesamiento y gestión de la información . 40 (4): 693–707. CiteSeerX 10.1.1.65.5130 . doi :10.1016/S0306-4573(03)00063-3. S2CID 18977861.
^ Jansen, BJ y Rieh, S. (2010) Los diecisiete constructos teóricos de la búsqueda y recuperación de información. Revista de la Sociedad Estadounidense de Ciencias de la Información y Tecnología. 61(8), 1517–1534.
^ Berkman Center for Internet & Society (2002), "Reemplazo de Google con sistemas de búsqueda alternativos en China: documentación y capturas de pantalla", Facultad de Derecho de Harvard.
^ Introna, Lucas; Helen Nissenbaum (2000). "Dando forma a la Web: por qué importa la política de los motores de búsqueda". La sociedad de la información . 16 (3): 169–185. CiteSeerX 10.1.1.24.8051 . doi :10.1080/01972240050133634. S2CID 2111039.
^ Hillis, Ken; Petit, Michael; Jarrett, Kylie (12 de octubre de 2012). Google y la cultura de la búsqueda . Routledge. ISBN 9781136933066.
^ Reilly, P. (1 de enero de 2008). ""Googlear" a los terroristas: ¿son visibles los terroristas norirlandeses en los motores de búsqueda de Internet?". En Spink, Prof. Dr. Amanda; Zimmer, Michael (eds.). Búsqueda web . Ciencia de la información y gestión del conocimiento. Vol. 14. Springer Berlin Heidelberg. pp. 151–175. Bibcode :2008wsis.book..151R. doi :10.1007/978-3-540-75829-7_10. ISBN 978-3-540-75828-0.S2CID84831583 .
^ Hiroko Tabuchi , "Cómo los negacionistas del cambio climático llegan a la cima en las búsquedas de Google", The New York Times, 29 de diciembre de 2017. Consultado el 14 de noviembre de 2018.
^ Ballatore, A (2015). "Google chemtrails: una metodología para analizar la representación de temas en motores de búsqueda". Primer Lunes . 20 (7). doi : 10.5210/fm.v20i7.5597 .
^ Pariser, Eli (2011). La burbuja de filtros: lo que Internet te oculta. Nueva York: Penguin Press. ISBN 978-1-59420-300-8.OCLC 682892628 .
^ O'Hara, K. (1 de julio de 2014). "En adoración de un eco". IEEE Internet Computing . 18 (4): 79–83. doi : 10.1109/MIC.2014.71 . ISSN 1089-7801. S2CID 37860225.
^ ab Bruns, Axel (2019-11-29). "Burbuja de filtro". Internet Policy Review . 8 (4). doi : 10.14763/2019.4.1426 . hdl : 10419/214088 . ISSN 2197-6775. S2CID 211483210.
^ ab Haim, Mario; Graefe, Andreas; Brosius, Hans-Bernd (2018). "¿Estallido de la burbuja del filtro?". Periodismo Digital . 6 (3): 330–343. doi : 10.1080/21670811.2017.1338145 . ISSN 2167-0811. S2CID 168906316.
^ Nechushtai, Efrat; Lewis, Seth C. (2019). "¿Qué tipo de guardianes de noticias queremos que sean las máquinas? Burbujas de filtro, fragmentación y las dimensiones normativas de las recomendaciones algorítmicas". Computers in Human Behavior . 90 : 298–307. doi :10.1016/j.chb.2018.07.043. S2CID 53774351.
^ "Nuevo motor de búsqueda aprobado por el Islam para musulmanes". News.msn.com. Archivado desde el original el 12 de julio de 2013. Consultado el 11 de julio de 2013 .
^ "Jewogle - Preguntas frecuentes". Archivado desde el original el 7 de febrero de 2019. Consultado el 6 de febrero de 2019 .
^ "Halalgoogling: los musulmanes tienen su propio Google "libre de pecado"; ¿deberían los cristianos tener un Google cristiano? - Blog cristiano". Blog cristiano . 2013-07-25. Archivado desde el original el 2014-09-13 . Consultado el 2014-09-13 .
^ Schwartz, Barry (29 de octubre de 2012). "Google: los servicios de envío de contenido a motores de búsqueda pueden ser perjudiciales". Mesa redonda sobre motores de búsqueda . Consultado el 4 de abril de 2016 .
^ Heymann, Paul; Koutrika, Georgia; Garcia-Molina, Hector (12 de febrero de 2008). "¿Pueden los marcadores sociales mejorar la búsqueda web?". Primera conferencia internacional de la ACM sobre búsqueda web y minería de datos . Consultado el 12 de marzo de 2008 .
^ ab Priti Srinivas Sajja; Rajendra Akerkar (2012). Tecnologías inteligentes para aplicaciones web. Boca Raton: CRC Press. p. 87. ISBN 978-1-4398-7162-1. Recuperado el 3 de junio de 2014 .
^ abcd "Una historia de los motores de búsqueda". Wiley . Consultado el 1 de junio de 2014 .
^ Priti Srinivas Sajja; Rajendra Akerkar (2012). Tecnologías inteligentes para aplicaciones web. Boca Raton: CRC Press. p. 86. ISBN 978-1-4398-7162-1. Recuperado el 3 de junio de 2014 .
^ "Los principales motores de búsqueda". 21 de enero de 2014. Archivado desde el original el 5 de junio de 2014 . Consultado el 1 de junio de 2014 .
^ Jansen, BJ, Spink, A., Bateman, J. y Saracevic, T. 1998. Recuperación de información en la vida real: un estudio de consultas de usuarios en la web. SIGIR Forum, 32(1), 5 -17.
^ Jansen, BJ, Spink, A. y Saracevic, T. 2000. Vida real, usuarios reales y necesidades reales: un estudio y análisis de las consultas de los usuarios en la web. Procesamiento y gestión de la información. 36(2), 207–227.
^ Priti Srinivas Sajja; Rajendra Akerkar (2012). Tecnologías inteligentes para aplicaciones web. Boca Raton: CRC Press. p. 85. ISBN 978-1-4398-7162-1. Recuperado el 3 de junio de 2014 .
^ Li, Jingjing; Larsen, Kai; Abbasi, Ahmed (1 de diciembre de 2020). "TheoryOn: un marco de diseño y un sistema para desbloquear el conocimiento conductual a través del aprendizaje de ontologías". MIS Quarterly . 44 (4): 1733–1772. doi :10.25300/MISQ/2020/15323. S2CID 219401379.

Lectura adicional

Steve Lawrence; C. Lee Giles (1999). "Accesibilidad de la información en la web". Nature . 400 (6740): 107–9. Bibcode :1999Natur.400..107L. doi : 10.1038/21987 . PMID 10428673. S2CID 4347646.
Bing Liu (2007), Minería de datos web: exploración de hipervínculos, contenidos y datos de uso. Springer, ISBN 3-540-37881-2
Bar-Ilan, J. (2004). El uso de motores de búsqueda web en la investigación en ciencias de la información. ARIST, 38, 231–288.
Levene, Mark (2005). Introducción a los motores de búsqueda y la navegación web . Pearson.
Hock, Randolph (2007). El manual del buscador extremo .Número de publicación: 978-0-910965-76-7
Javed Mostafa (febrero de 2005). "Buscando mejores búsquedas en la Web". Scientific American . 292 (2): 66–73. Bibcode :2005SciAm.292b..66M. doi :10.1038/scientificamerican0205-66.
Ross, Nancy; Wolfram, Dietmar (2000). "Búsqueda del usuario final en Internet: un análisis de los pares de términos enviados al motor de búsqueda Excite". Journal of the American Society for Information Science . 51 (10): 949–958. doi :10.1002/1097-4571(2000)51:10<949::AID-ASI70>3.0.CO;2-5.
Xie, M.; et al. (1998). "Dimensiones de calidad de los motores de búsqueda de Internet". Revista de Ciencias de la Información . 24 (5): 365–372. doi :10.1177/016555159802400509. S2CID 34686531.
Recuperación de información: implementación y evaluación de motores de búsqueda. MIT Press. 2010. Archivado desde el original el 5 de octubre de 2020. Consultado el 7 de agosto de 2010 .
Yeo, ShinJoung. (2023) Detrás del cuadro de búsqueda: Google y la industria global de Internet (U of Illinois Press, 2023) ISBN 10:0252087127 en línea

Enlaces externos

Wikimedia Commons tiene medios relacionados con Motores de búsqueda de Internet .

Wikiversidad tiene recursos de aprendizaje sobre motores de búsqueda

Motores de búsqueda en Curlie