Motor de búsqueda (informática)

En informática , un motor de búsqueda es un sistema de software de recuperación de información diseñado para ayudar a encontrar información almacenada en uno o más sistemas informáticos . Los motores de búsqueda descubren, rastrean, transforman y almacenan información para su recuperación y presentación en respuesta a las consultas del usuario. Los resultados de la búsqueda suelen presentarse en una lista y se denominan comúnmente hits . El tipo de motor de búsqueda más utilizado es un motor de búsqueda web , que busca información en la World Wide Web .

Un motor de búsqueda normalmente consta de cuatro componentes: una interfaz de búsqueda, un rastreador (también conocido como araña o bot), un indexador y una base de datos. El rastreador recorre una colección de documentos, deconstruye el texto del documento y asigna sustitutos para su almacenamiento en el índice del motor de búsqueda. Los motores de búsqueda en línea almacenan imágenes, datos de enlaces y metadatos del documento.

Cómo funcionan los motores de búsqueda

Los motores de búsqueda proporcionan una interfaz a un grupo de elementos que permite a los usuarios especificar criterios sobre un elemento de interés y hacer que el motor encuentre los elementos coincidentes. Los criterios se denominan consulta de búsqueda . En el caso de los motores de búsqueda de texto, la consulta de búsqueda se expresa normalmente como un conjunto de palabras que identifican el concepto deseado que uno o más documentos pueden contener. ^[1] Hay varios estilos de sintaxis de consulta de búsqueda que varían en rigurosidad. También puede cambiar los nombres dentro de los motores de búsqueda de sitios anteriores. Mientras que algunos motores de búsqueda de texto requieren que los usuarios introduzcan dos o tres palabras separadas por espacios en blanco , otros motores de búsqueda pueden permitir a los usuarios especificar documentos completos, imágenes, sonidos y varias formas de lenguaje natural . Algunos motores de búsqueda aplican mejoras a las consultas de búsqueda para aumentar la probabilidad de proporcionar un conjunto de elementos de calidad a través de un proceso conocido como expansión de consulta . Los métodos de comprensión de consultas se pueden utilizar como lenguaje de consulta estandarizado.

La lista de elementos que cumplen los criterios especificados por la consulta se suele ordenar o clasificar. La clasificación de los elementos por relevancia (de mayor a menor) reduce el tiempo necesario para encontrar la información deseada. Los motores de búsqueda probabilísticos clasifican los elementos en función de medidas de similitud (entre cada elemento y la consulta, normalmente en una escala de 1 a 0, siendo 1 el más similar) y, a veces, popularidad o autoridad (consulte Bibliometría ) o utilizan comentarios de relevancia . Los motores de búsqueda booleanos normalmente solo devuelven elementos que coinciden exactamente sin tener en cuenta el orden, aunque el término motor de búsqueda booleano puede referirse simplemente al uso de la sintaxis de estilo booleano (el uso de los operadores AND , OR , NOT y XOR ) en un contexto probabilístico.

Para proporcionar un conjunto de elementos coincidentes que se ordenan de acuerdo con ciertos criterios rápidamente, un motor de búsqueda generalmente recopilará metadatos sobre el grupo de elementos en consideración de antemano a través de un proceso conocido como indexación . El índice generalmente requiere una cantidad menor de almacenamiento informático , por lo que algunos motores de búsqueda solo almacenan la información indexada y no el contenido completo de cada elemento, y en su lugar proporcionan un método para navegar a los elementos en la página de resultados del motor de búsqueda . Alternativamente, el motor de búsqueda puede almacenar una copia de cada elemento en una memoria caché para que los usuarios puedan ver el estado del elemento en el momento en que se indexó o para fines de archivo o para hacer que los procesos repetitivos funcionen de manera más eficiente y rápida. ^[2]

Otros tipos de motores de búsqueda no almacenan un índice. Los motores de búsqueda de tipo araña o rastreador (también conocidos como motores de búsqueda en tiempo real) pueden recopilar y evaluar elementos en el momento de la consulta de búsqueda, considerando dinámicamente elementos adicionales en función del contenido de un elemento inicial (conocido como semilla o URL semilla en el caso de un rastreador de Internet). Los metabuscadores no almacenan un índice ni una memoria caché y, en su lugar, simplemente reutilizan el índice o los resultados de uno o más motores de búsqueda para proporcionar un conjunto final agregado de resultados.

El tamaño de la base de datos, que había sido una característica de marketing significativa a principios de la década de 2000, fue reemplazado de manera similar por el énfasis en la clasificación por relevancia, los métodos por los cuales los motores de búsqueda intentan ordenar los mejores resultados primero. La clasificación por relevancia se convirtió en un problema importante por primera vez alrededor de 1996 , cuando se hizo evidente que no era práctico revisar listas completas de resultados. En consecuencia, los algoritmos para la clasificación por relevancia han mejorado continuamente. El método PageRank de Google para ordenar los resultados ha recibido la mayor parte de la prensa, pero todos los motores de búsqueda principales continuamente refinan sus metodologías de clasificación con vistas a mejorar el orden de los resultados. A partir de 2006, las clasificaciones de los motores de búsqueda son más importantes que nunca, tanto que se ha desarrollado una industria (" optimizadores de motores de búsqueda ", o "SEO") para ayudar a los desarrolladores web a mejorar su clasificación de búsqueda, y se ha desarrollado todo un cuerpo de jurisprudencia en torno a cuestiones que afectan a las clasificaciones de los motores de búsqueda, como el uso de marcas comerciales en metaetiquetas . La venta de clasificaciones de búsqueda por parte de algunos motores de búsqueda también ha creado controversia entre bibliotecarios y defensores de los consumidores. ^[3]

La experiencia de los usuarios en los motores de búsqueda sigue mejorando. La incorporación del Gráfico de conocimiento de Google ha tenido amplias ramificaciones para Internet, posiblemente incluso limitando el tráfico de ciertos sitios web, por ejemplo Wikipedia. Al extraer información y presentarla en la página de Google, algunos sostienen que puede afectar negativamente a otros sitios. Sin embargo, no ha habido grandes preocupaciones. ^[4]

Categorías de motores de búsqueda

Motores de búsqueda web

Los motores de búsqueda diseñados expresamente para buscar páginas web, documentos e imágenes se desarrollaron para facilitar la búsqueda en una masa grande y nebulosa de recursos no estructurados. Están diseñados para seguir un proceso de varias etapas: rastrear la pila infinita de páginas y documentos para extraer la espuma figurativa de sus contenidos, indexar la espuma/las palabras de moda en una especie de formato semiestructurado (base de datos o algo así) y, por último, resolver las entradas/consultas del usuario para devolver resultados y enlaces principalmente relevantes a esos documentos o páginas examinados del inventario.

Gatear

En el caso de una búsqueda totalmente textual, el primer paso para clasificar las páginas web es encontrar un "elemento de índice" que pueda estar relacionado expresamente con el "término de búsqueda". En el pasado, los motores de búsqueda empezaban con una pequeña lista de URL, llamada lista de semillas, extraían el contenido y analizaban los enlaces de esas páginas en busca de información relevante, que posteriormente proporcionaba nuevos enlaces. El proceso era altamente cíclico y continuaba hasta que se encontraban suficientes páginas para el uso del buscador. En la actualidad, se emplea un método de rastreo continuo en lugar de un descubrimiento incidental basado en una lista de semillas. El método de rastreo es una extensión del método de descubrimiento antes mencionado.

La mayoría de los motores de búsqueda utilizan sofisticados algoritmos de programación para “decidir” cuándo volver a visitar una página en particular, para apelar a su relevancia. Estos algoritmos varían desde un intervalo de visita constante con mayor prioridad para las páginas que cambian con mayor frecuencia hasta un intervalo de visita adaptable basado en varios criterios, como la frecuencia de cambio, la popularidad y la calidad general del sitio. También influyen la velocidad del servidor web que ejecuta la página, así como las limitaciones de recursos, como la cantidad de hardware o el ancho de banda.

Mapa de enlaces

Las páginas que se descubren mediante rastreos web suelen distribuirse y alimentarse a otro ordenador que crea un mapa de los recursos descubiertos. La masa de datos se parece un poco a un gráfico, en el que las diferentes páginas se representan como pequeños nodos conectados por enlaces entre las páginas. El exceso de datos se almacena en múltiples estructuras de datos que permiten un acceso rápido a dichos datos mediante ciertos algoritmos que calculan la puntuación de popularidad de las páginas en la web en función de la cantidad de enlaces que apuntan a una determinada página web, que es la forma en que las personas pueden acceder a cualquier cantidad de recursos relacionados con el diagnóstico de la psicosis. Otro ejemplo sería la accesibilidad/clasificación de las páginas web que contienen información sobre Mohamed Morsi frente a las mejores atracciones para visitar en El Cairo tras introducir simplemente "Egipto" como término de búsqueda. Uno de estos algoritmos, PageRank , propuesto por los fundadores de Google Larry Page y Sergey Brin, es muy conocido y ha atraído mucha atención porque destaca la repetida monotonía de las búsquedas web cortesía de los estudiantes que no saben cómo investigar adecuadamente los temas en Google.

La idea de realizar un análisis de enlaces para calcular un ranking de popularidad es más antigua que el PageRank. Sin embargo, en octubre de 2014, John Mueller de Google confirmó que Google no lo actualizará (PageRank) en el futuro. Actualmente se utilizan otras variantes de la misma idea: los alumnos de primaria hacen el mismo tipo de cálculos para elegir equipos de kickball. Estas ideas se pueden clasificar en tres categorías principales: ranking de páginas individuales y naturaleza del contenido del sitio web. Los motores de búsqueda suelen diferenciar entre enlaces internos y externos, porque los creadores de contenido web no son ajenos a la autopromoción descarada. Las estructuras de datos de mapas de enlaces suelen almacenar también el texto de anclaje incrustado en los enlaces, porque el texto de anclaje a menudo puede proporcionar un resumen de "muy buena calidad" del contenido de una página web.

Motores de búsqueda de bases de datos

La búsqueda de contenido basado en texto en bases de datos presenta algunos desafíos especiales que han hecho que prosperen varios motores de búsqueda especializados. Las bases de datos pueden ser lentas al resolver consultas complejas (con múltiples argumentos lógicos o de coincidencia de cadenas). Las bases de datos permiten consultas pseudológicas que las búsquedas de texto completo no utilizan. No es necesario rastrear una base de datos ya que los datos ya están estructurados. Sin embargo, a menudo es necesario indexar los datos de una forma más económica para permitir una búsqueda más rápida.

Motores de búsqueda mixtos

A veces, los datos buscados contienen tanto contenido de bases de datos como páginas web o documentos. La tecnología de los motores de búsqueda se ha desarrollado para responder a ambos conjuntos de requisitos. La mayoría de los motores de búsqueda mixtos son grandes motores de búsqueda web, como Google. Buscan tanto en fuentes de datos estructuradas como no estructuradas . Tomemos como ejemplo la palabra "balón". En sus términos más simples, devuelve más de 40 variaciones solo en Wikipedia. ¿Quiso decir un balón, como en la reunión social/baile? ¿Un balón de fútbol? ¿La planta del pie? Las páginas y los documentos se rastrean e indexan en un índice separado. Las bases de datos también se indexan a partir de varias fuentes. Luego, los resultados de la búsqueda se generan para los usuarios consultando estos múltiples índices en paralelo y combinando los resultados de acuerdo con "reglas".

Historia de la tecnología de búsqueda

El Memex

El concepto de hipertexto y de extensión de la memoria tiene su origen en un artículo publicado en The Atlantic Monthly en julio de 1945 escrito por Vannevar Bush , titulado " As We May Think ". En este artículo, Vannevar instaba a los científicos a trabajar juntos para ayudar a construir un cuerpo de conocimiento para toda la humanidad. Luego propuso la idea de un sistema de almacenamiento y recuperación de memoria asociativo, virtualmente ilimitado, rápido, confiable y extensible. A este dispositivo lo denominó memex . ^[5]

Bush consideró que su principal contribución conceptual fue la noción de “indexación asociativa”. Según explicó, se trataba de “una disposición por la cual cualquier elemento puede ser obligado a elegir a voluntad de forma inmediata y automática otro. Esta es la característica esencial del memex. El proceso de vincular dos elementos es lo importante”. ^[6]

Todos los documentos utilizados en el memex estarían en forma de copia en microfilm adquirida como tal o, en el caso de registros personales, transformada en microfilm por la propia máquina. El memex también emplearía nuevas técnicas de recuperación basadas en un nuevo tipo de indexación asociativa cuya idea básica es una disposición por la cual cualquier elemento puede ser obligado a seleccionar de forma inmediata y automática otro para crear "rastros" personales a través de documentos vinculados. Los nuevos procedimientos, que Bush anticipó que facilitarían el almacenamiento y la recuperación de información, conducirían al desarrollo de formas totalmente nuevas de enciclopedia.

El mecanismo más importante concebido por Bush es el sendero asociativo, que sería una forma de crear una nueva secuencia lineal de fotogramas de microfilm a lo largo de cualquier secuencia arbitraria de fotogramas de microfilm creando una secuencia encadenada de enlaces de la manera que se acaba de describir, junto con comentarios personales y senderos secundarios.

En 1965, Bush participó en el proyecto INTREX del MIT, destinado a desarrollar tecnología para la mecanización del procesamiento de información para uso bibliotecario. En su ensayo de 1967 titulado "Memex Revisited", señaló que el desarrollo de la computadora digital, el transistor, el vídeo y otros dispositivos similares habían aumentado la viabilidad de dicha mecanización, pero los costos retrasarían su realización. ^[7]

ELEGANTE

Gerard Salton, que murió el 28 de agosto de 1995, fue el padre de la tecnología de búsqueda moderna. Sus equipos en Harvard y Cornell desarrollaron el sistema de recuperación de información SMART. El Magic Automatic Retriever of Text de Salton incluía conceptos importantes como el modelo de espacio vectorial , la frecuencia inversa de documentos (IDF), la frecuencia de términos (TF), los valores de discriminación de términos y los mecanismos de retroalimentación de relevancia.

Fue autor de un libro de 56 páginas llamado Una teoría de la indexación , en el que explicaba muchas de sus pruebas, en las que todavía se basa en gran medida la búsqueda.

Motores de búsqueda de cadenas

En 1987 se publicó un artículo que detallaba el desarrollo de un motor de búsqueda de cadenas de caracteres (SSE) para la recuperación rápida de texto en un circuito de estado sólido CMOS de n-well de 1,6 μm y doble metal con 217.600 transistores dispuestos en un área de matriz de 8,62 x 12,76 mm. El SSE incorporaba una novedosa arquitectura de búsqueda de cadenas que combinaba una lógica de autómata de estado finito (FSA) de 512 etapas con una memoria direccionable por contenido (CAM) para lograr una comparación de cadenas aproximada de 80 millones de cadenas por segundo. La celda CAM constaba de cuatro celdas de RAM estática (SRAM) convencionales y un circuito de lectura/escritura. Se logró una comparación concurrente de 64 cadenas almacenadas con longitud variable en 50 ns para un flujo de texto de entrada de 10 millones de caracteres/s, lo que permitió un rendimiento a pesar de la presencia de errores de un solo carácter en forma de códigos de caracteres. Además, el chip permitía la búsqueda de cadenas no ancladas y la búsqueda de cadenas de longitud variable "no importa" (VLDC). ^[8]

Véase también

Por fuente

Por tipo de contenido

Por interfaz

Por tema

Otros

Resumen automático
Emanuel Goldberg (inventor del primer motor de búsqueda)
Índice (motor de búsqueda)
Índice invertido
Lista de motores de búsqueda
La búsqueda como servicio
Indexación de motores de búsqueda
Optimización de motores de búsqueda
Lista desplegable de sugerencias de búsqueda
Solucionador (informática)
indexación de spam
SQL
Minería de texto
Rastreador web
Desambiguación del sentido de las palabras (cómo lidiar con la ambigüedad )

Referencias

^ Voorhees, EM Procesamiento del lenguaje natural y recuperación de información ^{[ enlace muerto permanente ]} . Instituto Nacional de Estándares y Tecnología. Marzo de 2000.
^ "Conceptos básicos de Internet: uso de motores de búsqueda". GCFGlobal.org . Consultado el 11 de julio de 2022 .
^ Stross, Randall (22 de septiembre de 2009). Planeta Google: el audaz plan de una empresa para organizar todo lo que sabemos. Simon and Schuster. ISBN 978-1-4165-4696-2. Recuperado el 9 de diciembre de 2012 .
^ "¿Qué podemos pensar de la caída del tráfico de Wikipedia?". The Daily Dot . 2014-01-08 . Consultado el 2020-11-01 .
^ Yeo, Richard (30 de enero de 2007). "Antes de Memex: Robert Hooke, John Locke y Vannevar Bush sobre la memoria externa". Science in Context . 20 (1): 21. doi :10.1017/S0269889706001128. hdl : 10072/15207 . S2CID 2378301.
^ Yeo, Richard (30 de enero de 2007). "Antes de Memex: Robert Hooke, John Locke y Vannevar Bush sobre la memoria externa". Science in Context . 20 (1): 21–47. doi :10.1017/S0269889706001128. hdl : 10072/15207 . S2CID 2378301El ejemplo que da Bush es una búsqueda para encontrar información sobre los méritos relativos del arco corto turco y el arco largo inglés en las cruzadas.{{cite journal}}: CS1 maint: postscript (link)
^ "El MEMEX de Vannevar Bush". 4 de enero de 2021. Archivado desde el original el 7 de enero de 2021 . Consultado el 12 de agosto de 2023 .
^ Yamada, H.; Hirata, M.; Nagai, H.; Takahashi, K. (octubre de 1987). "Un motor de búsqueda de cadenas de alta velocidad". IEEE Journal of Solid-State Circuits . 22 (5). IEEE: 829–834. Bibcode :1987IJSSC..22..829Y. doi :10.1109/JSSC.1987.1052819.