stringtranslate.com

Motor de búsqueda (informática)

En informática , un motor de búsqueda es un sistema de software de recuperación de información diseñado para ayudar a encontrar información almacenada en uno o más sistemas informáticos . Los motores de búsqueda descubren, rastrean, transforman y almacenan información para recuperarla y presentarla en respuesta a las consultas de los usuarios. [1] Los resultados de la búsqueda generalmente se presentan en una lista y comúnmente se denominan visitas . El tipo de motor de búsqueda más utilizado es el motor de búsqueda web , que busca información en la World Wide Web .

Un motor de búsqueda normalmente consta de cuatro componentes, a saber: una interfaz de búsqueda, un rastreador (también conocido como araña o robot), un indexador y una base de datos. El rastreador recorre una colección de documentos, deconstruye el texto del documento y asigna sustitutos para el almacenamiento en el índice del motor de búsqueda. Los motores de búsqueda en línea almacenan imágenes, datos de enlaces y metadatos del documento.

Cómo funcionan los motores de búsqueda

Los motores de búsqueda proporcionan una interfaz para un grupo de elementos que permite a los usuarios especificar criterios sobre un elemento de interés y hacer que el motor encuentre los elementos coincidentes. Los criterios se denominan consulta de búsqueda . En el caso de los motores de búsqueda de texto, la consulta de búsqueda generalmente se expresa como un conjunto de palabras que identifican el concepto deseado que pueden contener uno o más documentos . [2] Hay varios estilos de sintaxis de consultas de búsqueda que varían en rigor. También puede cambiar nombres dentro de los motores de búsqueda de sitios anteriores. Mientras que algunos motores de búsqueda de texto requieren que los usuarios ingresen dos o tres palabras separadas por espacios en blanco , otros motores de búsqueda pueden permitir a los usuarios especificar documentos completos, imágenes, sonidos y diversas formas de lenguaje natural . Algunos motores de búsqueda aplican mejoras a las consultas de búsqueda para aumentar la probabilidad de proporcionar un conjunto de elementos de calidad mediante un proceso conocido como expansión de consultas . Los métodos de comprensión de consultas se pueden utilizar como lenguaje de consulta estandarizado.

Motor de búsqueda basado en índices.

La lista de elementos que cumplen los criterios especificados por la consulta normalmente se ordena o clasifica. Clasificar los elementos por relevancia (de mayor a menor) reduce el tiempo necesario para encontrar la información deseada. Los motores de búsqueda probabilísticos clasifican los elementos según medidas de similitud (entre cada elemento y la consulta, normalmente en una escala de 1 a 0, siendo 1 el más similar) y, a veces, popularidad o autoridad (consulte Bibliometría ) o utilizan comentarios de relevancia . Los motores de búsqueda booleanos normalmente solo devuelven elementos que coinciden exactamente sin tener en cuenta el orden, aunque el término motor de búsqueda booleano puede referirse simplemente al uso de sintaxis de estilo booleano (el uso de operadores AND , OR , NOT y XOR ) en un contexto probabilístico. .

Para proporcionar un conjunto de elementos coincidentes que se ordenan rápidamente según algunos criterios, un motor de búsqueda normalmente recopilará metadatos sobre el grupo de elementos bajo consideración de antemano mediante un proceso denominado indexación . El índice normalmente requiere una cantidad menor de almacenamiento en la computadora , razón por la cual algunos motores de búsqueda solo almacenan la información indexada y no el contenido completo de cada elemento, y en su lugar proporcionan un método para navegar a los elementos en la página de resultados del motor de búsqueda . Alternativamente, el motor de búsqueda puede almacenar una copia de cada elemento en un caché para que los usuarios puedan ver el estado del elemento en el momento en que fue indexado o con fines de archivo o para hacer que los procesos repetitivos funcionen de manera más eficiente y rápida. [3]

Otros tipos de motores de búsqueda no almacenan un índice. Los motores de búsqueda de tipo rastreador o araña (también conocidos como motores de búsqueda en tiempo real) pueden recopilar y evaluar elementos en el momento de la consulta de búsqueda, considerando dinámicamente elementos adicionales en función del contenido de un elemento inicial (conocido como semilla o URL semilla en inglés). el caso de un rastreador de Internet). Los metamotores de búsqueda no almacenan ni un índice ni un caché y, en cambio, simplemente reutilizan el índice o los resultados de uno o más motores de búsqueda para proporcionar un conjunto final agregado de resultados.

El tamaño de la base de datos, que había sido una característica importante del marketing a principios de la década de 2000, fue igualmente desplazado por el énfasis en la clasificación por relevancia, los métodos mediante los cuales los motores de búsqueda intentan clasificar primero los mejores resultados. La clasificación de relevancia se convirtió por primera vez en un tema importante c.  1996 , cuando se hizo evidente que no era práctico revisar listas completas de resultados. En consecuencia, los algoritmos para la clasificación de relevancia han mejorado continuamente. El método PageRank de Google para ordenar los resultados ha recibido la mayor parte de la prensa, pero todos los principales motores de búsqueda perfeccionan continuamente sus metodologías de clasificación con miras a mejorar el orden de los resultados. Desde 2006, la clasificación en los motores de búsqueda es más importante que nunca, hasta el punto de que se ha desarrollado una industria (" optimizadores de motores de búsqueda " o "SEO") para ayudar a los desarrolladores web a mejorar su clasificación en las búsquedas, y se ha creado toda una jurisprudencia . se ha desarrollado en torno a cuestiones que afectan la clasificación de los motores de búsqueda, como el uso de marcas comerciales en metaetiquetas . La venta de rankings de búsqueda por parte de algunos motores de búsqueda también ha creado controversia entre bibliotecarios y defensores de los consumidores. [4]

El "Panel de conocimiento" de Google. Así es como se presenta a los usuarios la información del Gráfico de conocimiento.

Se sigue mejorando la experiencia de los usuarios en los motores de búsqueda. La incorporación de Google Knowledge Graph por parte de Google ha tenido ramificaciones más amplias para Internet, posiblemente incluso limitando el tráfico de ciertos sitios web, por ejemplo Wikipedia. Al extraer información y presentarla en la página de Google, algunos argumentan que puede afectar negativamente a otros sitios. Sin embargo, no ha habido mayores preocupaciones. [5]

Categorías de motores de búsqueda

motores de búsqueda web

Los motores de búsqueda diseñados expresamente para buscar páginas web, documentos e imágenes se desarrollaron para facilitar la búsqueda a través de una masa grande y nebulosa de recursos no estructurados. Están diseñados para seguir un proceso de varias etapas: rastrear la reserva infinita de páginas y documentos para eliminar la espuma figurativa de su contenido, indexar la espuma/palabras de moda en una especie de forma semiestructurada (base de datos o algo así) y, por último, , resolviendo las entradas/consultas de los usuarios para devolver resultados en su mayoría relevantes y enlaces a esos documentos o páginas hojeadas del inventario.

Gatear

En el caso de una búsqueda totalmente textual, el primer paso para clasificar páginas web es encontrar un "elemento de índice" que pueda relacionarse expresamente con el "término de búsqueda". En el pasado, los motores de búsqueda comenzaban con una pequeña lista de URL como la llamada lista semilla, buscaban el contenido y analizaban los enlaces de esas páginas en busca de información relevante, que posteriormente proporcionaba nuevos enlaces. El proceso fue muy cíclico y continuó hasta que se encontraron suficientes páginas para el uso del buscador. Hoy en día, se emplea un método de rastreo continuo en lugar de un descubrimiento incidental basado en una lista de semillas. El método de rastreo es una extensión del método de descubrimiento antes mencionado. Excepto

La mayoría de los motores de búsqueda utilizan sofisticados algoritmos de programación para "decidir" cuándo volver a visitar una página en particular, para apelar a su relevancia. Estos algoritmos van desde un intervalo de visita constante con mayor prioridad para páginas que cambian con más frecuencia hasta un intervalo de visita adaptativo basado en varios criterios, como la frecuencia de cambio, la popularidad y la calidad general del sitio. También influyen la velocidad del servidor web que ejecuta la página, así como las limitaciones de recursos, como la cantidad de hardware o el ancho de banda.

Mapa de enlaces

Las páginas que se descubren mediante rastreos web a menudo se distribuyen y se introducen en otra computadora que crea un mapa de los recursos descubiertos. La masa agrupada del cluster se parece un poco a un gráfico, en el que las diferentes páginas están representadas como pequeños nodos que están conectados por enlaces entre las páginas. El exceso de datos se almacena en múltiples estructuras de datos que permiten un acceso rápido a dichos datos mediante ciertos algoritmos que calculan la puntuación de popularidad de las páginas en la web en función de cuántos enlaces apuntan a una determinada página web, que es como las personas pueden acceder a cualquier número. de recursos relacionados con el diagnóstico de la psicosis. Otro ejemplo sería la accesibilidad/clasificación de las páginas web que contienen información sobre Mohamed Morsi versus las mejores atracciones para visitar en El Cairo después de simplemente ingresar "Egipto" como término de búsqueda. Uno de esos algoritmos, PageRank , propuesto por los fundadores de Google, Larry Page y Sergey Brin, es bien conocido y ha atraído mucha atención porque resalta la mundanidad repetida de las búsquedas web, cortesía de estudiantes que no saben cómo investigar temas adecuadamente en Google.

La idea de realizar análisis de enlaces para calcular un ranking de popularidad es más antigua que el PageRank. Sin embargo, en octubre de 2014, John Mueller de Google confirmó que Google no actualizará (Page Rank) en el futuro. Actualmente se utilizan otras variantes de la misma idea: los estudiantes de primaria hacen el mismo tipo de cálculos al elegir equipos de kickball. Estas ideas se pueden clasificar en tres categorías principales: clasificación de páginas individuales y naturaleza del contenido del sitio web. Los motores de búsqueda suelen diferenciar entre enlaces internos y enlaces externos, porque los creadores de contenido web no son ajenos a la autopromoción descarada. Las estructuras de datos de mapas de enlaces normalmente también almacenan el texto ancla incrustado en los enlaces, porque el texto ancla a menudo puede proporcionar un resumen de “muy buena calidad” del contenido de una página web.

Motores de búsqueda de bases de datos

La búsqueda de contenido basado en texto en bases de datos presenta algunos desafíos especiales de los cuales prosperan varios motores de búsqueda especializados. Las bases de datos pueden ser lentas al resolver consultas complejas (con múltiples argumentos lógicos o de coincidencia de cadenas). Las bases de datos permiten consultas pseudológicas que las búsquedas de texto completo no utilizan. No es necesario rastrear una base de datos ya que los datos ya están estructurados. Sin embargo, a menudo es necesario indexar los datos de una forma más económica para permitir una búsqueda más expedita.

Motores de búsqueda mixtos

A veces, los datos buscados contienen tanto contenido de bases de datos como páginas web o documentos. La tecnología de los motores de búsqueda se ha desarrollado para responder a ambos conjuntos de requisitos. La mayoría de los motores de búsqueda mixtos son grandes motores de búsqueda web, como Google. Buscan tanto en fuentes de datos estructurados como no estructurados . Tomemos, por ejemplo, la palabra "pelota". En sus términos más simples, arroja más de 40 variaciones sólo en Wikipedia. ¿Te refieres a un baile, como en la reunión social/baile? ¿Un balón de fútbol? ¿La punta del pie? Las páginas y los documentos se rastrean e indexan en un índice separado. Las bases de datos también están indexadas de diversas fuentes. Luego se generan resultados de búsqueda para los usuarios consultando estos múltiples índices en paralelo y combinando los resultados de acuerdo con "reglas".

Historia de la tecnología de búsqueda

el memex

El concepto de hipertexto y extensión de la memoria tiene su origen en un artículo publicado en The Atlantic Monthly en julio de 1945 escrito por Vannevar Bush , titulado As We May Think . En este artículo, Vannevar instó a los científicos a trabajar juntos para ayudar a construir un conjunto de conocimientos para toda la humanidad. Luego propuso la idea de un sistema de recuperación y almacenamiento de memoria asociativo, prácticamente ilimitado, rápido, confiable y extensible. Llamó a este dispositivo memex . [6]

Bush consideró la noción de “indexación asociativa” como su contribución conceptual clave. Según explicó, se trataba de “una disposición por la que se puede hacer que cualquier elemento seleccione a voluntad inmediata y automáticamente otro. Esta es la característica esencial del memex. El proceso de unir dos elementos es lo importante. [7]

Todos los documentos utilizados en el memex estarían en forma de copia en microfilm adquirida como tal o, en el caso de registros personales, transformados a microfilm por la propia máquina. Memex también emplearía nuevas técnicas de recuperación basadas en un nuevo tipo de indexación asociativa, cuya idea básica es una disposición mediante la cual se puede hacer que cualquier elemento seleccione a voluntad inmediata y automáticamente otro para crear "rastros" personales a través de documentos vinculados. Los nuevos procedimientos que Bush anticipó para facilitar el almacenamiento y la recuperación de información conducirían al desarrollo de formas completamente nuevas de enciclopedia.

El mecanismo más importante, concebido por Bush, es el camino asociativo. Sería una forma de crear una nueva secuencia lineal de fotogramas de microfilm a través de cualquier secuencia arbitraria de fotogramas de microfilm creando una secuencia encadenada de enlaces en la forma que acabamos de describir, junto con comentarios personales y senderos secundarios.

En 1965 Bush participó en el proyecto INTREX del MIT, para desarrollar tecnología de mecanización del procesamiento de información para uso bibliotecario. En su ensayo de 1967 titulado "Memex Revisited", señaló que el desarrollo de la computadora digital, el transistor, el video y otros dispositivos similares había aumentado la viabilidad de dicha mecanización, pero los costos retrasarían sus logros. [8]

ELEGANTE

Gerard Salton, fallecido el 28 de agosto de 1995, fue el padre de la tecnología de búsqueda moderna. Sus equipos en Harvard y Cornell desarrollaron el sistema de recuperación de información SMART. El recuperador automático de texto mágico de Salton incluía conceptos importantes como el modelo de espacio vectorial , la frecuencia inversa de documentos (IDF), la frecuencia de términos (TF), los valores de discriminación de términos y los mecanismos de retroalimentación de relevancia.

Es autor de un libro de 56 páginas llamado Una teoría de la indexación que explica muchas de sus pruebas, en las que todavía se basa en gran medida la búsqueda.

Motores de búsqueda de cadenas

En 1987 se publicó un artículo que detalla el desarrollo de un motor de búsqueda de cadenas de caracteres (SSE) para la recuperación rápida de texto en un circuito de estado sólido CMOS de n pocillos de 1,6 μm y doble metal con 217.600 transistores dispuestos en una pantalla de 8,62 x 12,76 mm área de troquel. El SSE incorporó una novedosa arquitectura de búsqueda de cadenas que combina una lógica de autómata de estado finito (FSA) de 512 etapas con una memoria direccionable de contenido (CAM) para lograr una comparación de cadenas aproximada de 80 millones de cadenas por segundo. La celda CAM constaba de cuatro celdas de RAM estática convencional (SRAM) y un circuito de lectura/escritura. La comparación simultánea de 64 cadenas almacenadas con longitud variable se logró en 50 ns para un flujo de texto de entrada de 10 millones de caracteres/s, lo que permitió el rendimiento a pesar de la presencia de errores de un solo carácter en forma de códigos de caracteres. Además, el chip permitía la búsqueda de cadenas no ancladas y la búsqueda de cadenas de longitud variable "no importa" (VLDC). [9]

Ver también

Por fuente

Por tipo de contenido

Por interfaz

Por tema

Otros

Referencias

  1. ^ "Las siete eras de la información: hay muchas formas de recuperarla" . Consultado el 1 de junio de 2014 .
  2. ^ Voorhees, procesamiento de lenguaje natural y recuperación de información EM [ enlace muerto permanente ] . Instituto Nacional de Estándares y Tecnología. Marzo de 2000.
  3. ^ "Conceptos básicos de Internet: uso de motores de búsqueda". GCFGlobal.org . Consultado el 11 de julio de 2022 .
  4. ^ Stross, Randall (22 de septiembre de 2009). Planet Google: el audaz plan de una empresa para organizar todo lo que sabemos. Simón y Schuster. ISBN 978-1-4165-4696-2. Consultado el 9 de diciembre de 2012 .
  5. ^ "¿Qué hacemos con la caída del tráfico en Wikipedia?". El punto diario . 2014-01-08 . Consultado el 1 de noviembre de 2020 .
  6. ^ Yeo, Richard (30 de enero de 2007). "Antes de Memex: Robert Hooke, John Locke y Vannevar Bush sobre la memoria externa". Ciencia en contexto . 20 (1): 21. doi :10.1017/S0269889706001128. hdl : 10072/15207 . S2CID  2378301.
  7. ^ Yeo, Richard (30 de enero de 2007). "Antes de Memex: Robert Hooke, John Locke y Vannevar Bush sobre la memoria externa". Ciencia en contexto . 20 (1): 21–47. doi :10.1017/S0269889706001128. hdl : 10072/15207 . S2CID  2378301El ejemplo que da Bush es una búsqueda para encontrar información sobre los méritos relativos del arco corto turco y el arco largo inglés en las cruzadas.{{cite journal}}: CS1 maint: postscript (link)
  8. ^ "El MEMEX de Vannevar Bush". 4 de enero de 2021.
  9. ^ Yamada, H.; Hirata, M.; Nagai, H.; Takahashi, K. (octubre de 1987). "Un motor de búsqueda de cadenas de alta velocidad". Revista IEEE de circuitos de estado sólido . IEEE. 22 (5): 829–834. Código Bib : 1987IJSSC..22..829Y. doi :10.1109/JSSC.1987.1052819.