Cada par de YaCy rastrea de forma independiente Internet , analiza e indexa las páginas web que encuentra y almacena los resultados de la indexación en una base de datos común (denominada índice) que se comparte con otros pares de YaCy utilizando principios de peer-to-peer . Este enfoque descentralizado garantiza la privacidad y elimina la necesidad de un servidor central. [6]
En comparación con los motores de búsqueda semidistribuidos, la red YaCy tiene una arquitectura distribuida. Todos los pares de YaCy son iguales y no existe un servidor central . Puede ejecutarse en modo de rastreo o como un servidor proxy local , indexando las páginas web visitadas por la persona que ejecuta YaCy en su computadora. Se proporcionan varios mecanismos para proteger la privacidad del usuario. Se accede a las funciones de búsqueda mediante un servidor web ejecutado localmente que proporciona un cuadro de búsqueda para ingresar términos de búsqueda y devuelve los resultados de la búsqueda en un formato similar a los motores de búsqueda populares. [7]
Componentes del sistema
El motor de búsqueda YaCy se basa en cuatro elementos: [8]
Oruga [9]
Un robot de búsqueda que recorre las páginas web y analiza su contenido. [10] : El rastreador es responsable de obtener páginas web de Internet. Cada par de la red YaCy puede rastrear e indexar sitios web. El proceso de rastreo implica:
Descubrimiento : encontrar nuevas páginas web para indexar siguiendo enlaces.
Obtener : Descargar el contenido de las páginas web.
Análisis : extracción de información relevante, como texto, metadatos y enlaces de las páginas descargadas.
Indexador
Crea un índice de palabras inverso (RWI), es decir, cada palabra del RWI tiene su lista de URL relevantes e información de clasificación. Las palabras se guardan como hashes de palabras. [11]
Interfaz de búsqueda y administración
Creado como una interfaz web proporcionada por un servlet HTTP local con un motor de servlet. [12]
Almacenamiento de datos
Se utiliza para almacenar la base de datos del índice de palabras inversa utilizando una tabla hash distribuida .
Tecnología de motores de búsqueda
YaCy es un dispositivo de búsqueda completo con interfaz de usuario, índice, administración y monitoreo.
YaCy recopila páginas web con un rastreador web. Luego, los documentos se analizan e indexan y el índice de búsqueda se almacena localmente. Si su par es parte de una red de pares, entonces su índice de búsqueda local también se fusiona con el índice compartido de esa red.
Se inicia una búsqueda, luego el índice local contribuye con un índice de búsqueda global de pares en la red de búsqueda YaCy.
YaCy Grid es una implementación de segunda generación de la búsqueda entre pares de YaCy. Una instalación de YaCy Grid incluye microservicios que se comunican mediante el programa Master Connect (MCP).
El analizador YaCy es un microservicio que se puede implementar mediante Docker . Cuando se inicia el componente del analizador, busca un MCP y se conecta a él. De forma predeterminada, se busca un MCP en el host local, pero puedes configurar uno tú mismo.
Arquitectura de la plataforma YaCy
YaCy utiliza una combinación de técnicas para la creación de redes, la administración y el mantenimiento de la indexación del motor de búsqueda, incluidas las listas negras, la moderación y la comunicación con la comunidad. Así es como YaCy realiza estas operaciones:
Componentes de la comunidad
Foro web [13]
Estadística
API XML
Mantenimiento
Servidor web
Indexación
Oruga con equilibrador
Comunicación entre servidores punto a punto
Organización de contenidos
Listas negras y filtrado
Interfaz de búsqueda
Marcadores
Monitoreo de resultados de búsqueda
Distribución
YaCy está disponible en paquetes para Linux, Windows y Macintosh, y también como una imagen Docker; también se puede instalar en otros sistemas operativos ya sea compilándolo manualmente o usando un archivo tar . [14] YaCy requiere Java 8, se recomienda OpenJDK 8.
El paquete Debian se puede instalar desde un repositorio disponible en el subdominio del sitio web del proyecto, [15] [16] pero aún no se mantiene en el repositorio oficial de paquetes Debian. [17]
Dooble : un navegador web de código abierto con un widget de herramienta de motor de búsqueda YaCy integrado
Referencias
^ "Ich entwickle eine P2P-basierende Suchmaschine. Wer macht mit?". Heise en línea (en alemán). 2003-12-15 . Consultado el 9 de mayo de 2018 .
^ "Servidor Apache en download.yacy.net Puerto 443". 2024-06-01 . Consultado el 2024-08-27 .
^ "Servidor Apache en release.yacy.net Puerto 443". 2024-10-07 . Consultado el 2024-10-07 .
^ "YaCy se enfrenta a Google con un motor de búsqueda de código abierto". The Register . 2011-11-29 . Consultado el 2012-04-16 .
^ "YaCy: Se trata de libertad, no de derrotar a Google". PC World . 2011-12-03 . Consultado el 2012-04-16 .
^ "Inicio - YaCy". yacy.net . Consultado el 1 de julio de 2024 .
^ "Preguntas frecuentes - YaCy". yacy.net . Consultado el 4 de julio de 2024 .
^ "Arquitectura tecnológica de YaCy". YaCy.net. Archivado desde el original el 5 de febrero de 2012. Consultado el 14 de febrero de 2012 .
^ "Demo - YaCy". yacy.net . Consultado el 12 de agosto de 2024 .
^ GitHub: YaCy Grid Crawler, YaCy Search Engine, 28 de febrero de 2021, págs. yacy / yacy_grid_crawler , consultado el 11 de marzo de 2021
^ GitHub: YaCy Grid Parser, YaCy Search Engine, 28 de febrero de 2021, págs. YaCy Grid es la implementación de segunda generación de YaCy , consultado el 11 de marzo de 2021
^ GitHub: YaCY Search, YaCy Search Engine, 28 de febrero de 2021, págs. yacy/yacy-search bifurcado de cream/yacy-search , consultado el 11 de marzo de 2021
^ "forum.yacy.de" . Consultado el 6 de junio de 2017 .
^ "Descargar - YaCy". yacy.net . Consultado el 27 de julio de 2021 .
^ "Es:DebianInstall". YaCyWiki . Consultado el 6 de octubre de 2019 .
^ "Dev:TaskSharing". YaCyWiki . Consultado el 6 de octubre de 2019 .
^ "#452422 - RFP: yacy - motor de búsqueda y rastreador web distribuido". Registros de informes de errores de Debian . Consultado el 2 de mayo de 2020 .
Wikimedia Commons alberga una categoría multimedia sobre YaCy .