stringtranslate.com

Nuez apache

Apache Nutch es un proyecto de software de rastreo web de código abierto altamente extensible y escalable .

Características

Mascota robot de Nutch

Nutch está codificado íntegramente en el lenguaje de programación Java , pero los datos se escriben en formatos independientes del lenguaje. Tiene una arquitectura altamente modular, lo que permite a los desarrolladores crear complementos para el análisis de tipos de medios, la recuperación de datos, la consulta y la agrupación en clústeres.

El buscador ("robot" o " rastreador web ") ha sido escrito desde cero específicamente para este proyecto.

Historia

Nutch se originó con Doug Cutting , creador de Lucene y Hadoop , y Mike Cafarella .

En junio de 2003 se desarrolló con éxito un sistema de demostración de 100 millones de páginas. Para satisfacer las necesidades de procesamiento en múltiples máquinas de las tareas de rastreo e indexación, el proyecto Nutch también implementó una función MapReduce y un sistema de archivos distribuido . Las dos funciones se fusionaron en su propio subproyecto, llamado Hadoop .

En enero de 2005, Nutch se unió a la Incubadora Apache, de la que se graduó para convertirse en un subproyecto de Lucene en junio de ese mismo año. Desde abril de 2010, Nutch ha sido considerado un proyecto independiente de alto nivel de la Apache Software Foundation . [2]

En febrero de 2014, el proyecto Common Crawl adoptó Nutch para su rastreo web abierto y a gran escala. [3]

Si bien en algún momento el proyecto Nutch se propuso lanzar un motor de búsqueda web global a gran escala, ese ya no es el caso. [ cita requerida ]

Historial de versiones

Escalabilidad

IBM Research estudió el rendimiento [8] de Nutch/Lucene como parte de su proyecto Commercial Scale Out (CSO). [9] Sus hallazgos fueron que un sistema de escalamiento horizontal , como Nutch/Lucene, podría alcanzar un nivel de rendimiento en un clúster de blades que no se podía lograr en ninguna computadora de escalamiento vertical como POWER5 .

El conjunto de datos ClueWeb09 (utilizado, por ejemplo, en TREC ) se recopiló utilizando Nutch, con una velocidad promedio de 755,31 documentos por segundo. [10]

Proyectos relacionados

Motores de búsqueda creados con Nutch

Véase también

Referencias

  1. ^ ab "Apache Nutch™ - Descargas" . Consultado el 11 de junio de 2024 .
  2. ^ "Apache Nutch -". nutch.apache.org .
  3. ^ ab "Mudanza de Common Crawl a Nutch – Common Crawl – Blog". blog.commoncrawl.org . Consultado el 14 de octubre de 2015 .
  4. ^ "Lanzamiento de Nutch 2.3". Noticias de Apache Nutch . The Apache Software Foundation. 22 de enero de 2015. Consultado el 18 de enero de 2016 .
  5. ^ "Notas de la versión de Nutch 1.10". ASF JIRA . The Apache Software Foundation. 6 de mayo de 2015 . Consultado el 18 de enero de 2016 .
  6. ^ "Notas de la versión de Nutch 1.11". ASF JIRA . The Apache Software Foundation. 7 de diciembre de 2015 . Consultado el 18 de enero de 2016 .
  7. ^ "Lanzamiento de Nutch 2.4". Noticias de Apache Nutch . The Apache Software Foundation. 11 de octubre de 2019. Consultado el 20 de mayo de 2022 .
  8. ^ "Escalabilidad del motor de búsqueda Nutch" (PDF) .
  9. ^ "Aprovisionamiento y puesta en marcha del sistema operativo base para una supercomputadora comercial" (PDF) . Archivado desde el original (PDF) el 3 de diciembre de 2008.
  10. ^ The Sapphire Web Crawler - Estadísticas de rastreo. Boston.lti.cs.cmu.edu (1 de octubre de 2008). Consultado el 21 de julio de 2013.
  11. ^ "Nuestra búsqueda actualizada". Creative Commons. 3 de septiembre de 2004.
  12. ^ "La herramienta de búsqueda exclusiva de Creative Commons ahora está integrada en Firefox 1.0". Creative Commons. 2004-11-22. Archivado desde el original el 2010-01-07.
  13. ^ "Nueva interfaz de búsqueda de CC". Creative Commons. 2006-08-02.
  14. ^ "¿Dónde puedo obtener el código fuente de Wikia Search?". Archivado desde el original el 4 de noviembre de 2011. Consultado el 12 de febrero de 2010 .
  15. ^ "Actualización sobre Wikia: hacemos más de lo que funciona | Jimmy Wales". 31 de marzo de 2009.

Bibliografía

Enlaces externos