Common Crawl

Common Crawl (literalmente rastreo común) es una organización sin fines de lucro 501 (c) (3) que rastrea la web y proporciona libremente sus archivos y conjuntos de datos al público.[5]​ También están Peter Norvig y Joi Ito como asesores de la organización sin fines.El código fuente usado para procesar el conjunto de datos de Common Crawl es abierto y se encuentra disponible públicamente.[9]​ Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y evitar el spam, la pornografía y la influencia de un SEO excesivo".[11]​ Los siguientes datos se han recopilado del blog oficial de Common Crawl En consonancia con SURFsara, Common Crawl patrocina el Premio Norvig Web Data Science, un concurso abierto a estudiantes e investigadores en Benelux.