Organización de rastreo y archivo web sin fines de lucro
Common Crawl es una organización sin fines de lucro 501(c)(3) que rastrea la web y proporciona gratuitamente sus archivos y conjuntos de datos al público. [1] [2] El archivo web de Common Crawl consta de petabytes de datos recopilados desde 2008. [3] Completa rastreos generalmente cada mes. [4]
Common Crawl fue fundada por Gil Elbaz . [5] Los asesores de la organización sin fines de lucro incluyen a Peter Norvig y Joi Ito . [6] Los rastreadores de la organización respetan las políticas de nofollow y robots.txt . El código fuente abierto para procesar el conjunto de datos de Common Crawl está disponible públicamente.
El conjunto de datos Common Crawl incluye material protegido por derechos de autor y se distribuye desde los EE. UU. bajo demandas de uso legítimo . Los investigadores de otros países han utilizado técnicas como la combinación de oraciones o la referencia al conjunto de datos Common Crawl para sortear las leyes de derechos de autor en otras jurisdicciones legales . [7]
El inglés es el idioma principal del 46 % de los documentos de la versión de marzo de 2023 del conjunto de datos de Common Crawl. Los siguientes idiomas principales más comunes son el alemán, el ruso, el japonés, el francés, el español y el chino, cada uno con menos del 6 % de los documentos. [8]
Historia
Amazon Web Services comenzó a alojar el archivo de Common Crawl a través de su programa de conjuntos de datos públicos en 2012. [9]
La organización comenzó a publicar archivos de metadatos y la salida de texto de los rastreadores junto con los archivos .arc en julio de 2012. [10] Los archivos de Common Crawl anteriormente solo incluían archivos .arc. [10]
En diciembre de 2012, blekko donó al motor de búsqueda Common Crawl los metadatos que blekko había recopilado de los rastreos que realizó entre febrero y octubre de 2012. [11] Los datos donados ayudaron a Common Crawl a "mejorar su rastreo y, al mismo tiempo, evitar el spam, la pornografía y la influencia del SEO excesivo ". [11]
En 2013, Common Crawl comenzó a utilizar el rastreador web Nutch de Apache Software Foundation en lugar de un rastreador personalizado. [12] Common Crawl dejó de utilizar archivos .arc y comenzó a utilizar archivos .warc en su rastreo de noviembre de 2013. [13]
Se utilizó una versión filtrada de Common Crawl para entrenar el modelo de lenguaje GPT-3 de OpenAI , anunciado en 2020. [14]
Cronología de los datos de Common Crawl
Los siguientes datos se han recopilado del blog oficial de Common Crawl [15]
y de la API de Common Crawl. [16]
Premio Norvig Web a la ciencia de datos
En corroboración con SURFsara , Common Crawl patrocina el Norvig Web Data Science Award, una competencia abierta a estudiantes e investigadores en Benelux . [17] [18] El premio lleva el nombre de Peter Norvig , quien también preside el comité de evaluación del premio. [17]
Corpus Colosal Limpio Arrastrado
La versión de Google del Common Crawl se llama Colossal Clean Crawled Corpus, o C4 para abreviar. Se construyó para el entrenamiento de la serie de modelos de lenguaje T5 en 2019. [19] Existe cierta preocupación por el contenido protegido por derechos de autor en el C4. [20]
Referencias
- ^ Rosanna Xia (5 de febrero de 2012). "El empresario tecnológico Gil Elbaz triunfó en Los Ángeles" Los Angeles Times . Consultado el 31 de julio de 2014 .
- ^ "Gil Elbaz y Common Crawl". NBC News . 4 de abril de 2013. Consultado el 31 de julio de 2014 .
- ^ "Así que estás listo para empezar". Common Crawl . Consultado el 9 de junio de 2023 .
- ^ Lisa Green (8 de enero de 2014). "Ya están disponibles los datos de rastreo del invierno de 2013" . Consultado el 2 de junio de 2018 .
- ^ "Startups - Gil Elbaz y Nova Spivack de Common Crawl - TWiST #222". Esta semana en startups. 10 de enero de 2012.
- ^ Tom Simonite (23 de enero de 2013). «Una base de datos gratuita de toda la Web podría dar origen al próximo Google». MIT Technology Review. Archivado desde el original el 26 de junio de 2014. Consultado el 31 de julio de 2014 .
- ^ Schäfer, Roland (mayo de 2016). "CommonCOW: enormes corpus web a partir de datos de CommonCrawl y un método para distribuirlos libremente bajo leyes restrictivas de derechos de autor de la UE". Actas de la Décima Conferencia Internacional sobre Recursos Lingüísticos y Evaluación (LREC'16) . Portorož, Eslovenia: Asociación Europea de Recursos Lingüísticos (ELRA): 4501.
- ^ "Estadísticas de los archivos mensuales de Common Crawl por commoncrawl". commoncrawl.github.io . Consultado el 2 de abril de 2023 .
- ^ Jennifer Zaino (13 de marzo de 2012). «Common Crawl to Add New Data in Amazon Web Services Bucket» (Rastreo común para agregar nuevos datos en el depósito de Amazon Web Services). Web semántica. Archivado desde el original el 1 de julio de 2014. Consultado el 31 de julio de 2014 .
- ^ ab Jennifer Zaino (16 de julio de 2012). "Actualización del Common Crawl Corpus hace que los datos de rastreo web sean más eficientes y accesibles para que los usuarios los exploren". Web semántica. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014 .
- ^ por Jennifer Zaino (18 de diciembre de 2012). "La donación de datos de Blekko es un gran beneficio para Common Crawl". Web semántica. Archivado desde el original el 12 de agosto de 2014. Consultado el 31 de julio de 2014 .
- ^ Jordan Mendelson (20 de febrero de 2014). "Common Crawl's Move to Nutch". Common Crawl . Consultado el 31 de julio de 2014 .
- ^ Jordan Mendelson (27 de noviembre de 2013). "¡Nuevos datos de rastreo disponibles!". Common Crawl . Consultado el 31 de julio de 2014 .
- ^ Brown, Tom; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini (1 de junio de 2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". pág. 14. arXiv : 2005.14165 [cs.CL].
La mayoría de nuestros datos se derivan de Common Crawl sin procesar con un filtrado basado únicamente en la calidad.
- ^ "Blog – Rastreo común".
- ^ "Información de la colección - Common Crawl".
- ^ de Lisa Green (15 de noviembre de 2012). "Premio Norvig Web Data Science". Common Crawl . Consultado el 31 de julio de 2014 .
- ^ "Premio Norvig Web Data Science 2014". Centro tecnológico holandés para las ciencias de la vida. Archivado desde el original el 15 de agosto de 2014. Consultado el 31 de julio de 2014 .
- ^ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2020). "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto". Revista de investigación en aprendizaje automático . 21 (140): 1–67. ISSN 1533-7928.
- ^ Hern, Alex (20 de abril de 2023). "Nuevas preocupaciones sobre las fuentes de material de formación para sistemas de IA". The Guardian . ISSN 0261-3077 . Consultado el 21 de abril de 2023 .
Enlaces externos
- Rastreo común en California, Estados Unidos
- Repositorio de GitHub de Common Crawl con el rastreador, las bibliotecas y el código de ejemplo
- Grupo de discusión sobre Common Crawl
- Blog de Common Crawl