BLOOM (modelo de lenguaje)

BigScience Large Open-science Open-access Multilingual Language Model ( BLOOM ) ^[1]^{[2] es un}modelo de lenguaje grande autorregresivo (LLM) basado en transformadores de 176 mil millones de parámetros . El modelo, así como el código base y los datos utilizados para entrenarlo, se distribuyen bajo licencias gratuitas. ^[3] BLOOM se entrenó con aproximadamente 366 mil millones (1,6 TB) de tokens de marzo a julio de 2022. ^[4]^[5]

BLOOM es el principal resultado de la iniciativa colaborativa BigScience, ^[6] un taller de investigación de un año de duración que tuvo lugar entre mayo de 2021 y mayo de 2022. BigScience fue dirigido por HuggingFace y en él participaron varios cientos de investigadores e ingenieros de Francia y del extranjero que representan tanto la academia como el sector privado. BigScience recibió el apoyo de una subvención de computación pública a gran escala en la supercomputadora pública francesa Jean Zay, administrada por GENCI e IDRIS ( CNRS ), en la que se capacitó.

El corpus de entrenamiento de BLOOM, denominado ROOTS, combina datos extraídos de la última versión del corpus OSCAR basado en la web (38% de ROOTS) y datos recién recopilados extraídos de una lista documentada y seleccionada manualmente de fuentes de datos lingüísticos. Abarca 46 lenguajes naturales (en cantidades que van desde el 30% del conjunto de datos total para el inglés hasta el 0,00002% para Chi Tumbuka) y 13 lenguajes de programación. ^[7]

Referencias

^ "Modelo de lenguaje multilingüe de acceso abierto, ciencia abierta y gran ciencia de BigScience" . Consultado el 1 de octubre de 2022 .
^ Le Scao T, Fan A, Akiki C, Pavlick E, Ilić S, Hesslow D, Castagné R, Luccioni A, Yvon F, Gallé M, Tow J, Rush AM, Biderman S, Webson A, Sasanka Ammanamanchi P, Wang T , Sagot B, Muennighoff N, Villanova del Moral A, Ruwase O, Bawden R, Bekman S, McMillan-Major A, Beltagy I, Nguyen H, Saulnier L, Tan S, Ortiz Suarez P, Sanh V, Laurençon H, Jernite Y , Launay J, Mitchell M, Raffel C, et al. (2022). "BLOOM: un modelo de lenguaje multilingüe de acceso abierto con parámetros 176B". arXiv : 2211.05100 .
^ "La licencia RAIL de BigScience" . Consultado el 10 de enero de 2024 .
^ Heikkilä, Melissa (12 de julio de 2022). "BLOOM: Dentro del nuevo proyecto radical para democratizar la IA". Revisión de tecnología del MIT . Consultado el 26 de diciembre de 2023 .
^ "Lanzamiento del modelo de lenguaje multilingüe de ciencia abierta más grande jamás entrenado". Centro Nacional Francés de Investigaciones Científicas . 2022-07-12 . Consultado el 26 de diciembre de 2023 .
^ "Gran Ciencia" . Consultado el 10 de enero de 2024 .
^ Laurençon H, Saulnier L, Wang T, Akiki C, Villanova del Moral A, Le Scao T, Von Werra L, Mou C, González Ponferrada C, Nguyen H, Frohberg J, Šaško M, Lhoest Q, McMillan-Major A, Dupont G, Biderman S, Rogers A, Ben allal L, De Toni F, Pistilli G, Nguyen O, Nikpoor S, Masoud M, Colombo P, de la Rosa J, Villegas P, Thrush T, Longpre S, Nagel S, Weber L, Muñoz M, Zhu J, Van Strien D, Alyafeai Z, Almubarak K, Vu MC, Gonzalez-Dios I, Soroa A, Lo K, Dey M, Ortiz Suarez P, Gokaslan A, Bose S, Adelani D, Phan L , Tran H, Yu I, Pai S, Chim J, Lepercq V, Ilic S, Mitchell M, Luccioni S, Jernite Y (2022). "The BigScience ROOTS Corpus: un conjunto de datos multilingüe compuesto de 1,6 TB". arXiv : 2303.03915 .