stringtranslate.com

EleutherAI

EleutherAI ( / ə ˈ l θ ər / [2] ) es un grupo de investigación de inteligencia artificial (IA) sin fines de lucro . El grupo, considerado una versión de código abierto de OpenAI , [3] fue formado en un servidor de Discord en julio de 2020 por Connor Leahy, Sid Black y Leo Gao [4] para organizar una réplica de GPT-3 . A principios de 2023, se incorporó formalmente como el Instituto EleutherAI, un instituto de investigación sin fines de lucro. [5]

Historia

EleutherAI comenzó como un servidor de Discord el 7 de julio de 2020, bajo el nombre provisional "LibreAI" antes de cambiar su nombre a "EleutherAI" más tarde ese mes, [6] en referencia a eleutheria , la palabra griega para libertad . [3]

El 30 de diciembre de 2020, EleutherAI publicó The Pile , un conjunto de datos seleccionados de texto diverso para entrenar modelos de lenguaje grandes . [7] Si bien el artículo hacía referencia a la existencia de los modelos GPT-Neo, los modelos en sí no se publicaron hasta el 21 de marzo de 2021. [8] Según una retrospectiva escrita varios meses después, los autores no anticiparon que "la gente se preocuparía tanto por nuestros 'pequeños modelos ' " . [1] El 9 de junio de 2021, EleutherAI siguió con GPT-J-6B , un modelo de lenguaje de seis mil millones de parámetros que nuevamente fue el modelo similar a GPT-3 de código abierto más grande del mundo. [9] Estos modelos de lenguaje se publicaron bajo la licencia de software libre Apache 2.0 y se considera que han "impulsado una ola completamente nueva de nuevas empresas". [5]

Si bien EleutherAI inicialmente rechazó ofertas de financiación y prefirió utilizar el Programa de Investigación en la Nube TPU de Google para obtener sus recursos informáticos, [10] a principios de 2021 habían aceptado financiación de CoreWeave (una pequeña empresa de computación en la nube) y SpellML (una empresa de infraestructura en la nube) en forma de acceso a potentes clústeres de GPU que son necesarios para la investigación de aprendizaje automático a gran escala. El 10 de febrero de 2022 lanzaron GPT-NeoX-20B, un modelo similar a su trabajo anterior, pero ampliado gracias a los recursos proporcionados por CoreWeave. [11]

En 2022, muchos miembros de EleutherAI participaron en el Taller de investigación BigScience, trabajando en proyectos que incluían el ajuste fino de múltiples tareas, [12] [13] el entrenamiento de BLOOM [14] y el diseño de bibliotecas de evaluación. [14] Los ingenieros de EleutherAI, Stability AI y NVIDIA unieron fuerzas con biólogos liderados por la Universidad de Columbia y la Universidad de Harvard [15] para entrenar OpenFold, una réplica de código abierto de AlphaFold2 de DeepMind . [16]

A principios de 2023, EleutherAI se constituyó como un instituto de investigación sin fines de lucro dirigido por Stella Biderman, Curtis Huebner y Shivanshu Purohit. [5] [17] Este anuncio vino acompañado de la declaración de que el cambio de enfoque de EleutherAI, que dejó de centrarse en el entrenamiento de modelos lingüísticos más grandes, era parte de un impulso deliberado hacia el trabajo en interpretabilidad, alineación e investigación científica. [17] Si bien EleutherAI sigue comprometida con la promoción del acceso a las tecnologías de IA, sienten que "hay un interés sustancialmente mayor en el entrenamiento y la publicación de LLM que antes", lo que les permite centrarse en otros proyectos. [18]

En julio de 2024, una investigación de Proof News descubrió que el conjunto de datos The Pile de EleutherAI incluye subtítulos de más de 170.000 vídeos de YouTube en más de 48.000 canales. Los hallazgos provocaron críticas y acusaciones de robo por parte de los usuarios de YouTube y otras personas que publicaron su trabajo en la plataforma. [19] [20]

Investigación

Según su sitio web, EleutherAI es un "colectivo descentralizado de investigadores, ingenieros y desarrolladores voluntarios centrados en la alineación , escalabilidad e investigación de IA de código abierto ". [21] Si bien no venden ninguna de sus tecnologías como productos, publican los resultados de su investigación en espacios académicos, escriben publicaciones de blog que detallan sus ideas y metodologías y brindan modelos capacitados para que cualquiera los use de forma gratuita. [ cita requerida ]

La pila

Pile es un conjunto de datos de 886 GB diseñado para entrenar modelos de lenguaje grandes. Originalmente fue desarrollado para entrenar los modelos GPT-Neo de EleutherAI, pero se ha vuelto ampliamente utilizado para entrenar otros modelos, incluyendo Megatron-Turing Natural Language Generation de Microsoft , [22] [23] Open Pre-trained Transformers de Meta AI , [24] LLaMA , [25] y Galactica, [26] BioMedLM 2.7B de la Universidad de Stanford , [27] Chinese-Transformer-XL de la Academia de Inteligencia Artificial de Beijing , [28] y YaLM 100B de Yandex . [29] Comparado con otros conjuntos de datos, las principales características distintivas de Pile son que es una selección curada de datos elegidos por investigadores de EleutherAI para contener información que pensaron que los modelos de lenguaje deberían aprender y que es el único conjunto de datos de este tipo que está completamente documentado por los investigadores que lo desarrollaron. [30]

Modelos GPT

La investigación más destacada de EleutherAI se relaciona con su trabajo para entrenar modelos de lenguaje grandes de código abierto inspirados en GPT-3 de OpenAI . [31] La serie de modelos "GPT-Neo" de EleutherAI ha publicado 125 millones, 1.3 mil millones, 2.7 mil millones, 6 mil millones y 20 mil millones de modelos de parámetros.

Si bien la gran mayoría de los modelos de lenguaje grandes se entrenan [ ¿cuándo? ] en inglés o chino, [ cita requerida ] EleutherAI también entrena modelos de lenguaje en otros idiomas, como el Polyglot-Ko en coreano. [40]

CLIP DE VQGAN

Un arte de inteligencia artificial creado con CLIP-Guided Diffusion, un modelo de texto a imagen creado por Katherine Crowson de EleutherAI [41] [42]

Tras el lanzamiento de DALL-E por parte de OpenAI en enero de 2021, EleutherAI comenzó a trabajar en modelos de síntesis de texto a imagen . Cuando OpenAI no lanzó DALL-E públicamente, Katherine Crowson de EleutherAI y el artista digital Ryan Murdock desarrollaron una técnica para usar CLIP (otro modelo desarrollado por OpenAI) para convertir modelos de generación de imágenes regulares en modelos de síntesis de texto a imagen. [43] [44] [45] [46] Basándose en ideas que se remontan a DeepDream de Google , [47] encontraron su primer gran éxito combinando CLIP con otro modelo disponible públicamente llamado VQGAN y el modelo resultante se llama VQGAN-CLIP. [48] Crowson lanzó la tecnología tuiteando cuadernos que demostraban la técnica que la gente podía correr gratis sin ningún equipo especial. [49] [50] [51] Este trabajo fue acreditado por el director ejecutivo de Stability AI, Emad Mostaque, como motivador de la fundación de Stability AI. [52]

Recepción pública

Elogio

El trabajo de EleutherAI para democratizar GPT-3 ganó el Premio a la Innovación Global Netexplo de la UNESCO en 2021, [53] el Premio al Mejor Software de Código Abierto de InfoWorld en 2021 [54] y 2022, [55] fue nominado para el Premio a la Innovación en IA de VentureBeat en 2021. [56]

Gary Marcus , un científico cognitivo y destacado crítico de empresas de aprendizaje profundo como OpenAI y DeepMind, [57] ha elogiado repetidamente [58] [59] la dedicación de EleutherAI a la investigación transparente y de código abierto.

Maximilian Gahntz, investigador principal de políticas de la Fundación Mozilla , aplaudió los esfuerzos de EleutherAI por dar a más investigadores la capacidad de auditar y evaluar la tecnología de IA. "Si los modelos y los conjuntos de datos son abiertos, eso permitirá realizar muchas más investigaciones críticas que han señalado muchas de las fallas y los daños asociados con la IA generativa y que a menudo son demasiado difíciles de realizar". [60]

Crítica

El periodista tecnológico Kyle Wiggers ha expresado su preocupación sobre si EleutherAI es tan independiente como afirma, o "si la participación de empresas con motivaciones comerciales como Stability AI y Hugging Face —ambas respaldadas por un importante capital de riesgo— podría influir en la investigación de EleutherAI". [61]

Referencias

  1. ^ ab Leahy, Connor; Hallahan, Eric; Gao, Leo; Biderman, Stella (7 de julio de 2021). "Qué viaje tan largo y extraño ha sido: retrospectiva de un año de EleutherAI". Archivado desde el original el 29 de agosto de 2023. Consultado el 1 de marzo de 2023 .
  2. ^ "Charla con Stella Biderman sobre The Pile, GPT-Neo y MTG". The Interference Podcast. 2 de abril de 2021. Consultado el 26 de marzo de 2023 .
  3. ^ ab Smith, Craig (21 de marzo de 2022). "EleutherAI: Cuando OpenAI no es lo suficientemente abierto". IEEE Spectrum . IEEE . Archivado desde el original el 29 de agosto de 2023 . Consultado el 8 de agosto de 2023 .
  4. ^ "Acerca de". EleutherAI . Consultado el 23 de mayo de 2024 .
  5. ^ abc Wiggers, Kyle (2 de marzo de 2023). «Stability AI, Hugging Face y Canva respaldan a una nueva organización sin fines de lucro dedicada a la investigación en inteligencia artificial». TechCrunch . Archivado desde el original el 29 de agosto de 2023 . Consultado el 8 de agosto de 2023 .
  6. ^ Leahy, Connor; Hallahan, Eric; Gao, Leo; Biderman, Stella (7 de julio de 2021). "Qué viaje tan largo y extraño ha sido: retrospectiva de un año de EleutherAI". Blog de EleutherAI . Archivado desde el original el 29 de agosto de 2023. Consultado el 14 de abril de 2023 .
  7. ^ Gao, Leo; Biderman, Stella; Black, Sid; et al. (31 de diciembre de 2020). The Pile: Un conjunto de datos de 800 GB de texto diverso para modelado de lenguaje . arXiv 2101.00027. arXiv : 2101.00027 .
  8. ^ "La alternativa gratuita de GPT-3, GPT-Neo, es algo que nos entusiasma". VentureBeat . 15 de mayo de 2021. Archivado desde el original el 9 de marzo de 2023 . Consultado el 14 de abril de 2023 .
  9. ^ "GPT-J-6B: Introducción al modelo GPT de código abierto más grande | Forefront". www.forefront.ai . Archivado desde el original el 9 de marzo de 2023 . Consultado el 1 de marzo de 2023 .
  10. ^ "EleutherAI: Cuando OpenAI no es lo suficientemente abierto". IEEE Spectrum . Archivado desde el original el 21 de marzo de 2023. Consultado el 1 de marzo de 2023 .
  11. ^ Negro, Sid; Biderman, Stella; Hallahan, Eric; et al. (14 de abril de 2022). "GPT-NeoX-20B | Un modelo de lenguaje autorregresivo de código abierto". arXiv : 2204.06745 [cs.CL].
  12. ^ Sanh, Victor; et al. (2021). "El entrenamiento basado en múltiples tareas permite la generalización de tareas sin interrupciones". arXiv : 2110.08207 [cs.LG].
  13. ^ Muennighoff, Niklas; Wang, Thomas; Sutawika, Lintang; Roberts, Adán; Biderman, Stella; Téven Le Scao; M Saiful Bari; Shen, Sheng; Yong, Zheng-Xin; Schoelkopf, Hailey; Tang, Xiangru; Radev, Dragomir; Alham Fikri Aji; Almubarak, Khalid; Albanie, Samuel; Alyafeai, Zaid; Webson, Alberto; Raff, Eduardo; Raffel, Colin (2022). "Generalización interlingüística mediante ajuste multitarea". arXiv : 2211.01786 [cs.CL].
  14. ^ Taller de ab, BigScience; et al. (2022). "BLOOM: un modelo de lenguaje multilingüe de acceso abierto con 176B parámetros". arXiv : 2211.05100 [cs.CL].
  15. ^ "Conozca OpenFold: reimplementación de AlphaFold2 para iluminar sus mecanismos de aprendizaje y generalización". 21 de agosto de 2023.
  16. ^ "Democratizando la IA para la biología con OpenFold".
  17. ^ ab "La vista desde 30.000 pies: prefacio a la segunda retrospectiva de EleutherAI". 2 de marzo de 2023.
  18. ^ "AI Research Lab lanza una organización sin fines de lucro de investigación de código abierto".
  19. ^ Gilbertson, Annie; Reisner, Alex (16 de julio de 2024). "Apple, Nvidia y Anthropic utilizaron miles de vídeos de YouTube extraídos de la red para entrenar a la IA". WIRED . Consultado el 18 de julio de 2024 .
  20. ^ Gilbertson, Annie (16 de julio de 2024). "Apple, Nvidia y Anthropic utilizaron miles de vídeos de YouTube extraídos de la red para entrenar a la IA". Prueba . Consultado el 18 de julio de 2024 .
  21. ^ "Sitio web de EleutherAI". EleutherAI. Archivado desde el original el 2 de julio de 2021. Consultado el 1 de julio de 2021 .
  22. ^ "Microsoft y Nvidia se unen para entrenar uno de los modelos de lenguaje más grandes del mundo". 11 de octubre de 2021. Archivado desde el original el 27 de marzo de 2023. Consultado el 8 de marzo de 2023 .
  23. ^ "AI: Megatron the Transformer, y sus modelos de lenguaje relacionados". 24 de septiembre de 2021. Archivado desde el original el 4 de marzo de 2023. Consultado el 8 de marzo de 2023 .
  24. ^ Zhang, Susan; Roller, Stephen; Goyal, Naman; Artetxe, Mikel; Chen, Moya; Chen, Shuohui; Dewan, Christopher; Diab, Mona; Li, Xian; Lin, Xi Victoria; Mihaylov, Todor; Ott, Myle; Shleifer, Sam; Shuster, Kurt; Simig, Daniel; Koura, Punit Singh; Sridhar, Anjali; Wang, Tianlu; Zettlemoyer, Luke (21 de junio de 2022). "OPT: modelos de lenguaje transformador preentrenados abiertos". arXiv : 2205.01068 [cs.CL].
  25. ^ Touvron, Hugo; Lavril, Thibaut; Izacard, Gautier; Grave, Edouard; Lample, Guillaume; et al. (27 de febrero de 2023). "LLaMA: modelos de lenguaje de base abiertos y eficientes". arXiv : 2302.13971 [cs.CL].
  26. ^ Taylor, Ross; Kardas, Marcin; Cucurull, Guillem; Scialom, Thomas; Hartshorn, Antonio; Saravia, Elvis; Poulton, Andrés; Kerkez, Viktor; Stojnic, Robert (16 de noviembre de 2022). "Galáctica: un gran modelo de lenguaje para la ciencia". arXiv : 2211.09085 [cs.CL].
  27. ^ "Tarjeta modelo para BioMedLM 2.7B". huggingface.co . Archivado desde el original el 5 de junio de 2023 . Consultado el 5 de junio de 2023 .
  28. ^ Yuan, Sha; Zhao, Hanyu; Du, Zhengxiao; Ding, Ming; Liu, Xiao; Cen, Yukuo; Zou, Xu; Yang, Zhilin; Tang, Jie (2021). "WuDaoCorpora: un corpus chino a gran escala para modelos lingüísticos previos al entrenamiento". IA abierta . 2 : 65–68. doi :10.1016/j.aiopen.2021.06.001.
  29. ^ Grabovskiy, Ilya (2022). «Yandex publica YaLM 100B, la red neuronal similar a GPT más grande en código abierto» (Nota de prensa). Yandex . Consultado el 5 de junio de 2023 .
  30. ^ Khan, Mehtab; Hanna, Alex (2023). "Los sujetos y etapas del desarrollo de conjuntos de datos de IA: un marco para la rendición de cuentas de los conjuntos de datos". Revista de Derecho Tecnológico del Estado de Ohio . 19 (2): 171–256. hdl : 1811/103549 . SSRN  4217148.
  31. ^ "La alternativa gratuita de GPT-3, GPT-Neo, es algo que nos entusiasma". 15 de mayo de 2021. Archivado desde el original el 9 de marzo de 2023. Consultado el 10 de marzo de 2023 .
  32. ^ Andonian, Alex; Biderman, Stella; Black, Sid; Gali, Preetham; Gao, Leo; Hallahan, Eric; Levy-Kramer, Josh; Leahy, Connor; Nestler, Lucas; Parker, Kip; Pieler, Michael; Purohit, Shivanshu; Songz, Tri; Phil, Wang; Weinbach, Samuel (10 de marzo de 2023). GPT-NeoX: Modelado de lenguaje autorregresivo a gran escala en PyTorch (preimpresión). doi :10.5281/zenodo.5879544.
  33. ^ "EleutherAI/gpt-j-6B · Hugging Face". huggingface.co . Archivado desde el original el 12 de marzo de 2023 . Consultado el 10 de marzo de 2023 .
  34. ^ "GPT-J-6B: Introducción al modelo GPT de código abierto más grande | Forefront". www.forefront.ai . Archivado desde el original el 9 de marzo de 2023 . Consultado el 1 de marzo de 2023 .
  35. ^ Black, Sidney; Biderman, Stella; Hallahan, Eric; et al. (1 de mayo de 2022). GPT-NeoX-20B: Un modelo de lenguaje autorregresivo de código abierto. Actas del episodio n.° 5 de BigScience: Taller sobre desafíos y perspectivas en la creación de modelos de lenguaje de gran tamaño. págs. 95–136 . Consultado el 19 de diciembre de 2022 a través de Association for Computational Linguistics - Anthology.
  36. ^ abc Biderman, Stella; Schoelkopf, Hailey; Anthony, Quentin; Bradley, Herbie; O'Brien, Kyle; Hallahan, Eric; Mohammad Aflah Khan; Purohit, Shivanshu; USVSN Sai Prashanth; Raff, Edward; Skowron, Aviya; Sutawika, Lintang; Oskar van der Wal (2023). "Pythia: una suite para analizar modelos de lenguaje grandes en el entrenamiento y el escalamiento". arXiv : 2304.01373 [cs.CL].
  37. ^ Choi, Dami; Shavit, Yonadav; Duvenaud, David (2023). "Herramientas para verificar los datos de entrenamiento de modelos neuronales". arXiv : 2307.00682 [cs.LG].
  38. ^ Biderman, Stella; USVSN Sai Prashanth; Sutawika, Lintang; Schoelkopf, Hailey; Anthony, Quentin; Purohit, Shivanshu; Raff, Edward (2023). "Memorización emergente y predecible en modelos de lenguaje grandes". arXiv : 2304.11158 [cs.CL].
  39. ^ Gupta, Kshitij; Thérien, Benjamin; Ibrahim, Adam; Richter, Mats L.; Anthony, Quentin; Belilovsky, Eugene; Rish, Irina; Lesort, Timothée (2023). "Preentrenamiento continuo de modelos de lenguaje grandes: ¿cómo (re)calentar su modelo?". arXiv : 2308.04014 [cs.CL].
  40. ^ ""한국어기반 AI소스 공개합니다 마음껏 쓰세요"". 매일경제 . 31 de octubre de 2022. Archivado desde el original el 26 de abril de 2023 . Consultado el 10 de marzo de 2023 .
  41. ^ "Difusión guiada por CLIP". EleutherAI . Archivado desde el original el 29 de agosto de 2023 . Consultado el 20 de agosto de 2023 .
  42. ^ "CLIP Guided Diffusion HQ 256x256.ipynb - Colaboratory". Google Colab . Archivado desde el original el 29 de agosto de 2023. Consultado el 20 de agosto de 2023 .
  43. ^ MIRANDA, LJ (8 de agosto de 2021). "El VQGAN ilustrado". ljvmiranda921.github.io . Archivado desde el original el 20 de marzo de 2023 . Consultado el 8 de marzo de 2023 .
  44. ^ "Dentro del mundo del arte de Twitter de la inteligencia artificial". Nylon . 24 de marzo de 2022. Archivado desde el original el 29 de agosto de 2023 . Consultado el 8 de marzo de 2023 .
  45. ^ "Esta IA convierte las descripciones de texto de películas en carteles abstractos". Yahoo Life . 20 de septiembre de 2021. Archivado desde el original el 27 de diciembre de 2022 . Consultado el 8 de marzo de 2023 .
  46. ^ Quach, Katyanna. "Un hombre pasó un año en prisión acusado de asesinato por una prueba de inteligencia artificial controvertida. Ahora el caso ha sido desestimado". www.theregister.com . Archivado desde el original el 8 de marzo de 2023 . Consultado el 8 de marzo de 2023 .
  47. ^ "Alien Dreams: An Emerging Art Scene - ML@B Blog". Alien Dreams: An Emerging Art Scene - ML@B Blog . Archivado desde el original el 10 de marzo de 2023. Consultado el 8 de marzo de 2023 .
  48. ^ "VQGAN-CLIP". EleutherAI . Archivado desde el original el 20 de agosto de 2023 . Consultado el 20 de agosto de 2023 .
  49. ^ "Le pedimos a una herramienta de inteligencia artificial que 'pintara' imágenes de Australia. Los críticos dicen que son lo suficientemente buenas como para venderlas". ABC News . 14 de julio de 2021. Archivado desde el original el 7 de marzo de 2023 . Consultado el 8 de marzo de 2023 en www.abc.net.au.
  50. ^ Nataraj, Poornima (28 de febrero de 2022). "Herramientas en línea para crear arte de IA alucinante". Revista Analytics India . Archivado desde el original el 8 de febrero de 2023. Consultado el 8 de marzo de 2023 .
  51. ^ "Conoce a la mujer que hace retratos virales de la salud mental en TikTok". www.vice.com . 30 de noviembre de 2021. Archivado desde el original el 11 de mayo de 2023 . Consultado el 8 de marzo de 2023 .
  52. ^ @EMostaque (2 de marzo de 2023). "Stability AI surgió de @AiEleuther y hemos estado encantados de incubarla mientras se establecían las bases" ( Tweet ) – vía Twitter .
  53. ^ "Foro Netexplo de la UNESCO 2021 | UNESCO". Archivado desde el original el 16 de octubre de 2022. Consultado el 8 de marzo de 2023 .
  54. ^ Yegulalp, James R. Borck, Martin Heller, Andrew C. Oliver, Ian Pointer, Matthew Tyson y Serdar (18 de octubre de 2021). «El mejor software de código abierto de 2021». InfoWorld . Archivado desde el original el 8 de marzo de 2023. Consultado el 8 de marzo de 2023 .{{cite web}}: CS1 maint: multiple names: authors list (link)
  55. ^ Yegulalp, James R. Borck, Martin Heller, Andrew C. Oliver, Ian Pointer, Isaac Sacolick, Matthew Tyson y Serdar (17 de octubre de 2022). «El mejor software de código abierto de 2022». InfoWorld . Archivado desde el original el 8 de marzo de 2023. Consultado el 8 de marzo de 2023 .{{cite web}}: CS1 maint: multiple names: authors list (link)
  56. ^ "VentureBeat presenta a los nominados a los premios a la innovación en inteligencia artificial en Transform 2021". 16 de julio de 2021. Archivado desde el original el 8 de marzo de 2023. Consultado el 8 de marzo de 2023 .
  57. ^ "¿Qué viene a continuación para la IA? Gary Marcus habla sobre el camino hacia una inteligencia artificial robusta". ZDNET . Archivado desde el original el 1 de marzo de 2023. Consultado el 8 de marzo de 2023 .
  58. ^ @GaryMarcus (10 de febrero de 2022). "GPT-NeoX-20B, un modelo de lenguaje de 20 mil millones de parámetros disponible gratuitamente para el público, con un informe sincero sobre las fortalezas, los límites, los costos ecológicos, etc." ( Tweet ) – vía Twitter .
  59. ^ @GaryMarcus (19 de febrero de 2022). "Resultado increíblemente importante: "nuestros resultados plantean la pregunta de hasta qué punto los modelos [de lenguaje grande] realmente se generalizan más allá de los datos de preentrenamiento"" ( Tweet ) – vía Twitter .
  60. ^ Chowdhury, Meghmala (29 de diciembre de 2022). "¿La poderosa IA afectará a industrias que se consideraban seguras en 2023?". Analytics Insight . Archivado desde el original el 1 de enero de 2023. Consultado el 6 de abril de 2023 .
  61. ^ Wiggers, Kyle (2 de marzo de 2023). «Stability AI, Hugging Face y Canva respaldan a una nueva organización sin fines de lucro dedicada a la investigación en inteligencia artificial». Archivado desde el original el 7 de marzo de 2023. Consultado el 8 de marzo de 2023 .