Palmera

PaLM ( Pathways Language Model ) es un modelo de lenguaje grande basado en un transformador de 540 mil millones de parámetros desarrollado por Google AI . ^[1] Los investigadores también entrenaron versiones más pequeñas de PaLM, modelos de 8 y 62 mil millones de parámetros, para probar los efectos de la escala del modelo. ^[2]

PaLM es capaz de realizar una amplia gama de tareas, incluido el razonamiento de sentido común , el razonamiento aritmético , la explicación de chistes , la generación de códigos y la traducción . ^[2]^[3]^[4]^[5] Cuando se combina con la estimulación de la cadena de pensamiento , PaLM logró un rendimiento significativamente mejor en conjuntos de datos que requieren razonamiento de múltiples pasos, como problemas de palabras y preguntas basadas en lógica . ^[1]^[2]

El modelo se anunció por primera vez en abril de 2022 y permaneció privado hasta marzo de 2023, cuando Google lanzó una API para PaLM y varias otras tecnologías. ^[6] La API estuvo inicialmente disponible para un número limitado de desarrolladores que se unieron a una lista de espera antes de que se lanzara al público. ^[7]

Google y DeepMind desarrollaron una versión de PaLM 540B llamada Med-PaLM que está optimizada para datos médicos y supera a los modelos anteriores en los puntos de referencia de respuesta a preguntas médicas . ^[8]^[9] Med-PaLM fue el primero en obtener una puntuación aprobatoria en preguntas de licencia médica de EE. UU. y, además de responder con precisión tanto a preguntas de opción múltiple como abiertas, también proporciona razonamiento y puede evaluar sus propias respuestas. ^[10]

Google también amplió PaLM utilizando un transformador de visión para crear PaLM-E , un modelo de lenguaje de visión de última generación que se puede utilizar para la manipulación robótica . ^[11]^[12] El modelo puede realizar tareas en robótica de manera competitiva sin necesidad de volver a entrenarlo o realizar ajustes . ^[13]

En mayo de 2023, Google anunció PaLM 2 en la conferencia anual Google I/O . ^[14] Se informa que PaLM 2 es un modelo de 340 mil millones de parámetros entrenado en 3,6 billones de tokens. ^[15]

En junio de 2023, Google anunció AudioPaLM para la traducción de voz a voz, que utiliza la arquitectura y la inicialización PaLM-2. ^[16]

Capacitación

PaLM está entrenado previamente en un corpus de alta calidad de 780 mil millones de tokens que comprenden varias tareas de lenguaje natural y casos de uso. Este conjunto de datos incluye páginas web filtradas, libros, artículos de Wikipedia , artículos de noticias, código fuente obtenido de repositorios de código abierto en GitHub y conversaciones en redes sociales . ^[1]^[2] Se basa en el conjunto de datos utilizado para entrenar el modelo LaMDA de Google . ^[2] La parte de conversaciones en redes sociales del conjunto de datos constituye el 50% del corpus, lo que ayuda al modelo en sus capacidades conversacionales. ^[2]

PaLM 540B se entrenó en dos pods TPU v4 con 3072 chips TPU v4 en cada pod conectados a 768 hosts, conectados mediante una combinación de paralelismo de modelos y datos , que fue la configuración de TPU más grande. ^[2]^[17] Esto permitió un entrenamiento eficiente a escala, utilizando 6144 chips, y marcó un récord para la mayor eficiencia de entrenamiento lograda para LLM a esta escala: una utilización de FLOP de hardware del 57,8 %. ^[3]

Véase también

LaMDA , predecesor de PaLM
Gemini , el sucesor de PaLM
Chinchilla

Referencias

^ abc Narang, Sharan; Chowdhery, Aakanksha. "Pathways Language Model (PaLM): escalado a 540 mil millones de parámetros para un rendimiento innovador". ai.googleblog.com . Consultado el 17 de marzo de 2023 .
^ abcdefg Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. (2022). "PaLM: Escalado del modelado del lenguaje con Pathways". arXiv : 2204.02311 [cs.CL].
^ ab Anadiotis, George (12 de abril de 2022). «Google establece el estándar para los modelos de lenguaje de IA con PaLM». VentureBeat . Consultado el 17 de marzo de 2023 .
^ Bastian, Matthias (5 de abril de 2022). «Google PaLM: una inteligencia artificial gigante capaz de explicar chistes». el decodificador . Consultado el 17 de marzo de 2023 .
^ "Google: ¿Por qué nadie habla de PaLM?" Seekingalpha.com . 12 de diciembre de 2022 . Consultado el 17 de marzo de 2023 .
^ Vincent, James (14 de marzo de 2023). «Google abre su modelo de lenguaje de IA PaLM para desafiar a OpenAI y GPT-3». The Verge . Consultado el 17 de marzo de 2023 .
^ Huffman, Scott; Woodward, Josh. "PaLM API & MakerSuite: una forma accesible de comenzar a crear prototipos y crear aplicaciones de IA generativas" . Consultado el 17 de marzo de 2023 .
^ Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; et al. (2022). "Grandes modelos lingüísticos codifican el conocimiento clínico". arXiv : 2212.13138 [cs.CL].
^ "MedPaLM: Los nuevos chatbots pronto serán mejores que esperar a un médico". The Medical Futurist . 17 de enero de 2023 . Consultado el 17 de marzo de 2023 .
^ Matias, Yossi; Corrado, Greg (14 de marzo de 2023). "Nuestras últimas actualizaciones de investigación en IA para la salud". Google . Consultado el 17 de marzo de 2023 .
^ Seco, Danny; Xia, Fei; Sajjadi, Mehdi SM; et al. (2023). "PaLM-E: un modelo de lenguaje multimodal incorporado". arXiv : 2303.03378 [cs.LG].
^ Driess, Danny; Florence, Pete. "PaLM-E: Un modelo de lenguaje multimodal incorporado". ai.googleblog.com . Consultado el 17 de marzo de 2023 .
^ Edwards, Benj (7 de marzo de 2023). «PaLM-E de Google es un cerebro robótico generalista que recibe órdenes». Ars Technica . Consultado el 17 de marzo de 2023 .
^ Lardinois, Frederic (10 de mayo de 2023). «Google lanza PaLM 2, su modelo de lenguaje de gran tamaño de próxima generación». TechCrunch . Archivado desde el original el 10 de mayo de 2023. Consultado el 10 de mayo de 2023 .
^ Elias, Jennifer (16 de mayo de 2023). "El modelo de IA más nuevo de Google utiliza casi cinco veces más datos de texto para el entrenamiento que su predecesor". CNBC . Consultado el 18 de mayo de 2023 .
^ "AudioPaLM". google-research.github.io . Consultado el 30 de junio de 2023 .
^ "Análisis empírico del entrenamiento de modelos lingüísticos grandes con optimización computacional". www.deepmind.com . Consultado el 17 de marzo de 2023 .