PaLM ( Pathways Language Model ) es un modelo de lenguaje grande (LLM) basado en transformadores de 540 mil millones de parámetros desarrollado por Google AI . [1] Los investigadores también entrenaron versiones más pequeñas de PaLM (con 8 y 62 mil millones de parámetros) para probar los efectos de la escala del modelo. [2]
PaLM es capaz de realizar una amplia gama de tareas, incluido el razonamiento de sentido común , el razonamiento aritmético , la explicación de chistes , la generación de códigos y la traducción . [2] [3] [4] [5] Cuando se combina con la estimulación de la cadena de pensamiento , PaLM logró un rendimiento significativamente mejor en conjuntos de datos que requieren razonamiento de múltiples pasos, como problemas de palabras y preguntas basadas en lógica . [1] [2]
El modelo se anunció por primera vez en abril de 2022 y permaneció privado hasta marzo de 2023, cuando Google lanzó una API para PaLM y varias otras tecnologías. [6] La API estuvo inicialmente disponible para un número limitado de desarrolladores que se unieron a una lista de espera antes de que se lanzara al público. [7]
Google y DeepMind desarrollaron una versión de PaLM 540B (el recuento de parámetros, 540 mil millones), llamada Med-PaLM , que está optimizada para datos médicos y supera a los modelos anteriores en los puntos de referencia de respuesta a preguntas médicas . [8] [9] Med-PaLM fue el primero en obtener una puntuación aprobatoria en las preguntas de licencia médica de EE. UU. y, además de responder con precisión tanto a preguntas de opción múltiple como abiertas, también proporciona razonamiento y puede evaluar sus propias respuestas. [10]
Google también amplió PaLM utilizando un transformador de visión para crear PaLM-E , un modelo de lenguaje de visión de última generación que se puede utilizar para la manipulación robótica . [11] [12] El modelo puede realizar tareas en robótica de manera competitiva sin necesidad de volver a entrenarlo o realizar ajustes . [13]
En mayo de 2023, Google anunció PaLM 2 en la conferencia anual Google I/O . [14] Se informa que PaLM 2 es un modelo de 340 mil millones de parámetros entrenado en 3,6 billones de tokens. [15]
En junio de 2023, Google anunció AudioPaLM para la traducción de voz a voz, que utiliza la arquitectura y la inicialización PaLM-2. [16]
PaLM está entrenado previamente en un corpus de alta calidad de 780 mil millones de tokens que comprenden varias tareas de lenguaje natural y casos de uso. Este conjunto de datos incluye páginas web filtradas, libros, artículos de Wikipedia , artículos de noticias, código fuente obtenido de repositorios de código abierto en GitHub y conversaciones en redes sociales . [1] [2] Se basa en el conjunto de datos utilizado para entrenar el modelo LaMDA de Google . [2] La parte de conversaciones en redes sociales del conjunto de datos constituye el 50% del corpus, lo que ayuda al modelo en sus capacidades conversacionales. [2]
PaLM 540B se entrenó en dos pods TPU v4 con 3072 chips TPU v4 en cada pod conectados a 768 hosts, conectados mediante una combinación de paralelismo de modelos y datos , que fue la configuración de TPU más grande. [2] [17] Esto permitió un entrenamiento eficiente a escala, utilizando 6144 chips, y marcó un récord para la mayor eficiencia de entrenamiento lograda para LLM a esta escala: una utilización de FLOP de hardware del 57,8 %. [3]