stringtranslate.com

Palmera

PaLM ( Pathways Language Model ) es un modelo de lenguaje grande (LLM) basado en transformadores de 540 mil millones de parámetros desarrollado por Google AI . [1] Los investigadores también entrenaron versiones más pequeñas de PaLM (con 8 y 62 mil millones de parámetros) para probar los efectos de la escala del modelo. [2]

PaLM es capaz de realizar una amplia gama de tareas, incluido el razonamiento de sentido común , el razonamiento aritmético , la explicación de chistes , la generación de códigos y la traducción . [2] [3] [4] [5] Cuando se combina con la estimulación de la cadena de pensamiento , PaLM logró un rendimiento significativamente mejor en conjuntos de datos que requieren razonamiento de múltiples pasos, como problemas de palabras y preguntas basadas en lógica . [1] [2]

El modelo se anunció por primera vez en abril de 2022 y permaneció privado hasta marzo de 2023, cuando Google lanzó una API para PaLM y varias otras tecnologías. [6] La API estuvo inicialmente disponible para un número limitado de desarrolladores que se unieron a una lista de espera antes de que se lanzara al público. [7]

Google y DeepMind desarrollaron una versión de PaLM 540B (el recuento de parámetros, 540 mil millones), llamada Med-PaLM , que está optimizada para datos médicos y supera a los modelos anteriores en los puntos de referencia de respuesta a preguntas médicas . [8] [9] Med-PaLM fue el primero en obtener una puntuación aprobatoria en las preguntas de licencia médica de EE. UU. y, además de responder con precisión tanto a preguntas de opción múltiple como abiertas, también proporciona razonamiento y puede evaluar sus propias respuestas. [10]

Google también amplió PaLM utilizando un transformador de visión para crear PaLM-E , un modelo de lenguaje de visión de última generación que se puede utilizar para la manipulación robótica . [11] [12] El modelo puede realizar tareas en robótica de manera competitiva sin necesidad de volver a entrenarlo o realizar ajustes . [13]

En mayo de 2023, Google anunció PaLM 2 en la conferencia anual Google I/O . [14] Se informa que PaLM 2 es un modelo de 340 mil millones de parámetros entrenado en 3,6 billones de tokens. [15]

En junio de 2023, Google anunció AudioPaLM para la traducción de voz a voz, que utiliza la arquitectura y la inicialización PaLM-2. [16]

Capacitación

PaLM está entrenado previamente en un corpus de alta calidad de 780 mil millones de tokens que comprenden varias tareas de lenguaje natural y casos de uso. Este conjunto de datos incluye páginas web filtradas, libros, artículos de Wikipedia , artículos de noticias, código fuente obtenido de repositorios de código abierto en GitHub y conversaciones en redes sociales . [1] [2] Se basa en el conjunto de datos utilizado para entrenar el modelo LaMDA de Google . [2] La parte de conversaciones en redes sociales del conjunto de datos constituye el 50% del corpus, lo que ayuda al modelo en sus capacidades conversacionales. [2]

PaLM 540B se entrenó en dos pods TPU v4 con 3072 chips TPU v4 en cada pod conectados a 768 hosts, conectados mediante una combinación de paralelismo de modelos y datos , que fue la configuración de TPU más grande. [2] [17] Esto permitió un entrenamiento eficiente a escala, utilizando 6144 chips, y marcó un récord para la mayor eficiencia de entrenamiento lograda para LLM a esta escala: una utilización de FLOP de hardware del 57,8 %. [3]

Véase también

Referencias

  1. ^ abc Narang, Sharan; Chowdhery, Aakanksha. "Pathways Language Model (PaLM): escalado a 540 mil millones de parámetros para un rendimiento innovador". ai.googleblog.com . Consultado el 17 de marzo de 2023 .
  2. ^ abcdefg Chowdhery, Aakanksha; Narang, Sharan; Devlin, Jacob; et al. (2022). "PaLM: ampliación del modelado del lenguaje con Pathways". arXiv : 2204.02311 [cs.CL].
  3. ^ ab Anadiotis, George (12 de abril de 2022). «Google establece el estándar para los modelos de lenguaje de IA con PaLM». VentureBeat . Consultado el 17 de marzo de 2023 .
  4. ^ Bastian, Matthias (5 de abril de 2022). «Google PaLM: una inteligencia artificial gigante capaz de explicar chistes». el decodificador . Consultado el 17 de marzo de 2023 .
  5. ^ "Google: ¿Por qué nadie habla de PaLM?" Seekingalpha.com . 12 de diciembre de 2022 . Consultado el 17 de marzo de 2023 .
  6. ^ Vincent, James (14 de marzo de 2023). «Google abre su modelo de lenguaje de IA PaLM para desafiar a OpenAI y GPT-3». The Verge . Consultado el 17 de marzo de 2023 .
  7. ^ Huffman, Scott; Woodward, Josh. "PaLM API & MakerSuite: una forma accesible de comenzar a crear prototipos y crear aplicaciones de IA generativas" . Consultado el 17 de marzo de 2023 .
  8. ^ Singhal, Karan; Azizi, Shekoofeh; Tu, Tao; et al. (2022). "Los grandes modelos de lenguaje codifican el conocimiento clínico". arXiv : 2212.13138 [cs.CL].
  9. ^ "MedPaLM: Los nuevos chatbots pronto serán mejores que esperar a un médico". The Medical Futurist . 17 de enero de 2023 . Consultado el 17 de marzo de 2023 .
  10. ^ Matias, Yossi; Corrado, Greg (14 de marzo de 2023). "Nuestras últimas actualizaciones de investigación en IA para la salud". Google . Consultado el 17 de marzo de 2023 .
  11. ^ Seco, Danny; Xia, Fei; Sajjadi, Mehdi SM; et al. (2023). "PaLM-E: un modelo de lenguaje multimodal incorporado". arXiv : 2303.03378 [cs.LG].
  12. ^ Driess, Danny; Florence, Pete. "PaLM-E: Un modelo de lenguaje multimodal incorporado". ai.googleblog.com . Consultado el 17 de marzo de 2023 .
  13. ^ Edwards, Benj (7 de marzo de 2023). «PaLM-E de Google es un cerebro robótico generalista que recibe órdenes». Ars Technica . Consultado el 17 de marzo de 2023 .
  14. ^ Lardinois, Frederic (10 de mayo de 2023). «Google lanza PaLM 2, su modelo de lenguaje de gran tamaño de próxima generación». TechCrunch . Archivado desde el original el 10 de mayo de 2023. Consultado el 10 de mayo de 2023 .
  15. ^ Elias, Jennifer (16 de mayo de 2023). "El modelo de IA más nuevo de Google utiliza casi cinco veces más datos de texto para el entrenamiento que su predecesor". CNBC . Consultado el 18 de mayo de 2023 .
  16. ^ "AudioPaLM". google-research.github.io . Consultado el 30 de junio de 2023 .
  17. ^ "Análisis empírico del entrenamiento de modelos lingüísticos grandes con optimización computacional". www.deepmind.com . Consultado el 17 de marzo de 2023 .