Borrador: Conformador de herramientas

ToolFormer es un método que mejora los modelos de lenguaje grandes (LLM) al permitir interacciones con herramientas externas. La integración de herramientas con modelos de lenguaje mejora el rendimiento en tareas complejas como la respuesta a preguntas y la aritmética (en las que los LLM históricamente han tenido un rendimiento deficiente ^[1] ) con una mínima intervención humana. También permite que los LLM respondan consultas sobre eventos fuera de los datos de entrenamiento del modelo, lo que es imposible para un LLM convencional. Desde su introducción en 2023, ToolFormer ha ganado una atención considerable por su potencial para ampliar la funcionalidad de los LLM y mejorar su adaptabilidad a tareas complejas.

Método

Creación de conjuntos de datos

El modelo toma como entrada un conjunto de datos de texto simple representado como y le agrega posibles llamadas a la API, lo que da como resultado un conjunto de datos aumentado . Esto se hace primero muestreando las posibles llamadas a la API para hasta posiciones candidatas calculando la probabilidad de que el modelo de lenguaje asigne una llamada a la API ( ) como una continuación de una secuencia dada en la posición para cada como . Solo se mantienen las primeras k posiciones con probabilidad , donde es un umbral, y para cada una de esas posiciones, se muestrean las llamadas a la API. $C=\{x^{1},...,x^{|C|}\}$ ${\estilo de visualización C^{*}}$ ${\estilo de visualización k}$ ${\estilo de visualización M}$ $<API>$ ${\estilo de visualización i}$ $i\en \{1,...,n\}$ $p_{i}=p_{M}(<API>|P(x),x_{1:i-1})$ $p_{i}>\tau_{s}$ $\tau_{s}$ ${\estilo de visualización m}$

A continuación, se ejecutan todas las llamadas API muestreadas y se recopilan las respuestas (donde es una secuencia de texto). Después de esto, las llamadas API se filtran en función de los valores de pérdida de entropía cruzada para el modelo. La pérdida se calcula como dado que el modelo tiene el prefijo y los pesos se dan como una secuencia . La pérdida de entropía cruzada se calcula para dos casos: (i) cuando se realiza la llamada API y los resultados se utilizan en M y (ii) cuando la llamada API no se realiza en absoluto o se realiza pero no se proporciona la respuesta. Estos se calculan utilizando las siguientes fórmulas: (i) , (ii) donde es una secuencia vacía. Dadas las pérdidas, las API se filtran en función del umbral de modo que y las API resultantes se agregan a la entrada. Como resultado, se produce un conjunto de datos aumentado que se utiliza en el ajuste fino del modelo. $Estilo de visualización c_{i}}$ $estilo de visualización r_{i}}$ $estilo de visualización r_{i}}$ $L_{i}(z)=-\sum _{j=i}^{n}w_{ji}\cdot \log p_{M}(x_{j}|z,x_{1:j-1})$ ${\mathbf {z}}$ $(w_{i}|i\in \mathbb {N} )$ $L_{i}^{+}=L_{i}(e(c_{i},r_{i}))$ $L_{i}^{-}=\min(L_{i}(\varepsilon ),L_{i}(e(c_{i},\varepsilon )))$ ${\estilo de visualización \varepsilon}$ $\tau_{f}$ $L_{i}^{-}-L_{i}^{+}\geq \tau _ {f}$ ${\estilo de visualización C^{*}}$

Capacitación

Para el entrenamiento y la evaluación, los autores utilizaron un subconjunto de CCNet ^[2] (conjunto de datos ) y GPT-J (modelo de lenguaje ). ${\estilo de visualización C}$ ${\estilo de visualización M}$

Evaluación

Los autores compararon cuatro modelos en su experimento, entre ellos GPT-J sin ajustes, GPT-J ajustado en un subconjunto de CCNet sin llamadas a la API, Toolformer ajustado en el conjunto de datos aumentado con llamadas a la API y Toolformer con llamadas a la API deshabilitadas. Estos modelos, junto con modelos más grandes (OPT y GPT-3), se evaluaron en función de su rendimiento en diferentes tareas posteriores sin ejemplos en contexto introducidos en el modelo. El objetivo de esta configuración experimental es ver si el modelo puede decidir correctamente qué herramientas utilizar y cómo hacerlo sin las instrucciones de los usuarios.

Cuando se evaluó en subconjuntos del punto de referencia LAMA ^[3]^[4] para completar una parte faltante en una declaración corta, Toolformer con llamadas API supera a todos los demás modelos enumerados anteriormente. Para tareas matemáticas evaluadas utilizando ASDiv, ^[5] SVAMP y MAWPS, ^[6] los modelos Toolformer con y sin llamadas API superan a todos los demás modelos, y Toolformer con API supera a todos los modelos de referencia. Se observaron resultados similares para conjuntos de datos temporales evaluados también en TempLama ^[7] y conjuntos de datos personalizados para verificar la utilidad de la API de calendario. Toolformer con API supera a todos los modelos excepto GPT-3 en tareas de respuesta a preguntas evaluadas también en los conjuntos de datos Web Questions, ^[8] Natural Questions, ^[9] y TriviaQA ^[10] . Sin embargo, Toolformer muestra un peor rendimiento para tareas de respuesta a preguntas multilingües evaluadas en MLQA. ^[11]

Beneficios

Eliminar la memorización

Si bien los LLM son excelentes para memorizar, no pueden memorizar todos los detalles del conjunto de entrenamiento y, en consecuencia, es posible que no brinden respuestas satisfactorias a preguntas especializadas. La integración de herramientas con los LLM (especialmente la generación aumentada de búsqueda/recuperación ) puede ayudarlos a responder mejor.

Experiencia mejorada

Los LLM suelen formarse con enormes corpus y pueden carecer de conocimientos específicos del dominio, incluso cuando están perfeccionados. Proporcionar herramientas para tareas específicas, como una calculadora, puede mejorar la experiencia.

Interpretabilidad

La inteligencia artificial explicable se está volviendo muy relevante, y el seguimiento de las herramientas que utilizan los LLM puede ayudarnos a comprender su proceso de toma de decisiones al registrar cuándo y cómo se aprovechan y sus entradas y salidas.

Aplicaciones

La integración de herramientas con los LLM se puede utilizar para resolver muchos problemas complejos. En particular, los motores de búsqueda se pueden mejorar para utilizar técnicas de inteligencia artificial generativa, como perplexity.ai ^[12] o la nueva función de descripción general de IA de Google. ^[13] La mayoría de las API de LLM especifican técnicas para ayudar a sus modelos a interactuar con otras API ^[14]^[15]^[16]

Autores

Los autores del artículo en el que se introdujo el modelo Toolformer ^[17] son Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda y Thomas Scialom. Roberto Dessì está afiliado a la Universitat Pompeu Fabra. Todos los demás autores están afiliados a Meta AI Research.

Referencias

^ "Medición de la resolución de problemas matemáticos con el conjunto de datos MATH" (PDF) .
^ Wenzek, Guillaume; Lachaux, Marie-Anne; Conneau, Alexis; Chaudhary, Vishrav; Guzmán, Francisco; Joulin, Armand; Grave, Edouard (14 de noviembre de 2019), CCNet: extracción de conjuntos de datos monolingües de alta calidad a partir de datos de rastreo web , arXiv : 1911.00359
^ "Facebookinvestigación/LAMA". GitHub .
^ Petroni, Fabio; Rocktäschel, Tim; Lewis, Patrick; Bakhtin, Anton; Wu, Yuxiang; Miller, Alexander H.; Riedel, Sebastian (4 de septiembre de 2019), ¿ Modelos de lenguaje como bases de conocimiento? , arXiv : 1909.01066
^ Miao, Shen-Yun; Liang, Chao-Chun; Su, Keh-Yih (29 de junio de 2021), Un corpus diverso para evaluar y desarrollar solucionadores de problemas matemáticos en inglés , arXiv : 2106.15772
^ Koncel-Kedziorski, Rik; Roy, Subhro; Amini, Aida; Kushman, Nate; Hajishirzi, Hannaneh (junio de 2016). "MAWPS: un repositorio de problemas matemáticos con palabras". En Knight, Kevin; Nenkova, Ani; Rambow, Owen (eds.). Actas de la Conferencia de 2016 del Capítulo norteamericano de la Asociación de Lingüística Computacional: Tecnologías del lenguaje humano . San Diego, California: Asociación de Lingüística Computacional. págs. 1152–1157. doi :10.18653/v1/N16-1136.
^ Dhingra, Bhuwan; Cole, Jeremy R.; Eisenschlos, Julian Martin; Gillick, Daniel; Eisenstein, Jacob; Cohen, William W. (2022). Roark, Brian; Nenkova, Ani (eds.). "Modelos de lenguaje conscientes del tiempo como bases de conocimiento temporal". Transacciones de la Asociación de Lingüística Computacional . 10 : 257–273. doi :10.1162/tacl_a_00459.
^ Talmor, Alon; Berant, Jonathan (18 de marzo de 2018), La Web como base de conocimiento para responder preguntas complejas , arXiv : 1803.06643
^ Kwiatkowski, Tom; Palomaki, Jennimaria; Redfield, Olivia; Collins, Michael; Parikh, Ankur; Alberti, Chris; Epstein, Danielle; Polosukhin, Illia; Devlin, Jacob; Lee, Kenton; Toutanova, Kristina; Jones, Llion; Kelcey, Matthew; Chang, Ming-Wei; Dai, Andrew M. (2019). Lee, Lillian; Johnson, Mark; Roark, Brian; Nenkova, Ani (eds.). "Preguntas naturales: un punto de referencia para la investigación de preguntas y respuestas". Transacciones de la Asociación de Lingüística Computacional . 7 : 452–466. doi :10.1162/tacl_a_00276.
^ Joshi, Mandar; Choi, Eunsol; Weld, Daniel S.; Zettlemoyer, Luke (13 de mayo de 2017), TriviaQA: un conjunto de datos de desafío supervisado a distancia a gran escala para la comprensión lectora , arXiv : 1705.03551
^ Lewis, Patrick; Oguz, Barlas; Rinott, Ruty; Riedel, Sebastian; Schwenk, Holger (julio de 2020). Jurafsky, Dan; Chai, Joyce; Schluter, Natalie; Tetreault, Joel (eds.). "MLQA: evaluación de la respuesta a preguntas extractivas translingüísticas". Actas de la 58.ª reunión anual de la Asociación de Lingüística Computacional . En línea: Asociación de Lingüística Computacional: 7315–7330. doi :10.18653/v1/2020.acl-main.653.
^ "Perplejidad IA".
^ "Descripción general de la inteligencia artificial para búsquedas de Google". 14 de mayo de 2024.
^ "Llamada a la función ChatGPT".
^ ""Llamada a la función Llama"".
^ "Llamada a la función Claude (Antrópica)".
^ Schick, Timo; Dwivedi-Yu, Jane; Dessì, Roberto; Raileanu, Roberta; Lomeli, Maria; Zettlemoyer, Luke; Cancedda, Nicola; Scialom, Thomas (9 de febrero de 2023), Toolformer: Los modelos de lenguaje pueden aprender a usar herramientas por sí solos , arXiv : 2302.04761