Universidad de Michigan

En inteligencia artificial , la medición de la comprensión masiva del lenguaje multitarea ( MMLU ) es un punto de referencia para evaluar las capacidades de grandes modelos de lenguaje .

Punto de referencia

Consta de unas 16.000 preguntas de opción múltiple que abarcan 57 materias académicas, entre ellas matemáticas, filosofía, derecho y medicina. Es uno de los puntos de referencia más utilizados para comparar las capacidades de los modelos lingüísticos de gran tamaño, con más de 100 millones de descargas a julio de 2024. ^[1]^[2]

Dan Hendrycks y un equipo de investigadores lanzaron la MMLU en 2020 ^[3] y fue diseñada para ser más desafiante que los puntos de referencia existentes en ese momento, como la Evaluación de comprensión del lenguaje general (GLUE), en la que los nuevos modelos de lenguaje estaban logrando una precisión mejor que la humana. En el momento del lanzamiento de la MMLU, la mayoría de los modelos de lenguaje existentes tenían un rendimiento cercano al nivel de la casualidad (25 %), y el modelo GPT-3 con mejor rendimiento logró una precisión del 43,9 %. ^[3] Los desarrolladores de la MMLU estiman que los expertos humanos en el dominio logran una precisión de alrededor del 89,8 %. ^[3] A partir de 2024, se informó que algunos de los modelos de lenguaje más poderosos, como o1 , Gemini y Claude 3 , lograron puntajes de alrededor del 90 %. ^[4]^[5]

Ejemplos

Los siguientes ejemplos se han extraído de las tareas de “ Álgebra abstracta ” y “ Derecho internacional ”, respectivamente. ^[3] Las respuestas correctas están marcadas en negrita:

Encuentra todo lo que es un campo. ${\estilo de visualización c}$ $\mathbb {Z} _ {3}$ $\mathbb {Z}_{3}[x]/(x^{2}+c)$
(a) 0 (b) 1 (c) 2 (d) 3

¿ Sería aceptable en la práctica contemporánea una reserva a la definición de tortura en el Pacto Internacional de Derechos Civiles y Políticos ?
(A) Esta es una reserva aceptable si la legislación del país que formula la reserva emplea una definición diferente
(B) Esta es una reserva inaceptable porque contraviene el objeto y el propósito del PIDCP
(C) Esta es una reserva inaceptable porque la definición de tortura en el PIDCP es consistente con el derecho internacional consuetudinario
(D) Esta es una reserva aceptable porque bajo el derecho internacional general los Estados tienen el derecho de formular reservas a los tratados

Tabla de clasificación

Referencias

^ Roose, Kevin (15 de abril de 2024). "La IA tiene un problema de medición". The New York Times .
^ "Conjunto de datos MMLU". HuggingFace . 24 de julio de 2024.
^ abcd Hendrycks, Dan; Burns, Collin; Kossen, Andy; Steinhardt, Jacob; Mishkin, Pavel; Gimpel, Kevin; Zhu, Mark (2020). "Medición de la comprensión masiva del lenguaje en múltiples tareas". arXiv : 2009.03300 [cs.CY].
^ ab OpenAI o1 Tarjeta del sistema. OpenAI. p. 33. Consultado el 13 de septiembre de 2024 .
^ "Comprensión del lenguaje en múltiples tareas en MMLU | Tabla de clasificación". Artículos con código . Consultado el 10 de octubre de 2024 .