El desafío de esquemas de Winograd ( WSC ) es una prueba de inteligencia artificial propuesta en 2012 por Hector Levesque , un científico informático de la Universidad de Toronto . Diseñado para ser una mejora del test de Turing , es una prueba de opción múltiple que emplea preguntas de una estructura muy específica: son instancias de lo que se denominan esquemas de Winograd, llamados así por Terry Winograd , profesor de informática en la Universidad de Stanford . [1]
En la superficie, las preguntas del esquema de Winograd simplemente requieren la resolución de una anáfora : la máquina debe identificar el antecedente de un pronombre ambiguo en un enunciado. Esto lo convierte en una tarea de procesamiento del lenguaje natural , pero Levesque sostiene que, en el caso de los esquemas de Winograd, la tarea requiere el uso del conocimiento y el razonamiento de sentido común . [2]
El desafío se considera derrotado en 2019, ya que varios modelos de lenguaje basados en transformadores lograron precisiones superiores al 90 %. [3]
El desafío del esquema de Winograd se propuso en el espíritu de la prueba de Turing . Propuesta por Alan Turing en 1950, la prueba de Turing desempeña un papel central en la filosofía de la inteligencia artificial . Turing propuso que, en lugar de debatir si una máquina puede pensar, la ciencia de la IA debería preocuparse por demostrar un comportamiento inteligente, que se puede probar. Pero la naturaleza exacta de la prueba que Turing propuso ha sido objeto de escrutinio, especialmente desde que un chatbot de IA llamado Eugene Goostman afirmó haberla aprobado en 2014. Una de las principales preocupaciones con la prueba de Turing es que una máquina podría pasar fácilmente la prueba con fuerza bruta y/o engaños, en lugar de con verdadera inteligencia. [4]
El desafío del esquema Winograd se propuso en 2012 en parte para mejorar los problemas que surgieron con la naturaleza de los programas que obtuvieron buenos resultados en la prueba. [5]
La propuesta original de Turing fue lo que él llamó el juego de la imitación , que implica conversaciones fluidas y sin restricciones en inglés entre jueces humanos y programas de computadora a través de un canal de solo texto (como el teletipo). En general, la máquina pasa la prueba si los interrogadores no son capaces de distinguir entre ella y un humano en una conversación de cinco minutos. [4]
Nuance Communications anunció en julio de 2014 que patrocinaría una competencia anual de WSC, con un premio de $25,000 para el mejor sistema que pudiera igualar el rendimiento humano. [6] Sin embargo, el premio ya no se ofrece.
El desempeño de Eugene Goostman mostró algunos de los problemas de la prueba de Turing. Levesque identifica varios problemas importantes, [2] que se resumen a continuación: [7]
El factor clave del WSC es el formato especial de sus preguntas, que se derivan de los esquemas de Winograd. Las preguntas de este formato pueden adaptarse para exigir conocimientos y razonamiento de sentido común en una variedad de dominios. También deben redactarse con cuidado para no delatar sus respuestas mediante restricciones de selección o información estadística sobre las palabras de la oración.
El primer ejemplo citado de un esquema de Winograd (y el motivo de su nombre) se debe a Terry Winograd : [8]
Los concejales de la ciudad negaron el permiso a los manifestantes porque [temían/defendían] la violencia.
Las opciones de “temido” y “defendido” transforman el esquema en sus dos instancias:
Los concejales de la ciudad negaron el permiso a los manifestantes por temor a la violencia.
Los concejales denegaron el permiso a los manifestantes porque abogaban por la violencia.
La pregunta del desafío del esquema es: "¿El pronombre 'ellos' se refiere a los concejales de la ciudad o a los manifestantes?". Al alternar entre las dos instancias del esquema, la respuesta cambia. La respuesta es inmediata para un lector humano, pero resulta difícil de emular en las máquinas. Levesque [2] sostiene que el conocimiento juega un papel central en estos problemas: la respuesta a este esquema tiene que ver con nuestra comprensión de las relaciones típicas entre los concejales y los manifestantes y de su comportamiento.
Desde la propuesta original del desafío del esquema de Winograd, Ernest Davis, profesor de la Universidad de Nueva York , ha compilado una lista de más de 140 esquemas de Winograd de varias fuentes como ejemplos de los tipos de preguntas que deberían aparecer en el desafío del esquema de Winograd. [9]
Una pregunta de desafío de esquema de Winograd consta de tres partes:
Se le dará a una máquina el problema en una forma estandarizada que incluye las opciones de respuesta, convirtiéndolo así en un problema de decisión binaria .
El desafío del esquema de Winograd tiene las siguientes supuestas ventajas:
Una dificultad que presenta el desafío del esquema de Winograd es el desarrollo de las preguntas. Deben ser cuidadosamente diseñadas para garantizar que requieran un razonamiento de sentido común para resolverlas. Por ejemplo, Levesque [5] ofrece el siguiente ejemplo de un denominado esquema de Winograd que es "demasiado fácil":
Las mujeres dejaron de tomar pastillas porque estaban [embarazadas/cancerígenas]. ¿Qué personas estaban [embarazadas/cancerígenas]?
La respuesta a esta pregunta se puede determinar en base a restricciones selectivas : en cualquier situación, las píldoras no producen embarazo, las mujeres sí; las mujeres no pueden ser cancerígenas, pero las píldoras sí. Por lo tanto, esta respuesta se puede obtener sin necesidad de razonamiento o de comprensión alguna del significado de las oraciones; todo lo que se necesita son datos sobre las restricciones selectivas de embarazo y carcinogenicidad.
En 2016 y 2018, Nuance Communications patrocinó un concurso que ofrecía un gran premio de 25 000 dólares para el que obtuviera la puntuación máxima por encima del 90 % (a modo de comparación, los humanos responden correctamente entre el 92 y el 96 % de las preguntas de WSC [10] ). Sin embargo, nadie estuvo cerca de ganar el premio en 2016 y el concurso de 2018 se canceló por falta de prospectos; [11] el premio ya no se ofrece. [12]
El Duodécimo Simposio Internacional sobre las Formalizaciones Lógicas del Razonamiento de Sentido Común se celebró del 23 al 25 de marzo de 2015 en la Serie de Simposios de Primavera de la AAAI en la Universidad de Stanford, con un enfoque especial en el desafío del esquema de Winograd. El comité organizador estuvo formado por Leora Morgenstern ( Leidos ), Theodore Patkos (The Foundation for Research & Technology Hellas) y Robert Sloan ( University of Illinois at Chicago ). [13]
El Winograd Schema Challenge 2016 se llevó a cabo el 11 de julio de 2016 en IJCAI-16. Había cuatro concursantes. La primera ronda del concurso consistía en resolver PDP (problemas de desambiguación de pronombres), adaptados de fuentes literarias, no construidos como pares de oraciones. [14] La puntuación más alta obtenida fue 58% correcta, por Quan Liu et al, de la Universidad de Ciencia y Tecnología, China. [15] Por lo tanto, según las reglas de ese desafío, no se otorgaron premios y el desafío no pasó a la segunda ronda. El comité organizador en 2016 estuvo formado por Leora Morgenstern, Ernest Davis y Charles Ortiz. [16]
En 2017, un modelo de asociación neuronal diseñado para la adquisición de conocimiento de sentido común logró una precisión del 70% en 70 problemas seleccionados manualmente del conjunto de datos original de 273 esquemas de Winograd. [17] En junio de 2018, se logró una puntuación de precisión del 63,7% en el conjunto de datos completo utilizando un conjunto de modelos de lenguaje de redes neuronales recurrentes, [18] lo que marca el primer uso de redes neuronales profundas que aprenden de corpus independientes para adquirir conocimiento de sentido común. En 2019, se logró una puntuación del 90,1% en el conjunto de datos de esquemas de Winograd original mediante el ajuste fino del modelo de lenguaje BERT con datos de entrenamiento adecuados similares a WSC para evitar tener que aprender el razonamiento de sentido común. [10] El modelo de lenguaje general GPT-3 logró una puntuación del 88,3% sin un ajuste fino específico en 2020. [19]
En 2019 se diseñó un conjunto de datos "Winogrande" más desafiante y conflictivo de 44.000 problemas. Este conjunto de datos consta de oraciones con espacios en blanco para completar, a diferencia del formato de pronombres de los conjuntos de datos anteriores. [10]
Una versión del desafío del esquema de Winograd es una parte de la colección de desafíos de referencia GLUE ( Evaluación de comprensión del lenguaje general ) en comprensión automatizada del lenguaje natural . [20]
El premio no pudo ser otorgado a nadie. La mayoría de los participantes mostraron un resultado cercano a la elección aleatoria o incluso peor. La segunda competencia programada para 2018 fue cancelada debido a la falta de posibles participantes.