Desafío del esquema de Winograd

El desafío de esquemas de Winograd ( WSC ) es una prueba de inteligencia artificial propuesta en 2012 por Hector Levesque , un científico informático de la Universidad de Toronto . Diseñado para ser una mejora del test de Turing , es una prueba de opción múltiple que emplea preguntas de una estructura muy específica: son instancias de lo que se denominan esquemas de Winograd, llamados así por Terry Winograd , profesor de informática en la Universidad de Stanford . ^[1]

En la superficie, las preguntas del esquema de Winograd simplemente requieren la resolución de una anáfora : la máquina debe identificar el antecedente de un pronombre ambiguo en un enunciado. Esto lo convierte en una tarea de procesamiento del lenguaje natural , pero Levesque sostiene que, en el caso de los esquemas de Winograd, la tarea requiere el uso del conocimiento y el razonamiento de sentido común . ^[2]

El desafío se considera derrotado en 2019, ya que varios modelos de lenguaje basados en transformadores lograron precisiones superiores al 90 %. ^[3]

Historia

El desafío del esquema de Winograd se propuso en el espíritu de la prueba de Turing . Propuesta por Alan Turing en 1950, la prueba de Turing desempeña un papel central en la filosofía de la inteligencia artificial . Turing propuso que, en lugar de debatir si una máquina puede pensar, la ciencia de la IA debería preocuparse por demostrar un comportamiento inteligente, que se puede probar. Pero la naturaleza exacta de la prueba que Turing propuso ha sido objeto de escrutinio, especialmente desde que un chatbot de IA llamado Eugene Goostman afirmó haberla aprobado en 2014. Una de las principales preocupaciones con la prueba de Turing es que una máquina podría pasar fácilmente la prueba con fuerza bruta y/o engaños, en lugar de con verdadera inteligencia. ^[4]

El desafío del esquema Winograd se propuso en 2012 en parte para mejorar los problemas que surgieron con la naturaleza de los programas que obtuvieron buenos resultados en la prueba. ^[5]

La propuesta original de Turing fue lo que él llamó el juego de la imitación , que implica conversaciones fluidas y sin restricciones en inglés entre jueces humanos y programas de computadora a través de un canal de solo texto (como el teletipo). En general, la máquina pasa la prueba si los interrogadores no son capaces de distinguir entre ella y un humano en una conversación de cinco minutos. ^[4]

Nuance Communications anunció en julio de 2014 que patrocinaría una competencia anual de WSC, con un premio de $25,000 para el mejor sistema que pudiera igualar el rendimiento humano. ^[6] Sin embargo, el premio ya no se ofrece.

Debilidades del test de Turing

El desempeño de Eugene Goostman mostró algunos de los problemas de la prueba de Turing. Levesque identifica varios problemas importantes, ^[2] que se resumen a continuación: ^[7]

Engaño: La máquina se ve obligada a construir una identidad falsa, que no es parte de la inteligencia.
Conversación: Mucha interacción puede calificarse como "conversación legítima" (bromas, comentarios ingeniosos, cuestiones de orden) sin requerir un razonamiento inteligente.
Evaluación: Los humanos cometemos errores y los jueces a menudo no están de acuerdo con los resultados.

Esquemas de Winograd

El factor clave del WSC es el formato especial de sus preguntas, que se derivan de los esquemas de Winograd. Las preguntas de este formato pueden adaptarse para exigir conocimientos y razonamiento de sentido común en una variedad de dominios. También deben redactarse con cuidado para no delatar sus respuestas mediante restricciones de selección o información estadística sobre las palabras de la oración.

Origen

El primer ejemplo citado de un esquema de Winograd (y el motivo de su nombre) se debe a Terry Winograd : ^[8]

Los concejales de la ciudad negaron el permiso a los manifestantes porque [temían/defendían] la violencia.

Las opciones de “temido” y “defendido” transforman el esquema en sus dos instancias:

Los concejales de la ciudad negaron el permiso a los manifestantes por temor a la violencia.

Los concejales denegaron el permiso a los manifestantes porque abogaban por la violencia.

La pregunta del desafío del esquema es: "¿El pronombre 'ellos' se refiere a los concejales de la ciudad o a los manifestantes?". Al alternar entre las dos instancias del esquema, la respuesta cambia. La respuesta es inmediata para un lector humano, pero resulta difícil de emular en las máquinas. Levesque ^[2] sostiene que el conocimiento juega un papel central en estos problemas: la respuesta a este esquema tiene que ver con nuestra comprensión de las relaciones típicas entre los concejales y los manifestantes y de su comportamiento.

Desde la propuesta original del desafío del esquema de Winograd, Ernest Davis, profesor de la Universidad de Nueva York , ha compilado una lista de más de 140 esquemas de Winograd de varias fuentes como ejemplos de los tipos de preguntas que deberían aparecer en el desafío del esquema de Winograd. ^[9]

Descripción formal

Una pregunta de desafío de esquema de Winograd consta de tres partes:

Una oración o discurso breve que contiene lo siguiente:
- Dos frases nominales de la misma clase semántica (masculino, femenino, inanimado o grupo de objetos o personas),
- Un pronombre ambiguo que puede referirse a cualquiera de las frases nominales anteriores, y
- Una palabra especial y una palabra alternativa, de modo que si la palabra especial se reemplaza por la palabra alternativa, la resolución natural del pronombre cambia.
Una pregunta que pregunta la identidad del pronombre ambiguo, y
Dos opciones de respuesta correspondientes a las frases nominales en cuestión.

Se le dará a una máquina el problema en una forma estandarizada que incluye las opciones de respuesta, convirtiéndolo así en un problema de decisión binaria .

Ventajas

El desafío del esquema de Winograd tiene las siguientes supuestas ventajas:

Para resolverlos se requieren conocimientos y razonamiento de sentido común.
Se pueden diseñar esquemas de Winograd de diversa dificultad, que involucren desde simples relaciones de causa y efecto hasta narrativas complejas de eventos.
Pueden construirse para evaluar la capacidad de razonamiento en dominios específicos (por ejemplo, razonamiento social/psicológico o espacial).
No hay necesidad de jueces humanos. ^[5]

Trampas

Una dificultad que presenta el desafío del esquema de Winograd es el desarrollo de las preguntas. Deben ser cuidadosamente diseñadas para garantizar que requieran un razonamiento de sentido común para resolverlas. Por ejemplo, Levesque ^[5] ofrece el siguiente ejemplo de un denominado esquema de Winograd que es "demasiado fácil":

Las mujeres dejaron de tomar pastillas porque estaban [embarazadas/cancerígenas]. ¿Qué personas estaban [embarazadas/cancerígenas]?

La respuesta a esta pregunta se puede determinar en base a restricciones selectivas : en cualquier situación, las píldoras no producen embarazo, las mujeres sí; las mujeres no pueden ser cancerígenas, pero las píldoras sí. Por lo tanto, esta respuesta se puede obtener sin necesidad de razonamiento o de comprensión alguna del significado de las oraciones; todo lo que se necesita son datos sobre las restricciones selectivas de embarazo y carcinogenicidad.

Actividad

En 2016 y 2018, Nuance Communications patrocinó un concurso que ofrecía un gran premio de 25 000 dólares para el que obtuviera la puntuación máxima por encima del 90 % (a modo de comparación, los humanos responden correctamente entre el 92 y el 96 % de las preguntas de WSC ^[10] ). Sin embargo, nadie estuvo cerca de ganar el premio en 2016 y el concurso de 2018 se canceló por falta de prospectos; ^[11] el premio ya no se ofrece. ^[12]

El Duodécimo Simposio Internacional sobre las Formalizaciones Lógicas del Razonamiento de Sentido Común se celebró del 23 al 25 de marzo de 2015 en la Serie de Simposios de Primavera de la AAAI en la Universidad de Stanford, con un enfoque especial en el desafío del esquema de Winograd. El comité organizador estuvo formado por Leora Morgenstern ( Leidos ), Theodore Patkos (The Foundation for Research & Technology Hellas) y Robert Sloan ( University of Illinois at Chicago ). ^[13]

El Winograd Schema Challenge 2016 se llevó a cabo el 11 de julio de 2016 en IJCAI-16. Había cuatro concursantes. La primera ronda del concurso consistía en resolver PDP (problemas de desambiguación de pronombres), adaptados de fuentes literarias, no construidos como pares de oraciones. ^[14] La puntuación más alta obtenida fue 58% correcta, por Quan Liu et al, de la Universidad de Ciencia y Tecnología, China. ^[15] Por lo tanto, según las reglas de ese desafío, no se otorgaron premios y el desafío no pasó a la segunda ronda. El comité organizador en 2016 estuvo formado por Leora Morgenstern, Ernest Davis y Charles Ortiz. ^[16]

En 2017, un modelo de asociación neuronal diseñado para la adquisición de conocimiento de sentido común logró una precisión del 70% en 70 problemas seleccionados manualmente del conjunto de datos original de 273 esquemas de Winograd. ^[17] En junio de 2018, se logró una puntuación de precisión del 63,7% en el conjunto de datos completo utilizando un conjunto de modelos de lenguaje de redes neuronales recurrentes, ^[18] lo que marca el primer uso de redes neuronales profundas que aprenden de corpus independientes para adquirir conocimiento de sentido común. En 2019, se logró una puntuación del 90,1% en el conjunto de datos de esquemas de Winograd original mediante el ajuste fino del modelo de lenguaje BERT con datos de entrenamiento adecuados similares a WSC para evitar tener que aprender el razonamiento de sentido común. ^[10] El modelo de lenguaje general GPT-3 logró una puntuación del 88,3% sin un ajuste fino específico en 2020. ^[19]

En 2019 se diseñó un conjunto de datos "Winogrande" más desafiante y conflictivo de 44.000 problemas. Este conjunto de datos consta de oraciones con espacios en blanco para completar, a diferencia del formato de pronombres de los conjuntos de datos anteriores. ^[10]

Una versión del desafío del esquema de Winograd es una parte de la colección de desafíos de referencia GLUE ( Evaluación de comprensión del lenguaje general ) en comprensión automatizada del lenguaje natural . ^[20]

Referencias

^ Ackerman, Evan (29 de julio de 2014). "¿Pueden los esquemas de Winograd reemplazar la prueba de Turing para definir la IA a nivel humano?". IEEE Spectrum . Consultado el 29 de octubre de 2014 .
^ abc Levesque, HJ (2014). "Sobre nuestro mejor comportamiento". Inteligencia artificial . 212 : 27–35. doi : 10.1016/j.artint.2014.03.007 .
^ Kocijan, Vid; Davis, Ernest; Lukasiewicz, Thomas; Marcus, Gary; Morgenstern, Leora (11 de julio de 2023). "La derrota del desafío del esquema de Winograd". Inteligencia artificial . 325 : 103971. arXiv : 2201.02387 . doi :10.1016/j.artint.2023.103971. ISSN 0004-3702. S2CID 245827747.
^ ab Turing, Alan (octubre de 1950). «Computing Machinery and Intelligence» (PDF) . Mind . LIX (236): 433–460. doi :10.1093/mind/LIX.236.433 . Consultado el 28 de octubre de 2014 .
^ abc Levesque, Hector; Davis, Ernest; Morgenstern, Leora (2012). El desafío del esquema de Winograd. Actas de la Decimotercera Conferencia Internacional sobre Principios de Representación y Razonamiento del Conocimiento .
^ "Nuance anuncia el desafío Winograd Schemas para impulsar la innovación en inteligencia artificial". Business Wire . 28 de julio de 2014 . Consultado el 9 de noviembre de 2014 .
^ Michael, Julian (18 de mayo de 2015). La teoría de las fórmulas de correlación y su aplicación a la coherencia del discurso (tesis). UT Digital Repository. p. 6. hdl :2152/29979.
^ Winograd, Terry (enero de 1972). «Understanding Natural Language» (PDF) . Psicología cognitiva . 3 (1): 1–191. doi :10.1016/0010-0285(72)90002-3 . Consultado el 4 de noviembre de 2014 .
^ Davis, Ernest. "Una colección de esquemas de Winograd". cs.nyu.edu . NYU . Consultado el 30 de octubre de 2014 .
^ abc Sakaguchi, Keisuke; Le Brás, Ronan; Bhagavatula, Chandra; Choi, Yejin (2019). "WinoGrande: un desafío adversario del esquema de Winograd a escala". arXiv : 1907.10641 [cs.CL].
^ Boguslavsky, IM; Frolova, TI; Iomdin, LL; Lazursky, AV; Rygaev, IP; Timoshenko, SP (2019). "Enfoque basado en el conocimiento para el desafío de esquemas de Winograd" (PDF) . Actas de la Conferencia Internacional de Lingüística Computacional y Tecnologías Intelectuales . Moscú. El premio no pudo ser otorgado a nadie. La mayoría de los participantes mostraron un resultado cercano a la elección aleatoria o incluso peor. La segunda competencia programada para 2018 fue cancelada debido a la falta de posibles participantes.
^ "Desafío del esquema Winograd". CommonsenseReasoning.org . Consultado el 24 de enero de 2020 .
^ "Simposios de primavera de la AAAI 2015". Asociación para el Avance de la Inteligencia Artificial . Consultado el 1 de enero de 2015 .
^ Davis, Ernesto; Morgenstern, Leora; Ortiz, Charles (otoño de 2017). "El primer desafío del esquema de Winograd en IJCAI-16". Revista AI .
^ Liu, Quan; Jiang, Hui; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2016). "Incrustaciones mejoradas de conocimiento de sentido común para resolver problemas de desambiguación de pronombres en el desafío del esquema de Winograd". arXiv : 1611.04146 [cs.AI].
^ Morgenstern, Leora; Davis, Ernest; Ortiz, Charles L. (marzo de 2016). "Planificación, ejecución y evaluación del desafío del esquema Winograd". AI Magazine . 37 (1): 50–54. doi : 10.1609/aimag.v37i1.2639 . ISSN 0738-4602.
^ Liu, Quan; Jiang, Hui; Evdokimov, Andrew; Ling, Zhen-Hua; Zhu, Xiaodan; Wei, Si; Hu, Yu (2017). "Adquisición de conocimiento de causa-efecto y modelo de asociación neuronal para resolver un conjunto de problemas de esquema de Winograd". Actas de la vigésimo sexta conferencia conjunta internacional sobre inteligencia artificial . págs. 2344–2350. doi : 10.24963/ijcai.2017/326 . ISBN 9780999241103.
^ Trinh, Trieu H.; Le, Quoc V. (26 de septiembre de 2019). "Un método simple para el razonamiento de sentido común". arXiv : 1806.02847 [cs.AI].
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; et al. (2020). "Los modelos de lenguaje son aprendices de pocas oportunidades". arXiv : 2005.14165 [cs.CL].
^ "GLUE Benchmark". GlueBenchmark.com . Consultado el 30 de julio de 2019 .

Enlaces externos

Sitio web del concurso patrocinado por Nuance Communications
https://arxiv.org/abs/2201.02387