stringtranslate.com

Respuesta a preguntas

La respuesta a preguntas ( QA ) es una disciplina de las ciencias informáticas dentro de los campos de la recuperación de información y el procesamiento del lenguaje natural (PNL) que se ocupa de construir sistemas que respondan automáticamente a las preguntas planteadas por humanos en un lenguaje natural . [1]

Descripción general

Una implementación de respuesta a preguntas, generalmente un programa de computadora, puede construir sus respuestas consultando una base de datos estructurada de conocimiento o información, generalmente una base de conocimiento . Más comúnmente, los sistemas de respuesta a preguntas pueden obtener respuestas de una colección no estructurada de documentos en lenguaje natural.

Algunos ejemplos de colecciones de documentos en lenguaje natural utilizadas para sistemas de respuesta a preguntas incluyen:

Tipos de respuesta a preguntas

La investigación de respuesta a preguntas intenta desarrollar formas de responder a una amplia gama de tipos de preguntas, incluidas preguntas de hecho, de lista, de definición , de cómo, de por qué, hipotéticas, semánticamente restringidas y multilingües.

Otra forma de categorizar los sistemas de respuesta a preguntas es según el enfoque técnico utilizado. Hay varios tipos diferentes de sistemas de control de calidad, incluidos

Los sistemas basados ​​en reglas utilizan un conjunto de reglas para determinar la respuesta correcta a una pregunta. Los sistemas estadísticos utilizan métodos estadísticos para encontrar la respuesta más probable a una pregunta. Los sistemas híbridos utilizan una combinación de métodos estadísticos y basados ​​en reglas.

Historia

Dos de los primeros sistemas de respuesta a preguntas fueron BÉISBOL [4] y LUNAR. [5] BÉISBOL respondió preguntas sobre las Grandes Ligas de Béisbol durante un período de un año [ ambiguo ] . LUNAR respondió preguntas sobre el análisis geológico de las rocas devueltas por las misiones Apolo a la Luna. Ambos sistemas de respuesta a preguntas fueron muy eficaces en los dominios elegidos. LUNAR se demostró en una convención de ciencia lunar en 1971 y fue capaz de responder el 90% de las preguntas en su dominio planteadas por personas no capacitadas en el sistema. En los años siguientes se desarrollaron más sistemas de respuesta a preguntas de dominio restringido. La característica común de todos estos sistemas es que tenían una base de datos central o un sistema de conocimiento escrito a mano por expertos del dominio elegido. Las habilidades lingüísticas de BASEBALL y LUNAR utilizaron técnicas similares a ELIZA y DOCTOR , los primeros programas chatterbot .

SHRDLU fue un exitoso programa de respuesta a preguntas desarrollado por Terry Winograd a finales de los años 1960 y principios de los 1970. Simulaba el funcionamiento de un robot en un mundo de juguete (el "mundo de bloques") y ofrecía la posibilidad de hacerle preguntas al robot sobre el estado del mundo. La fortaleza de este sistema fue la elección de un dominio muy específico y un mundo muy simple con reglas de física que eran fáciles de codificar en un programa de computadora.

En la década de 1970, se desarrollaron bases de conocimiento dirigidas a dominios de conocimiento más limitados. Los sistemas de respuesta a preguntas desarrollados para interactuar con estos sistemas expertos produjeron respuestas más repetibles [ aclaración necesaria ] y válidas a las preguntas dentro de un área de conocimiento. Estos sistemas expertos se parecían mucho a los sistemas modernos de respuesta a preguntas, excepto en su arquitectura interna. Los sistemas expertos dependen en gran medida de bases de conocimiento organizadas y construidas por expertos , mientras que muchos sistemas modernos de respuesta a preguntas se basan en el procesamiento estadístico de un corpus de texto grande, no estructurado y en lenguaje natural.

Las décadas de 1970 y 1980 vieron el desarrollo de teorías integrales en lingüística computacional , que llevaron al desarrollo de proyectos ambiciosos en comprensión de textos y respuesta a preguntas. Un ejemplo fue el Unix Consultant (UC), desarrollado por Robert Wilensky en UC Berkeley a finales de los años 1980. El sistema respondió preguntas relacionadas con el sistema operativo Unix . Tenía una base de conocimientos integral y artesanal de su dominio y su objetivo era formular la respuesta para adaptarse a varios tipos de usuarios. Otro proyecto fue LILOG, un sistema de comprensión de textos que operaba en el ámbito de la información turística en una ciudad alemana. Los sistemas desarrollados en los proyectos UC y LILOG nunca pasaron de la etapa de simples demostraciones, pero ayudaron al desarrollo de teorías sobre lingüística y razonamiento computacional.

Se han desarrollado sistemas especializados de respuesta a preguntas en lenguaje natural, como EAGLi para científicos de la salud y la vida. [6]

Aplicaciones

Los sistemas de control de calidad se utilizan en una variedad de aplicaciones, incluidas

Arquitectura

A partir de 2001 , los sistemas de respuesta a preguntas normalmente incluían un módulo clasificador de preguntas que determinaba el tipo de pregunta y el tipo de respuesta. [7]

Los diferentes tipos de sistemas de respuesta a preguntas emplean arquitecturas diferentes. Por ejemplo, los sistemas modernos de respuesta a preguntas de dominio abierto pueden utilizar una arquitectura de lector-recuperador. El recuperador tiene como objetivo recuperar documentos relevantes relacionados con una pregunta determinada, mientras que el lector se utiliza para inferir la respuesta a partir de los documentos recuperados. Sistemas como GPT-3 , T5, [8] y BART [9] utilizan una arquitectura [ jerga ] de extremo a extremo en la que una arquitectura [ jerga ] basada en transformadores almacena datos textuales a gran escala en los parámetros subyacentes. Estos modelos pueden responder preguntas sin acceder a fuentes de conocimiento externas.

Métodos de respuesta a preguntas

La respuesta a las preguntas depende de un buen corpus de búsqueda ; sin documentos que contengan la respuesta, poco puede hacer un sistema de respuesta a preguntas. Las colecciones más grandes generalmente significan un mejor rendimiento en la respuesta a las preguntas, a menos que el dominio de la pregunta sea ortogonal a la colección. La redundancia de datos en colecciones masivas, como la web, significa que es probable que los fragmentos de información se expresen de muchas maneras diferentes en diferentes contextos y documentos, [10] lo que genera dos beneficios:

  1. Si la información correcta aparece en muchas formas, el sistema de respuesta a preguntas necesita realizar técnicas de PNL menos complejas para comprender el texto.
  2. Las respuestas correctas se pueden filtrar de los falsos positivos porque el sistema puede confiar en que las versiones de la respuesta correcta aparezcan más veces en el corpus que las incorrectas.

Algunos sistemas de respuesta a preguntas dependen en gran medida del razonamiento automatizado . [11] [12]

Respuesta a preguntas de dominio abierto

En la recuperación de información , un sistema de respuesta a preguntas de dominio abierto intenta devolver una respuesta a la pregunta del usuario. La respuesta devuelta se presenta en forma de textos breves en lugar de una lista de documentos relevantes. [13] El sistema encuentra respuestas utilizando una combinación de técnicas de lingüística computacional , recuperación de información y representación del conocimiento .

El sistema toma como entrada una pregunta en lenguaje natural en lugar de un conjunto de palabras clave, por ejemplo: "¿Cuándo es el día nacional de China?" Luego transforma esta oración de entrada en una consulta en su forma lógica . Aceptar preguntas en lenguaje natural hace que el sistema sea más fácil de usar, pero más difícil de implementar, ya que hay una variedad de tipos de preguntas y el sistema tendrá que identificar la correcta para poder dar una respuesta sensata. Asignar un tipo de pregunta a la pregunta es una tarea crucial; Todo el proceso de extracción de respuestas se basa en encontrar el tipo de pregunta correcto y, por tanto, el tipo de respuesta correcto.

La extracción de palabras clave es el primer paso para identificar el tipo de pregunta de entrada. [14] En algunos casos, las palabras indican claramente el tipo de pregunta, por ejemplo, "Quién", "Dónde", "Cuándo" o "Cuántos". Estas palabras pueden sugerir al sistema que las respuestas deben ser del tipo "Persona". ", "Ubicación", "Fecha" o "Número", respectivamente. Las técnicas de análisis sintáctico y etiquetado POS (parte del discurso) también pueden determinar el tipo de respuesta. En el ejemplo anterior, el tema es "Día Nacional Chino", el predicado es "es" y el modificador adverbial es "cuándo", por lo tanto el tipo de respuesta es "Fecha". Desafortunadamente, algunas palabras interrogativas como "Cuál", "Qué" o "Cómo" no corresponden a tipos de respuesta inequívocos: cada una puede representar más de un tipo. En situaciones como esta, es necesario considerar otras palabras de la pregunta. Se puede utilizar un diccionario léxico como WordNet para comprender el contexto.

Una vez que el sistema identifica el tipo de pregunta, utiliza un sistema de recuperación de información para encontrar un conjunto de documentos que contengan las palabras clave correctas. Un etiquetador y un fragmentador de NP/Verb Group pueden verificar si se mencionan las entidades y relaciones correctas en los documentos encontrados. Para preguntas como "Quién" o "Dónde", un reconocedor de entidad nombrada encuentra nombres de "Persona" y "Ubicación" relevantes en los documentos recuperados. Sólo se seleccionan los párrafos relevantes para la clasificación. [ se necesita aclaración ]

Un modelo de espacio vectorial puede clasificar las respuestas candidatas. Marque [ ¿quién? ] si la respuesta es del tipo correcto según lo determinado en la etapa de análisis del tipo de pregunta. Una técnica de inferencia puede validar las respuestas de los candidatos. Luego se otorga una puntuación a cada uno de estos candidatos de acuerdo con la cantidad de palabras interrogativas que contiene y qué tan cerca están estas palabras del candidato; cuanto más y más cerca, mejor. Luego, la respuesta se traduce mediante análisis en una representación compacta y significativa. En el ejemplo anterior, la respuesta de salida esperada es "1 de octubre".

Respuesta a preguntas matemáticas.

En 2018 se publicó un sistema de respuesta a preguntas de código abierto y compatible con las matemáticas llamado MathQA , basado en Ask Platypus y Wikidata . [15] MathQA toma una pregunta en idioma natural en inglés o hindi como entrada y devuelve una fórmula matemática recuperada de Wikidata como una respuesta sucinta, traducida a una forma computable que permite al usuario insertar valores para las variables. El sistema recupera nombres y valores de variables y constantes comunes de Wikidata si están disponibles. Se afirma que el sistema supera a un motor de conocimiento matemático computacional comercial en un conjunto de prueba. [15] MathQA está alojado en Wikimedia en https://mathqa.wmflabs.org/. En 2022, se amplió para responder a 15 tipos de preguntas de matemáticas. [dieciséis]

Los métodos de MathQA deben combinar lenguaje natural y de fórmulas. Un enfoque posible es realizar anotaciones supervisadas a través de Entity Linking . La "Tarea ARQMath" en CLEF 2020 [17] se lanzó para abordar el problema de vincular las preguntas recién publicadas desde la plataforma Math Stack Exchange con las existentes que ya fueron respondidas por la comunidad. Proporcionar hipervínculos a preguntas ya respondidas y relacionadas semánticamente ayuda a los usuarios a obtener respuestas antes, pero es un problema desafiante porque la relación semántica no es trivial. [18] El laboratorio fue motivado por el hecho de que el 20% de las consultas matemáticas en los motores de búsqueda de propósito general se expresan como preguntas bien formadas. [19] El desafío contenía dos subtareas separadas. Tarea 1: "Recuperación de respuestas" que relaciona las respuestas de publicaciones antiguas con preguntas recién planteadas, y Tarea 2: "Recuperación de fórmulas" que relaciona las fórmulas de publicaciones antiguas con preguntas nuevas. Comenzando con el dominio de las matemáticas, que involucra el lenguaje de fórmulas, el objetivo es extender luego la tarea a otros dominios (por ejemplo, disciplinas STEM, como la química, la biología, etc.), que emplean otros tipos de notación especial (por ejemplo, la notación química). fórmulas). [17] [18]

También se ha investigado lo contrario de la respuesta a preguntas matemáticas: la generación de preguntas matemáticas. El motor de prueba y generación de preguntas de física PhysWikiQuiz recupera fórmulas matemáticas de Wikidata junto con información semántica sobre sus identificadores constituyentes (nombres y valores de variables). [20] Luego, las fórmulas se reorganizan para generar un conjunto de variantes de fórmula. Posteriormente, las variables se sustituyen por valores aleatorios para generar una gran cantidad de preguntas diferentes adecuadas para las pruebas individuales de los estudiantes. PhysWikiquiz está alojado en Wikimedia en https://physwikiquiz.wmflabs.org/.

Progreso

Los sistemas de respuesta a preguntas se han ampliado en los últimos años [ pueden quedar obsoletos a partir de abril de 2023 ] para abarcar dominios de conocimiento adicionales [21] Por ejemplo, se han desarrollado sistemas para responder automáticamente preguntas temporales y geoespaciales, preguntas de definición y terminología, preguntas biográficas. , preguntas multilingües y preguntas sobre el contenido de audio, imágenes, [22] y vídeo. [23] Los temas de investigación actuales que responden a preguntas incluyen:

En 2011, Watson , un sistema informático de respuesta a preguntas desarrollado por IBM , compitió en dos partidos de exhibición de Jeopardy! contra Brad Rutter y Ken Jennings , ganando por un margen significativo. [32] Facebook Research puso su sistema DrQA [33] disponible bajo una licencia de código abierto . Este sistema utiliza Wikipedia como fuente de conocimiento. [2] El marco de código abierto Haystack de deepset combina la respuesta a preguntas de dominio abierto con la respuesta generativa a preguntas y admite la adaptación del dominio [ aclaración necesaria ] de los modelos de lenguaje subyacentes [ aclaración necesaria ] para casos de uso de la industria [ vagos ] .[34] [35]

Referencias

  1. ^ Philipp Cimiano; Cristina Unger; John McCrae (1 de marzo de 2014). Interpretación del lenguaje natural basada en ontologías. Editores Morgan y Claypool. ISBN 978-1-60845-990-2.
  2. ^ ab Chen, Danqi; Fisch, Adán; Weston, Jason; Bordes, Antoine (2017). "Leer Wikipedia para responder preguntas de dominio abierto". arXiv : 1704.00051 [cs.CL].
  3. ^ Roser Morante, Martín Krallinger, Alfonso Valencia y Walter Daelemans. Lectura automática de textos biomédicos sobre la enfermedad de Alzheimer. Taller y laboratorios de evaluación CLEF 2012. 17 de septiembre de 2012
  4. ^ VERDE JR, Bert F; et al. (1961). "Béisbol: un contestador automático de preguntas" (PDF) . Conferencia informática conjunta occidental IRE-AIEE-ACM : 219–224.
  5. ^ Bosques, William A; Kaplan, R. (1977). "Rocas lunares en inglés natural: exploraciones en respuesta a preguntas en lenguaje natural". Procesamiento de estructuras lingüísticas 5 . 5 : 521–569.
  6. ^ "Plataforma EAGLi - Respuesta a preguntas en MEDLINE". candy.hesge.ch . Consultado el 2 de diciembre de 2021 .
  7. ^ Hirschman, L. & Gaizauskas, R. (2001) Respuesta a preguntas en lenguaje natural. La vista desde aquí. Ingeniería del lenguaje natural (2001), 7:4:275-300 Cambridge University Press.
  8. ^ Raffel, Colin; Shazeer, Noam; Roberts, Adán; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2019). "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto". arXiv : 1910.10683 [cs.LG].
  9. ^ Lewis, Mike; Liu, Yinhan; Goyal, Naman; Ghazvininejad, Marjan; Mohamed, Abdelrahman; Levy, Omer; Stoyanov, Ves; Zettlemoyer, Lucas (2019). "BART: preentrenamiento de eliminación de ruido de secuencia a secuencia para la generación, traducción y comprensión del lenguaje natural". arXiv : 1910.13461 [cs.CL].
  10. ^ Lin, J. (2002). La Web como recurso para responder preguntas: perspectivas y desafíos. En Actas de la Tercera Conferencia Internacional sobre Evaluación y Recursos Lingüísticos (LREC 2002).
  11. ^ Moldavo, Dan y col. "Cogex: un probador lógico para responder preguntas". Actas de la Conferencia de 2003 del Capítulo Norteamericano de la Asociación de Lingüística Computacional sobre Tecnología del Lenguaje Humano-Volumen 1. Asociación de Lingüística Computacional, 2003.
  12. ^ Furbach, Ulrich, Ingo Glöckner y Björn Pelzer. "Una aplicación de razonamiento automatizado en la respuesta a preguntas en lenguaje natural". Comunicaciones Ai 23.2-3 (2010): 241–265.
  13. ^ Sol, haitiano; Dhingra, Bhuwan; Zaheer, Manzil; Mazaitis, Kathryn; Salakhutdinov, Ruslan; Cohen, William (2018). "Respuesta a preguntas de dominio abierto mediante la fusión temprana de bases de conocimiento y texto". Actas de la Conferencia de 2018 sobre métodos empíricos en el procesamiento del lenguaje natural . Bruselas, Belgica. págs. 4231–4242. arXiv : 1809.00782 . doi :10.18653/v1/D18-1455. S2CID  52154304.{{cite book}}: Mantenimiento CS1: falta el editor de la ubicación ( enlace )
  14. ^ Harabagiu, Sanda; Hickl, Andrés (2006). "Métodos para utilizar la vinculación textual en la respuesta a preguntas de dominio abierto". Actas de la 21ª Conferencia Internacional sobre Lingüística Computacional y la 44ª reunión anual de ACL-ACL '06 . págs. 905–912. doi : 10.3115/1220175.1220289 .
  15. ^ ab Moritz Schubotz; Philipp Scharpf; et al. (12 de septiembre de 2018). "Presentación de MathQA: un sistema de respuesta a preguntas compatible con las matemáticas". Descubrimiento y entrega de información . Esmeralda Publishing Limited. 46 (4): 214–224. arXiv : 1907.01642 . doi : 10.1108/IDD-06-2018-0022 .
  16. ^ Scharpf, P. Schubotz, M. Gipp, B. Minería de documentos matemáticos para responder preguntas mediante etiquetado de fórmulas no supervisadas Conferencia conjunta ACM/IEEE sobre bibliotecas digitales, 2022.
  17. ^ ab Zanibbi, Richard; Oard, Douglas W.; Agarwal, Anurag; Mansouri, Behrooz (2020), "Descripción general de ARQMath 2020: CLEF Lab sobre recuperación de respuestas para preguntas sobre matemáticas", La IR experimental se une al multilingüismo, la multimodalidad y la interacción, Lecture Notes in Computer Science, vol. 12260, Cham: Springer International Publishing, págs. 169–193, doi :10.1007/978-3-030-58219-7_15, ISBN 978-3-030-58218-0, S2CID  221351064 , consultado el 9 de junio de 2021
  18. ^ ab Scharpf; et al. (2020-12-04). ARQMath Lab: ¿Una incubadora para la búsqueda de fórmulas semánticas en zbMATH Open?. OCLC  1228449497.
  19. ^ Mansouri, Behrooz; Zanibbi, Richard; Oard, Douglas W. (junio de 2019). "Caracterización de búsquedas de conceptos matemáticos". Conferencia conjunta ACM/IEEE de 2019 sobre bibliotecas digitales (JCDL) . IEEE. págs. 57–66. doi :10.1109/jcdl.2019.00019. ISBN 978-1-7281-1547-4. S2CID  198972305.
  20. ^ Scharpf, Philipp; Schubotz, Moritz; Spitz, Andreas; Greiner-Petter, André; Gipp, Bela (2022). "Generación de preguntas de examen colaborativa y asistida por IA utilizando Wikidata en educación". arXiv : 2211.08361 . doi :10.13140/RG.2.2.30988.18568. S2CID  253270181. {{cite journal}}: Citar diario requiere |journal=( ayuda )
  21. ^ Pašca, Marius (2005). "Reseña del libro Nuevas direcciones en la respuesta a preguntas Mark T. Maybury (editor) (MITRE Corporation) Menlo Park, CA: AAAI Press y Cambridge, MA: The MIT Press, 2004, xi+336 págs; encuadernado en papel, ISBN 0-262-63304 -3, $40,00, £25,95". Ligüística computacional . 31 (3): 413–417. doi : 10.1162/089120105774321055 . S2CID  12705839.
  22. ^ ab Anderson, Peter y col. "Atención de abajo hacia arriba y de arriba hacia abajo para subtítulos de imágenes y respuesta visual a preguntas". Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones. 2018.
  23. ^ Zhu, Linchao; Xu, Zhongwen; Yang, Yi; Hauptmann, Alexander G. (2015). "Descubrir el contexto temporal para preguntas y respuestas en vídeo". arXiv : 1511.04670 [cs.CV].
  24. ^ Quarteroni, Silvia y Suresh Manandhar. "Diseño de un sistema interactivo de respuesta a preguntas de dominio abierto". Ingeniería del lenguaje natural 15.1 (2009): 73–95.
  25. ^ Luz, Marc y col. "Reutilización en la respuesta a preguntas: un estudio preliminar". Nuevas direcciones en la respuesta a preguntas. 2003.
  26. ^ Yih, Wen-tau, Xiaodong He y Christopher Meek. "Análisis semántico para responder preguntas de relación única". Actas de la 52ª Reunión Anual de la Asociación de Lingüística Computacional (Volumen 2: Artículos breves). 2014.
  27. ^ Perera, R., Nand, P. y Naeem, A. 2017. Utilización de patrones de subárbol de dependencia tipificados para la generación de oraciones de respuesta en sistemas de respuesta de preguntas.
  28. ^ de Salvo Braz, Rodrigo, et al. "Un modelo de inferencia para la implicación semántica en el lenguaje natural". Taller Desafíos del Aprendizaje Automático. Springer, Berlín, Heidelberg, 2005.
  29. ^ "BitCrawl de Hobson Lane". Archivado desde el original el 27 de octubre de 2012 . Consultado el 29 de mayo de 2012 .{{cite web}}: Mantenimiento CS1: bot: estado de la URL original desconocido ( enlace )
  30. ^ Perera, R. y Perera, U. 2012. Hacia un modelo de identificación de objetivos basado en roles temáticos para responder preguntas. Archivado el 4 de marzo de 2016 en Wayback Machine.
  31. ^ Das, Abhishek y otros. "Respuesta a preguntas encarnadas". Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones. 2018.
  32. ^ Markoff, John (16 de febrero de 2011). "En 'Jeopardy!' Watson Win es casi trivial". Los New York Times .
  33. ^ "DrQA".
  34. ^ Tunstall, Lewis (5 de julio de 2022). Procesamiento del lenguaje natural con transformadores: creación de aplicaciones de lenguaje abrazando la cara (2ª ed.). O'Reilly Reino Unido Ltd. pág. Capítulo 7. ISBN 978-1098136796.
  35. ^ "Documentación del pajar". profundamente hundido . Consultado el 4 de noviembre de 2022 .

Otras lecturas

enlaces externos