stringtranslate.com

Respuesta a preguntas

La respuesta a preguntas ( QA ) es una disciplina de la informática dentro de los campos de recuperación de información y procesamiento del lenguaje natural (NLP) que se ocupa de construir sistemas que respondan automáticamente preguntas planteadas por humanos en un lenguaje natural . [1]

Descripción general

Una implementación de preguntas y respuestas, generalmente un programa informático, puede construir sus respuestas consultando una base de datos estructurada de conocimiento o información, generalmente una base de conocimiento . Más comúnmente, los sistemas de preguntas y respuestas pueden extraer respuestas de una colección no estructurada de documentos en lenguaje natural.

Algunos ejemplos de colecciones de documentos en lenguaje natural utilizados para sistemas de respuesta a preguntas incluyen:

Tipos de preguntas y respuestas

La investigación de preguntas y respuestas intenta desarrollar formas de responder a una amplia gama de tipos de preguntas, incluidas preguntas sobre hechos, listas, definiciones , cómo, por qué, hipotéticas, semánticamente restringidas y translingüísticas.

Otra forma de clasificar los sistemas de preguntas y respuestas es según el enfoque técnico utilizado. Existen distintos tipos de sistemas de control de calidad, entre ellos:

Los sistemas basados ​​en reglas utilizan un conjunto de reglas para determinar la respuesta correcta a una pregunta. Los sistemas estadísticos utilizan métodos estadísticos para encontrar la respuesta más probable a una pregunta. Los sistemas híbridos utilizan una combinación de métodos estadísticos y basados ​​en reglas.

Historia

Dos de los primeros sistemas de respuesta a preguntas fueron BASEBALL [4] y LUNAR. [5] BASEBALL respondió preguntas sobre las Grandes Ligas de Béisbol durante un período de un año [ ambiguo ] . LUNAR respondió preguntas sobre el análisis geológico de las rocas devueltas por las misiones Apolo a la Luna. Ambos sistemas de respuesta a preguntas fueron muy eficaces en sus dominios elegidos. LUNAR se demostró en una convención de ciencia lunar en 1971 y pudo responder al 90% de las preguntas en su dominio que fueron planteadas por personas no capacitadas en el sistema. En los años siguientes se desarrollaron otros sistemas de respuesta a preguntas de dominio restringido. La característica común de todos estos sistemas es que tenían una base de datos central o un sistema de conocimiento que fue escrito a mano por expertos del dominio elegido. Las habilidades lingüísticas de BASEBALL y LUNAR usaban técnicas similares a ELIZA y DOCTOR , los primeros programas chatterbot .

SHRDLU fue un exitoso programa de preguntas y respuestas desarrollado por Terry Winograd a finales de los años 1960 y principios de los años 1970. Simulaba el funcionamiento de un robot en un mundo de juguete (el "mundo de los bloques") y ofrecía la posibilidad de formularle preguntas sobre el estado del mundo. La fortaleza de este sistema era la elección de un dominio muy específico y un mundo muy simple con reglas de física que eran fáciles de codificar en un programa informático.

En la década de 1970, se desarrollaron bases de conocimiento que apuntaban a dominios de conocimiento más estrechos. Los sistemas de respuesta a preguntas desarrollados para interactuar con estos sistemas expertos produjeron respuestas más repetibles [ necesitaban aclaración ] y válidas a las preguntas dentro de un área de conocimiento. Estos sistemas expertos se parecían mucho a los sistemas de respuesta a preguntas modernos, excepto en su arquitectura interna. Los sistemas expertos dependen en gran medida de bases de conocimiento construidas y organizadas por expertos , mientras que muchos sistemas de respuesta a preguntas modernos se basan en el procesamiento estadístico de un corpus de texto grande, no estructurado y en lenguaje natural.

En los años 1970 y 1980 se desarrollaron teorías integrales en lingüística computacional , que llevaron al desarrollo de proyectos ambiciosos en comprensión de textos y respuesta a preguntas. Un ejemplo fue Unix Consultant (UC), desarrollado por Robert Wilensky en UC Berkeley a fines de los años 1980. El sistema respondía preguntas relacionadas con el sistema operativo Unix . Tenía una base de conocimiento integral y elaborada a mano de su dominio, y apuntaba a formular la respuesta para adaptarse a varios tipos de usuarios. Otro proyecto fue LILOG, un sistema de comprensión de textos que operaba en el dominio de la información turística en una ciudad alemana. Los sistemas desarrollados en los proyectos UC y LILOG nunca pasaron de la etapa de simples demostraciones, pero ayudaron al desarrollo de teorías sobre lingüística computacional y razonamiento.

Se han desarrollado sistemas especializados de respuesta a preguntas en lenguaje natural, como EAGLi para científicos de la salud y la vida. [6]

Aplicaciones

Los sistemas de control de calidad se utilizan en una variedad de aplicaciones, incluidas

Arquitectura

A partir de 2001 , los sistemas de preguntas y respuestas generalmente incluían un módulo clasificador de preguntas que determinaba el tipo de pregunta y el tipo de respuesta. [7]

Los distintos tipos de sistemas de respuesta a preguntas emplean diferentes arquitecturas. Por ejemplo, los sistemas de respuesta a preguntas de dominio abierto modernos pueden utilizar una arquitectura de recuperador-lector. El recuperador tiene como objetivo recuperar documentos relevantes relacionados con una pregunta dada, mientras que el lector se utiliza para inferir la respuesta a partir de los documentos recuperados. Sistemas como GPT-3 , T5, [8] y BART [9] utilizan una arquitectura de extremo a extremo [ jerga ] en la que una arquitectura basada en transformadores [ jerga ] almacena datos textuales a gran escala en los parámetros subyacentes. Dichos modelos pueden responder preguntas sin acceder a ninguna fuente de conocimiento externa.

Métodos de respuesta a preguntas

La respuesta a preguntas depende de un buen corpus de búsqueda ; sin documentos que contengan la respuesta, poco puede hacer cualquier sistema de respuesta a preguntas. Las colecciones más grandes generalmente significan un mejor rendimiento de respuesta a preguntas, a menos que el dominio de la pregunta sea ortogonal a la colección. La redundancia de datos en colecciones masivas, como la web, significa que es probable que fragmentos de información se redacten de muchas maneras diferentes en diferentes contextos y documentos, [10] lo que genera dos beneficios:

  1. Si la información correcta aparece en muchas formas, el sistema de respuesta a preguntas necesita realizar menos técnicas complejas de PNL para comprender el texto.
  2. Las respuestas correctas se pueden filtrar de los falsos positivos porque el sistema puede confiar en que las versiones de la respuesta correcta aparecen más veces en el corpus que las incorrectas.

Algunos sistemas de respuesta a preguntas dependen en gran medida del razonamiento automatizado . [11] [12]

Preguntas y respuestas de dominio abierto

En la recuperación de información , un sistema de respuesta a preguntas de dominio abierto intenta devolver una respuesta a la pregunta del usuario. La respuesta devuelta se presenta en forma de textos cortos en lugar de una lista de documentos relevantes. [13] El sistema encuentra respuestas utilizando una combinación de técnicas de lingüística computacional , recuperación de información y representación del conocimiento .

El sistema toma una pregunta en lenguaje natural como entrada en lugar de un conjunto de palabras clave, por ejemplo: "¿Cuándo es el día nacional de China?" Luego transforma esta oración de entrada en una consulta en su forma lógica . Aceptar preguntas en lenguaje natural hace que el sistema sea más fácil de usar, pero más difícil de implementar, ya que hay una variedad de tipos de preguntas y el sistema tendrá que identificar la correcta para dar una respuesta sensata. Asignar un tipo de pregunta a la pregunta es una tarea crucial; todo el proceso de extracción de respuestas se basa en encontrar el tipo de pregunta correcto y, por lo tanto, el tipo de respuesta correcto.

La extracción de palabras clave es el primer paso para identificar el tipo de pregunta de entrada. [14] En algunos casos, las palabras indican claramente el tipo de pregunta, por ejemplo, "Quién", "Dónde", "Cuándo" o "Cuántos"; estas palabras pueden sugerir al sistema que las respuestas deben ser del tipo "Persona", "Ubicación", "Fecha" o "Número", respectivamente. Las técnicas de etiquetado POS (partes del discurso) y de análisis sintáctico también pueden determinar el tipo de respuesta. En el ejemplo anterior, el sujeto es "Día Nacional Chino", el predicado es "es" y el modificador adverbial es "cuándo", por lo tanto, el tipo de respuesta es "Fecha". Desafortunadamente, algunas palabras interrogativas como "Cuál", "Qué" o "Cómo" no corresponden a tipos de respuesta inequívocos: cada una puede representar más de un tipo. En situaciones como esta, es necesario considerar otras palabras en la pregunta. Se puede utilizar un diccionario léxico como WordNet para comprender el contexto.

Una vez que el sistema identifica el tipo de pregunta, utiliza un sistema de recuperación de información para encontrar un conjunto de documentos que contienen las palabras clave correctas. Un etiquetador y un fragmentador de grupos de verbos/NP pueden verificar si se mencionan las entidades y relaciones correctas en los documentos encontrados. Para preguntas como "Quién" o "Dónde", un reconocedor de entidades nombradas encuentra los nombres de "Persona" y "Ubicación" relevantes en los documentos recuperados. Solo se seleccionan los párrafos relevantes para la clasificación. [ aclaración necesaria ]

Un modelo de espacio vectorial puede clasificar las respuestas de los candidatos. Compruebe [ ¿quién? ] si la respuesta es del tipo correcto, tal como se determinó en la etapa de análisis del tipo de pregunta. Una técnica de inferencia puede validar las respuestas de los candidatos. Luego, se otorga una puntuación a cada uno de estos candidatos según la cantidad de palabras interrogativas que contiene y qué tan cerca están estas palabras del candidato: cuanto más y más cerca, mejor. Luego, la respuesta se traduce mediante análisis en una representación compacta y significativa. En el ejemplo anterior, la respuesta de salida esperada es "1 de octubre".

Respuesta a preguntas matemáticas

En 2018 se publicó un sistema de respuesta a preguntas de código abierto y con reconocimiento matemático llamado MathQA , basado en Ask Platypus y Wikidata . [15] MathQA toma una pregunta en lenguaje natural en inglés o hindi como entrada y devuelve una fórmula matemática recuperada de Wikidata como una respuesta sucinta, traducida a una forma computable que permite al usuario insertar valores para las variables. El sistema recupera nombres y valores de variables y constantes comunes de Wikidata si están disponibles. Se afirma que el sistema supera a un motor de conocimiento matemático computacional comercial en un conjunto de pruebas. [15] MathQA está alojado por Wikimedia en https://mathqa.wmflabs.org/. En 2022, se amplió para responder 15 tipos de preguntas matemáticas. [16]

Los métodos de MathQA necesitan combinar lenguaje natural y de fórmulas. Un enfoque posible es realizar anotaciones supervisadas a través de Entity Linking . La "Tarea ARQMath" en CLEF 2020 [17] se lanzó para abordar el problema de vincular preguntas recién publicadas desde la plataforma Math Stack Exchange con las existentes que ya fueron respondidas por la comunidad. Proporcionar hipervínculos a preguntas ya respondidas y semánticamente relacionadas ayuda a los usuarios a obtener respuestas antes, pero es un problema desafiante porque la relación semántica no es trivial. [18] El laboratorio estuvo motivado por el hecho de que el 20% de las consultas matemáticas en los motores de búsqueda de propósito general se expresan como preguntas bien formuladas. [19] El desafío contenía dos subtareas separadas. Tarea 1: "Recuperación de respuestas" que combina las respuestas de publicaciones antiguas con las preguntas recién planteadas, y Tarea 2: "Recuperación de fórmulas" que combina las fórmulas de publicaciones antiguas con las preguntas nuevas. Comenzando con el dominio de las matemáticas, que involucra el lenguaje de fórmulas, el objetivo es luego extender la tarea a otros dominios (por ejemplo, disciplinas STEM, como química, biología, etc.), que emplean otros tipos de notación especial (por ejemplo, fórmulas químicas). [17] [18]

También se ha investigado la inversa de la respuesta a preguntas matemáticas: la generación de preguntas matemáticas. El motor de generación y prueba de preguntas de física PhysWikiQuiz recupera fórmulas matemáticas de Wikidata junto con información semántica sobre sus identificadores constituyentes (nombres y valores de las variables). [20] Luego, las fórmulas se reorganizan para generar un conjunto de variantes de fórmulas. Posteriormente, las variables se sustituyen con valores aleatorios para generar una gran cantidad de preguntas diferentes adecuadas para pruebas de estudiantes individuales. PhysWikiquiz está alojado por Wikimedia en https://physwikiquiz.wmflabs.org/.

Progreso

Los sistemas de respuesta a preguntas se han ampliado en los últimos años [ pueden estar obsoletos a partir de abril de 2023 ] para abarcar dominios adicionales de conocimiento [21] Por ejemplo, se han desarrollado sistemas para responder automáticamente preguntas temporales y geoespaciales, preguntas de definición y terminología, preguntas biográficas, preguntas multilingües y preguntas sobre el contenido de audio, imágenes [22] y video. [23] Los temas de investigación actuales de respuesta a preguntas incluyen:

En 2011, Watson , un sistema informático de respuesta a preguntas desarrollado por IBM , compitió en dos partidos de exhibición de Jeopardy! contra Brad Rutter y Ken Jennings , ganando por un margen significativo. [32] Facebook Research puso a disposición su sistema DrQA [33] bajo una licencia de código abierto . Este sistema utiliza Wikipedia como fuente de conocimiento. [2] El marco de código abierto Haystack de deepset combina la respuesta a preguntas de dominio abierto con la respuesta a preguntas generativas y admite la adaptación de dominio [ aclaración necesaria ] de los modelos de lenguaje subyacentes [ aclaración necesaria ] para casos de uso de la industria [ vago ] . [34] [35]

Referencias

  1. ^ Philipp Cimiano; Christina Unger; John McCrae (1 de marzo de 2014). Interpretación del lenguaje natural basada en ontologías. Morgan & Claypool Publishers. ISBN 978-1-60845-990-2.
  2. ^ ab Chen, Danqi; Fisch, Adam; Weston, Jason; Bordes, Antoine (2017). "Leer Wikipedia para responder preguntas de dominio abierto". arXiv : 1704.00051 [cs.CL].
  3. ^ Roser Morante, Martin Krallinger, Alfonso Valencia y Walter Daelemans. Lectura automática de textos biomédicos sobre la enfermedad de Alzheimer. Laboratorios y talleres de evaluación de CLEF 2012. 17 de septiembre de 2012
  4. ^ GREEN JR, Bert F; et al. (1961). "Béisbol: un sistema automático de preguntas y respuestas" (PDF) . Conferencia informática conjunta IRE-AIEE-ACM del Oeste : 219–224.
  5. ^ Woods, William A; Kaplan, R. (1977). "Rocas lunares en inglés natural: exploraciones en la respuesta a preguntas en lenguaje natural". Procesamiento de estructuras lingüísticas 5. 5 : 521–569.
  6. ^ "Plataforma EAGLi: preguntas y respuestas en MEDLINE". candy.hesge.ch . Consultado el 2 de diciembre de 2021 .
  7. ^ Hirschman, L. y Gaizauskas, R. (2001) Respuestas a preguntas en lenguaje natural. La perspectiva desde aquí. Ingeniería del lenguaje natural (2001), 7:4:275-300 Cambridge University Press.
  8. ^ Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei; Liu, Peter J. (2019). "Explorando los límites del aprendizaje por transferencia con un transformador unificado de texto a texto". arXiv : 1910.10683 [cs.LG].
  9. ^ Lewis, Mike; Liu, Yinhan; Goyal, Naman; Ghazvininejad, Marjan; Mohamed, Abdelrahman; Levy, Omer; Stoyanov, Ves; Zettlemoyer, Luke (2019). "BART: preentrenamiento secuencia a secuencia para la generación, traducción y comprensión de lenguaje natural". arXiv : 1910.13461 [cs.CL].
  10. ^ Lin, J. (2002). La Web como recurso para la búsqueda de respuestas: perspectivas y desafíos. En Actas de la Tercera Conferencia Internacional sobre Recursos y Evaluación Lingüística (LREC 2002).
  11. ^ Moldovan, Dan, et al. "Cogex: un probador lógico para la respuesta a preguntas". Actas de la Conferencia de 2003 del Capítulo norteamericano de la Asociación de Lingüística Computacional sobre tecnología del lenguaje humano, volumen 1. Asociación de Lingüística Computacional, 2003.
  12. ^ Furbach, Ulrich, Ingo Glöckner y Björn Pelzer. "Una aplicación del razonamiento automatizado en la respuesta a preguntas en lenguaje natural". Ai Communications 23.2-3 (2010): 241–265.
  13. ^ Sun, Haitian; Dhingra, Bhuwan; Zaheer, Manzil; Mazaitis, Kathryn; Salakhutdinov, Ruslan; Cohen, William (2018). "Respuesta a preguntas de dominio abierto mediante fusión temprana de bases de conocimiento y texto". Actas de la Conferencia de 2018 sobre métodos empíricos en procesamiento del lenguaje natural . Bruselas, Bélgica. págs. 4231–4242. arXiv : 1809.00782 . doi :10.18653/v1/D18-1455. S2CID  52154304.{{cite book}}: Mantenimiento de CS1: falta la ubicación del editor ( enlace )
  14. ^ Harabagiu, Sanda; Hickl, Andrew (2006). "Métodos para usar implicación textual en la respuesta a preguntas de dominio abierto". Actas de la 21.ª Conferencia Internacional sobre Lingüística Computacional y la 44.ª reunión anual de la ACL - ACL '06 . págs. 905–912. doi : 10.3115/1220175.1220289 .
  15. ^ ab Moritz Schubotz; Philipp Scharpf; et al. (12 de septiembre de 2018). "Introducción de MathQA: un sistema de respuesta a preguntas con reconocimiento matemático". Descubrimiento y entrega de información . 46 (4). Emerald Publishing Limited: 214–224. arXiv : 1907.01642 . doi : 10.1108/IDD-06-2018-0022 .
  16. ^ Scharpf, P. Schubotz, M. Gipp, B. Extracción de documentos matemáticos para responder preguntas mediante etiquetado de fórmulas no supervisado Conferencia conjunta ACM/IEEE sobre bibliotecas digitales, 2022.
  17. ^ ab Zanibbi, Richard; Oard, Douglas W.; Agarwal, Anurag; Mansouri, Behrooz (2020), "Descripción general de ARQMath 2020: Laboratorio CLEF sobre recuperación de respuestas para preguntas sobre matemáticas", IR experimental se encuentra con el multilingüismo, la multimodalidad y la interacción, Lecture Notes in Computer Science, vol. 12260, Cham: Springer International Publishing, págs. 169–193, doi :10.1007/978-3-030-58219-7_15, ISBN 978-3-030-58218-0, S2CID  221351064 , consultado el 9 de junio de 2021
  18. ^ ab Scharpf; et al. (4 de diciembre de 2020). ARQMath Lab: una incubadora para la búsqueda de fórmulas semánticas en zbMATH Open?. OCLC  1228449497.
  19. ^ Mansouri, Behrooz; Zanibbi, Richard; Oard, Douglas W. (junio de 2019). "Caracterización de búsquedas de conceptos matemáticos". Conferencia conjunta ACM/IEEE sobre bibliotecas digitales (JCDL) de 2019. IEEE. págs. 57–66. doi :10.1109/jcdl.2019.00019. ISBN 978-1-7281-1547-4.S2CID 198972305  .
  20. ^ Scharpf, Philipp; Schubotz, Moritz; Spitz, Andreas; Greiner-Petter, Andre; Gipp, Bela (2022). "Generación colaborativa y asistida por IA de preguntas de examen utilizando Wikidata en educación". arXiv : 2211.08361 . doi :10.13140/RG.2.2.30988.18568. S2CID  253270181. {{cite journal}}: Requiere citar revista |journal=( ayuda )
  21. ^ Paşca, Marius (2005). "Reseña del libro New Directions in Question Answering Mark T. Maybury (editor) (MITRE Corporation) Menlo Park, CA: AAAI Press y Cambridge, MA: The MIT Press, 2004, xi+336 pp; encuadernado en rústica, ISBN 0-262-63304-3, $40.00, £25.95". Lingüística computacional . 31 (3): 413–417. doi : 10.1162/089120105774321055 . S2CID  12705839.
  22. ^ ab Anderson, Peter, et al. "Atención de abajo a arriba y de arriba a abajo para subtítulos de imágenes y respuestas visuales a preguntas". Actas de la Conferencia IEEE sobre Visión artificial y reconocimiento de patrones. 2018.
  23. ^ Zhu, Linchao; Xu, Zhongwen; Yang, Yi; Hauptmann, Alexander G. (2015). "Descubrimiento del contexto temporal para preguntas y respuestas en video". arXiv : 1511.04670 [cs.CV].
  24. ^ Quarteroni, Silvia y Suresh Manandhar. "Diseño de un sistema interactivo de preguntas y respuestas de dominio abierto". Natural Language Engineering 15.1 (2009): 73–95.
  25. ^ Light, Marc, et al. "Reutilización en la respuesta a preguntas: un estudio preliminar". Nuevas direcciones en la respuesta a preguntas. 2003.
  26. ^ Yih, Wen-tau, Xiaodong He y Christopher Meek. "Análisis semántico para la respuesta a preguntas de relación única". Actas de la 52.ª reunión anual de la Asociación de Lingüística Computacional (volumen 2: artículos breves). 2014.
  27. ^ Perera, R., Nand, P. y Naeem, A. 2017. Utilización de patrones de subárboles de dependencia tipificados para la generación de oraciones de respuesta en sistemas de respuesta a preguntas.
  28. ^ de Salvo Braz, Rodrigo, et al. "Un modelo de inferencia para la implicación semántica en lenguaje natural". Taller sobre desafíos del aprendizaje automático. Springer, Berlín, Heidelberg, 2005.
  29. ^ "BitCrawl por Hobson Lane". Archivado desde el original el 27 de octubre de 2012. Consultado el 29 de mayo de 2012 .{{cite web}}: CS1 maint: bot: estado de URL original desconocido ( enlace )
  30. ^ Perera, R. y Perera, U. 2012. Hacia un modelo de identificación de objetivos basado en roles temáticos para la respuesta a preguntas. Archivado el 4 de marzo de 2016 en Wayback Machine.
  31. ^ Das, Abhishek, et al. "Respuestas a preguntas incorporadas". Actas de la Conferencia IEEE sobre Visión artificial y reconocimiento de patrones. 2018.
  32. ^ Markoff, John (16 de febrero de 2011). "En 'Jeopardy!' la victoria de Watson es casi trivial". The New York Times .
  33. ^ "Doctor en Calidad de Vida".
  34. ^ Tunstall, Lewis (5 de julio de 2022). Procesamiento del lenguaje natural con transformadores: creación de aplicaciones lingüísticas con Hugging Face (2.ª ed.). O'Reilly UK Ltd. pág. Capítulo 7. ISBN 978-1098136796.
  35. ^ "Documentación de Haystack". deepset . Consultado el 4 de noviembre de 2022 .

Lectura adicional

Enlaces externos