Extracción de información abierta

En el procesamiento del lenguaje natural, la extracción de información abierta ( OIE ) es la tarea de generar una representación estructurada y legible por máquina de la información en el texto, generalmente en forma de proposiciones triples o n-arias .

Descripción general

Una proposición puede entenderse como portadora de verdad , una expresión textual de un hecho potencial (por ejemplo, "Dante escribió la Divina Comedia"), representada en una estructura compatible con computadoras [por ejemplo, ("Dante", "escribió", "Divina Comedia")]. Una extracción de la OIE normalmente consta de una relación y un conjunto de argumentos. Por ejemplo, ("Dante", "falleció en" "Rávena") es una proposición formada por la relación "falleció en" y los argumentos "Dante" y "Rávena". El primer argumento suele denominarse sujeto, mientras que el segundo se considera objeto. ^[1]

Se dice que la extracción es una representación textual de un hecho potencial porque sus elementos no están vinculados a una base de conocimiento . Además, aún no se ha establecido la naturaleza fáctica de la proposición. En el ejemplo anterior, transformar la extracción en un hecho de pleno derecho requeriría primero vincular, si es posible, la relación y los argumentos a una base de conocimiento. En segundo lugar, sería necesario determinar la verdad de la extracción. En informática, la transformación de extracciones de la OIE en hechos ontológicos se conoce como extracción de relaciones .

De hecho, la OIE puede verse como el primer paso hacia una amplia gama de tareas de comprensión de textos más profundas, como la extracción de relaciones, la construcción de bases de conocimientos, la respuesta a preguntas y el etiquetado de roles semánticos . Las proposiciones extraídas también se pueden utilizar directamente para aplicaciones de usuario final, como la búsqueda estructurada (por ejemplo, recuperar todas las proposiciones con "Dante" como tema).

La OIE fue introducida por primera vez por TextRunner ^[2] desarrollado en el Centro Turing de la Universidad de Washington dirigido por Oren Etzioni . Otros métodos introducidos posteriormente, como Reverb, ^[3] OLLIE, ^[4] ClausIE ^[5] o CSD ^[6], ayudaron a configurar la tarea de la OIE caracterizando algunos de sus aspectos. En un nivel alto, todos estos enfoques utilizan un conjunto de patrones para generar las extracciones. Dependiendo del enfoque particular, estos patrones se hacen a mano o se aprenden.

Sistemas y contribuciones de la OIE

Reverb ^[3] sugirió la necesidad de producir relaciones significativas para capturar con mayor precisión la información en el texto de entrada. Por ejemplo, dada la frase "Fausto hizo un pacto con el diablo", sería erróneo simplemente producir la extracción ("Fausto", "hizo", "un pacto") ya que no sería adecuadamente informativa. Una extracción más precisa sería ("Fausto", "hizo un pacto con", "el diablo"). Reverb también se opuso a la generación de relaciones demasiado específicas.

OLLIE ^[4] destacó dos aspectos importantes para la OIE. En primer lugar, señaló la falta de facticidad de las proposiciones. Por ejemplo, en una frase como "Si John estudia mucho, aprobará el examen", sería inexacto considerar ("John", "aprobará", "el examen") como un hecho. Además, los autores indicaron que un sistema de la OIE debería poder extraer relaciones mediadas no verbales, que representan una parte importante de la información expresada en texto en lenguaje natural. Por ejemplo, en la frase "Obama, el ex presidente de los Estados Unidos, nació en Hawaii", un sistema de la OIE debería poder reconocer una proposición ("Obama", "es", "ex presidente de los Estados Unidos").

ClausIE ^[5] introdujo la conexión entre cláusulas gramaticales, proposiciones y extracciones de la OIE. Los autores afirmaron que como cada cláusula gramatical expresa una proposición, cada proposición mediada por un verbo puede identificarse reconociendo únicamente el conjunto de cláusulas expresadas en cada oración. Esto implica que para reconocer correctamente el conjunto de proposiciones en una oración de entrada, es necesario comprender su estructura gramatical. Los autores estudiaron el caso del idioma inglés que sólo admite siete tipos de cláusulas, es decir, que la identificación de cada proposición sólo requiere definir siete patrones gramaticales.

El hallazgo también estableció una separación entre el reconocimiento de las proposiciones y su materialización. En un primer paso, la proposición puede identificarse sin considerar su forma final, de forma independiente del dominio y sin supervisión, basándose principalmente en principios lingüísticos. En un segundo paso, la información se puede representar según los requisitos de la aplicación subyacente, sin condicionar la fase de identificación.

Considere la frase "Albert Einstein nació en Ulm y murió en Princeton". El primer paso será reconocer las dos proposiciones ("Albert Einstein", "nació", "en Ulm") y ("Albert Einstein", "murió", "en Princeton"). Una vez que la información se ha identificado correctamente, las proposiciones pueden tomar la forma particular requerida por la aplicación subyacente [por ejemplo, ("Albert Einstein", "nació en", "Ulm") y ("Albert Einstein", "murió en" , "Princeton")].

La CDS ^[6] introdujo la idea de minimalidad en la OIE. Considera que los ordenadores pueden aprovechar mejor las extracciones si se expresan de forma compacta. Esto es especialmente importante en oraciones con cláusulas subordinadas. En estos casos, CSD sugiere la generación de extracciones anidadas. Por ejemplo, consideremos la frase "La Embajada dijo que 6.700 estadounidenses estaban en Pakistán". CSD genera dos extracciones [i] ("6.700 estadounidenses", "estaban", "en Pakistán") y [ii] ("La Embajada", "dijo", "que [i]). Esto generalmente se conoce como cosificación.

Referencias

^ Del Corro, Luciano. "Métodos para la extracción de información abierta y la desambiguación del sentido en texto en lenguaje natural" (PDF) . {{cite journal}}: Citar diario requiere |journal=( ayuda )
^ Banko, Michele; Cafarella, Michael; Soderland, Stephen; Cabeza ancha, Matt; Etzioni, Oren (2007). «Extracción de información abierta de la Web» (PDF) . Jornada sobre Inteligencia Artificial .
^ ab Fader, Anthony; Soderland, Stephen; Etzioni, Oren (2011). "Identificación de relaciones para la extracción de información abierta" (PDF) . EMNLP .
^ ab Mausam; Schmitz, Michael; Soderland, Stephen; Bart, Robert; Etzioni, Oren (2012). "Aprendizaje abierto de idiomas para la extracción de información" (PDF) . EMNLP .
^ ab Del Corro, Luciano; Gemulla, Rainer (2013). «ClausIE: extracción de información abierta basada en cláusulas» (PDF) . WWW .
^ ab Bast, Hannah ; Haussmann, Elmar (2013). "Extracción de información abierta mediante descomposición de oraciones contextuales". CISC .