La determinación del contenido es la subtarea de la generación de lenguaje natural (NLG) que implica decidir qué información se debe comunicar en un texto generado. Está estrechamente relacionada con la tarea de estructuración de documentos .
Consideremos un sistema NLG que resume información sobre bebés enfermos. [1] Supongamos que este sistema tiene cuatro piezas de información que puede comunicar
¿Cuáles de estos datos deberían incluirse en los textos generados?
Hay tres cuestiones generales que casi siempre inciden en la tarea de determinación de contenido y que pueden ilustrarse con el ejemplo anterior.
Tal vez la cuestión más fundamental sea el objetivo comunicativo del texto, es decir, su propósito y el lector . En el ejemplo anterior, por ejemplo, un médico que quiere tomar una decisión sobre un tratamiento médico probablemente estaría más interesado en la frecuencia cardíaca (bradicardia), mientras que un padre que quisiera saber cómo se encuentra su hijo probablemente estaría más interesado en el hecho de que al bebé le estaban dando morfina y estaba llorando.
El segundo problema es el tamaño y el nivel de detalle del texto generado. Por ejemplo, un breve resumen enviado a un médico como un mensaje de texto SMS de 160 caracteres podría mencionar únicamente las bradicardias cardíacas, mientras que un resumen más largo impreso como un documento de varias páginas podría mencionar también el hecho de que el bebé está recibiendo morfina intravenosa.
La última cuestión es lo inusual e inesperada que es la información. Por ejemplo, ni los médicos ni los padres darían mucha prioridad a que les dijeran que la temperatura del bebé era normal, si esperaban que así fuera.
De todos modos, la determinación del contenido es muy importante para los usuarios; de hecho, en muchos casos la calidad de la determinación del contenido es el factor más importante (desde la perspectiva del usuario) para determinar la calidad general del texto generado.
Hay tres enfoques básicos para la estructuración de documentos: esquemas (plantillas de contenido), enfoques estadísticos y razonamiento explícito.
Los esquemas [2] son plantillas que especifican explícitamente el contenido de un texto generado (así como la información que estructura el documento ). Por lo general, se construyen mediante el análisis manual de un corpus de textos escritos por humanos en el género de destino y la extracción de una plantilla de contenido de estos textos. Los esquemas funcionan bien en la práctica en dominios donde el contenido está algo estandarizado, pero funcionan menos bien en dominios donde el contenido es más fluido (como el ejemplo médico mencionado anteriormente).
Las técnicas estadísticas utilizan técnicas de análisis estadístico de corpus para determinar automáticamente el contenido de los textos generados. Este tipo de trabajo se encuentra en sus inicios y se ha aplicado principalmente a contextos en los que el objetivo comunicativo, el lector, el tamaño y el nivel de detalle son fijos. Por ejemplo, la generación de resúmenes de noticias sobre eventos deportivos. [3] [4]
Los enfoques de razonamiento explícito probablemente hayan atraído la mayor atención de los investigadores. La idea básica es utilizar técnicas de razonamiento de IA (como reglas basadas en el conocimiento, [1] planificación, [5] detección de patrones, [6] razonamiento basado en casos , [7] etc.) para examinar la información disponible para ser comunicada (incluyendo lo inusual/inesperada que es), el objetivo comunicativo y el lector, y las características del texto generado (incluyendo el tamaño del objetivo), y decidir sobre el contenido óptimo para el texto generado. Se ha explorado una amplia gama de técnicas, pero no hay consenso sobre cuál es la más efectiva.