La extracción de oraciones es una técnica que se utiliza para resumir automáticamente un texto. En este enfoque superficial, se utilizan heurísticas estadísticas para identificar las oraciones más destacadas de un texto. La extracción de oraciones es un enfoque de bajo costo en comparación con enfoques más profundos que requieren conocimientos adicionales, como ontologías o conocimientos lingüísticos . En resumen, la "extracción de oraciones" funciona como un filtro que permite que solo pasen las oraciones significativas.
La principal desventaja de aplicar técnicas de extracción de oraciones a la tarea de resumen es la pérdida de coherencia en el resumen resultante. No obstante, los resúmenes de extracción de oraciones pueden brindar pistas valiosas sobre los puntos principales de un documento y, con frecuencia, son suficientemente inteligibles para los lectores humanos.
Por lo general, se utiliza una combinación de heurísticas para determinar las oraciones más importantes dentro del documento. Cada heurística asigna una puntuación (positiva o negativa) a la oración. Una vez que se han aplicado todas las heurísticas, las oraciones con la puntuación más alta se incluyen en el resumen. Las heurísticas individuales se ponderan según su importancia.
Hans Peter Luhn en 1958 [1] y H. P Edmundson en 1969 [2] publicaron artículos fundamentales que sentaron las bases de muchas técnicas utilizadas hoy en día.
Luhn propuso asignar más peso a las oraciones al comienzo del documento o de un párrafo. Edmundson destacó la importancia de las palabras clave para el resumen y fue el primero en emplear listas de exclusión para filtrar palabras poco informativas de bajo contenido semántico (por ejemplo, la mayoría de las palabras gramaticales como "de", "el", "un"). También distinguió entre palabras adicionales y palabras estigma , es decir, palabras que probablemente aparecen junto con información importante (por ejemplo, la forma de la palabra "significante") o sin importancia. Su idea de utilizar palabras clave, es decir, palabras que aparecen con una frecuencia significativa en el documento, sigue siendo una de las heurísticas centrales de los resumidores actuales. Con los grandes corpus lingüísticos disponibles hoy en día, el valor tf–idf que se originó en la recuperación de información , se puede aplicar con éxito para identificar las palabras clave de un texto: si, por ejemplo, la palabra "gato" aparece significativamente más a menudo en el texto que se va a resumir (TF = "frecuencia de término") que en el corpus (IDF significa "frecuencia de documento inversa"; aquí el corpus se refiere a "documento"), entonces es probable que "gato" sea una palabra importante del texto; de hecho, el texto puede ser un texto sobre gatos.