En el procesamiento del lenguaje natural , el etiquetado de roles semánticos (también llamado análisis semántico superficial o llenado de espacios ) es el proceso que asigna etiquetas a palabras o frases en una oración que indican su rol semántico en la oración, como el de un agente , un objetivo o un resultado.
Sirve para encontrar el significado de la oración. Para ello, detecta los argumentos asociados al predicado o verbo de una oración y cómo se clasifican en sus roles específicos . Un ejemplo común es la oración “María vendió el libro a Juan”. El agente es “María”, el predicado es “vendido” (o más bien, “vender”), el tema es “el libro” y el destinatario es “Juan”. Otro ejemplo es cómo “el libro me pertenece” necesitaría dos etiquetas como “poseído” y “poseedor” y “el libro fue vendido a Juan” necesitaría otras dos etiquetas como tema y destinatario, a pesar de que estas dos cláusulas son similares a las funciones de “sujeto” y “objeto”. [1]
En 1968, Charles J. Fillmore propuso la primera idea para el etiquetado de roles semánticos . [2] Su propuesta condujo al proyecto FrameNet que produjo el primer léxico computacional importante que describía sistemáticamente muchos predicados y sus roles correspondientes. Daniel Gildea (actualmente en la Universidad de Rochester , anteriormente en la Universidad de California, Berkeley / Instituto Internacional de Ciencias de la Computación ) y Daniel Jurafsky (actualmente enseñando en la Universidad de Stanford , pero anteriormente trabajando en la Universidad de Colorado y UC Berkeley ) desarrollaron el primer sistema automático de etiquetado de roles semánticos basado en FrameNet. El corpus PropBank agregó anotaciones de roles semánticos creadas manualmente al corpus Penn Treebank de textos del Wall Street Journal . Muchos sistemas automáticos de etiquetado de roles semánticos han utilizado PropBank como un conjunto de datos de entrenamiento para aprender a anotar nuevas oraciones automáticamente. [3]
El etiquetado de roles semánticos se utiliza principalmente para que las máquinas comprendan los roles de las palabras dentro de las oraciones. [4] Esto beneficia a aplicaciones similares a los programas de procesamiento del lenguaje natural que necesitan comprender no solo las palabras de los idiomas, sino también cómo se pueden usar en diferentes oraciones. [5] Una mejor comprensión del etiquetado de roles semánticos podría conducir a avances en la respuesta a preguntas , la extracción de información , el resumen automático de texto , la minería de datos de texto y el reconocimiento de voz . [6]