En lingüística , la correferencia , a veces correferencia escrita , se produce cuando dos o más expresiones hacen referencia a la misma persona o cosa; tienen el mismo referente . Por ejemplo, en Bill dijo que Alice llegaría pronto, y lo hizo , las palabras Alice y ella se refieren a la misma persona. [1]
La correferencia a menudo no es fácil de determinar. Por ejemplo, en Bill dijo que vendría , la palabra puede referirse o no a Bill. Determinar qué expresiones son correferencias es una parte importante del análisis o la comprensión del significado y, a menudo, requiere información del contexto, conocimiento del mundo real, como las tendencias de algunos nombres a asociarse con especies particulares ("Rover"), tipos de artefactos. ("Titanic"), géneros gramaticales u otras propiedades.
Los lingüistas suelen utilizar índices para anotar la correferencia, como en Bill , dije que vendría . Se dice que tales expresiones están coindexadas , lo que indica que deben interpretarse como correferenciales.
Cuando las expresiones son correferenciales, la primera que aparece suele ser una forma completa o descriptiva (por ejemplo, un nombre personal completo, tal vez con un título y función), mientras que las apariciones posteriores utilizan formas más cortas (por ejemplo, solo un nombre de pila, apellido, o pronombre). La ocurrencia anterior se conoce como antecedente y la otra se llama proforma , anáfora o referencia. Sin embargo, los pronombres a veces pueden referirse hacia adelante, como en "Cuando llegó a casa, Alice se fue a dormir". En tales casos, la correferencia se denomina catafórica en lugar de anafórica.
La correferencia es importante para vincular fenómenos en el campo de la sintaxis. La teoría de la vinculación explora la relación sintáctica que existe entre expresiones correferenciales en oraciones y textos.
Al explorar la correferencia, se pueden hacer numerosas distinciones, por ejemplo, anáfora , catáfora , antecedentes divididos, sintagmas nominales correferenciales, etc. [2] Aquí se ilustran varios de estos fenómenos más específicos:
Los semánticos y lógicos a veces hacen una distinción entre correferencia y lo que se conoce como variable ligada . [3] Las variables ligadas ocurren cuando el antecedente de la proforma es una expresión cuantificada indefinida, por ejemplo, [4] [ se necesita aclaración ]
No se consideran referenciales expresiones cuantificadas como todos los alumnos y ningún alumno . Estas expresiones son gramaticalmente singulares pero no seleccionan referentes únicos en el discurso o en el mundo real. Por lo tanto, los antecedentes suyos en estos ejemplos no son propiamente referenciales, como tampoco lo es el suyo . En cambio, se considera una variable ligada por su antecedente. Su referencia varía según en cuál de los estudiantes del mundo del discurso se piensa. La existencia de variables ligadas quizás sea más evidente con el siguiente ejemplo:
Esta frase es ambigua. Puede significar que a Jack le gusta su calificación pero a todos los demás no les gusta la calificación de Jack; o que a nadie le gusta su propia calificación excepto a Jack. En el primer sentido, el suyo es correferencial; en el segundo, es una variable ligada porque su referencia varía en el conjunto de todos los estudiantes.
La notación Coindex se usa comúnmente para ambos casos. Es decir, cuando dos o más expresiones están coindexadas, no indica si se trata de correferencia o de una variable ligada (o, como en el último ejemplo, si depende de la interpretación).
En lingüística computacional , la resolución de correferencia es un problema del discurso bien estudiado . Para obtener la interpretación correcta de un texto, o incluso estimar la importancia relativa de varios temas mencionados, los pronombres y otras expresiones de referencia deben estar conectados a las personas adecuadas. Los algoritmos destinados a resolver correferencias suelen buscar primero el individuo precedente más cercano que sea compatible con la expresión de referencia. Por ejemplo, podría adjuntar a una expresión anterior como la mujer o Anne , pero no tan probablemente a Bill . Pronombres como él mismo tienen restricciones mucho más estrictas. Como ocurre con muchas tareas lingüísticas, existe un equilibrio entre precisión y recuerdo . Las métricas de calidad de clúster comúnmente utilizadas para evaluar los algoritmos de resolución de correferencia incluyen el índice de Rand , el índice de Rand ajustado y diferentes métodos basados en información mutua .
Un problema particular para la resolución de correferencias en inglés es el pronombre it , que tiene muchos usos. Puede referirse de manera muy similar a él y ella , excepto que generalmente se refiere a objetos inanimados (las reglas son en realidad más complejas: los animales pueden ser cualquiera de ellos , él o ella ; los barcos tradicionalmente son ella ; los huracanes generalmente lo son a pesar de tener nombres de género). ). También puede referirse a abstracciones en lugar de seres, por ejemplo, le pagaban el salario mínimo, pero no parecía importarle. Por último, también tiene usos pleonásticos , que no se refieren a nada concreto:
Los usos pleonásticos no se consideran referenciales y, por lo tanto, no forman parte de la correferencia. [5]
Los enfoques para la resolución de correferencias se pueden separar en términos generales en algoritmos de pares de menciones, de clasificación de menciones o basados en entidades. Los algoritmos de pares de menciones implican decisiones binarias si un par de dos menciones dadas pertenecen a la misma entidad. No se consideran restricciones de toda la entidad, como el género , lo que conduce a la propagación de errores . Por ejemplo, los pronombres él o ella pueden tener una alta probabilidad de correferencia con el profesor , pero no pueden ser correferentes entre sí. Los algoritmos de clasificación de menciones amplían esta idea, pero en cambio estipulan que una mención sólo puede ser correferente con una mención (anterior). Como resultado, a cada mención anterior se le debe otorgar una puntuación y se vincula la mención con la puntuación más alta (o ninguna mención). Finalmente, en los métodos basados en entidades, las menciones se vinculan en función de la información de toda la cadena de correferencia en lugar de menciones individuales. La representación de una cadena de ancho variable es más compleja y costosa desde el punto de vista computacional que los métodos basados en menciones, lo que lleva a que estos algoritmos se basen principalmente en arquitecturas de redes neuronales .