En lingüística , la correferencia , a veces escrita como co-referencia , ocurre cuando dos o más expresiones se refieren a la misma persona o cosa; tienen el mismo referente . Por ejemplo, en Bill dijo que Alice llegaría pronto, y ella lo hizo , las palabras Alice y she se refieren a la misma persona. [1]
La correferencia suele ser algo no trivial de determinar. Por ejemplo, en Bill dijo que vendría , la palabra él puede o no referirse a Bill. Determinar qué expresiones son correferencias es una parte importante del análisis o la comprensión del significado y, a menudo, requiere información del contexto, conocimiento del mundo real, como las tendencias de algunos nombres a asociarse con especies particulares ("Rover"), tipos de artefactos ("Titanic"), géneros gramaticales u otras propiedades.
Los lingüistas suelen utilizar índices para indicar correferencia, como en Bill i said he i would come . Se dice que estas expresiones están coindizadas , lo que indica que deben interpretarse como correferenciales.
Cuando las expresiones son correferenciales, la primera que aparece suele ser una forma completa o descriptiva (por ejemplo, un nombre personal completo, tal vez con un título y un rol), mientras que las apariciones posteriores utilizan formas más cortas (por ejemplo, solo un nombre de pila, apellido o pronombre). La aparición anterior se conoce como antecedente y la otra se llama proforma , anáfora o referencia. Sin embargo, los pronombres a veces pueden hacer referencia hacia adelante, como en "Cuando llegó a casa, Alicia se fue a dormir". En tales casos, la correferencia se llama catafórica en lugar de anafórica.
La correferencia es importante para los fenómenos de enlace en el campo de la sintaxis. La teoría de la vinculación explora la relación sintáctica que existe entre las expresiones correferenciales en oraciones y textos.
Al explorar la correferencia, se pueden hacer numerosas distinciones, por ejemplo, anáfora , catáfora , antecedentes divididos, frases nominales correferenciales, etc. [2] Aquí se ilustran varios de estos fenómenos más específicos:
Los semantistas y los lógicos a veces establecen una distinción entre correferencia y lo que se conoce como variable ligada . [3] Las variables ligadas ocurren cuando el antecedente de la proforma es una expresión cuantificada indefinida, por ejemplo [4] [ aclaración necesaria ]
Las expresiones cuantificadas como every student y no student no se consideran referenciales. Estas expresiones son gramaticalmente singulares pero no escogen referentes únicos en el discurso o el mundo real. Por lo tanto, los antecedentes de his en estos ejemplos no son propiamente referenciales, y his tampoco lo es . En cambio, se considera una variable que está limitada por su antecedente. Su referencia varía según en cuál de los estudiantes del mundo del discurso se piense. La existencia de variables limitadas es quizás más evidente con el siguiente ejemplo:
Esta oración es ambigua. Puede significar que a Jack le gusta su nota pero a todos los demás no les gusta la suya; o que a nadie le gusta su propia nota excepto a Jack. En el primer sentido, la suya es correferencial; en el segundo, es una variable ligada porque su referencia varía en el conjunto de todos los estudiantes.
La notación de coindexación se utiliza comúnmente para ambos casos. Es decir, cuando dos o más expresiones están coindexadas, no se indica si se trata de una correferencia o de una variable ligada (o, como en el último ejemplo, si depende de la interpretación).
En lingüística computacional , la resolución de correferencia es un problema bien estudiado en el discurso . Para derivar la interpretación correcta de un texto, o incluso para estimar la importancia relativa de varios sujetos mencionados, los pronombres y otras expresiones de referencia deben estar conectados a los individuos correctos. Los algoritmos destinados a resolver correferencias comúnmente buscan primero el individuo precedente más cercano que sea compatible con la expresión de referencia. Por ejemplo, ella podría adjuntarse a una expresión precedente como la mujer o Anne , pero no tan probablemente a Bill . Los pronombres como él mismo tienen restricciones mucho más estrictas. Como ocurre con muchas tareas lingüísticas, existe un equilibrio entre precisión y recuperación . Las métricas de calidad de clúster que se utilizan comúnmente para evaluar los algoritmos de resolución de correferencia incluyen el índice Rand , el índice Rand ajustado y diferentes métodos basados en información mutua .
Un problema particular para la resolución de correferencia en inglés es el pronombre it , que tiene muchos usos. Puede referirse de forma muy similar a he y she , excepto que generalmente se refiere a objetos inanimados (las reglas son en realidad más complejas: los animales pueden ser it , he o she ; los barcos son tradicionalmente she ; los huracanes suelen ser it a pesar de tener nombres con género). También puede referirse a abstracciones en lugar de seres, por ejemplo, He was paid minimum wage, but didn't seem to mind it. Finalmente, también tiene usos pleonásticos , que no se refieren a nada específico:
Los usos pleonásticos no se consideran referenciales y, por lo tanto, no forman parte de la correferencia. [5]
Los enfoques para la resolución de correferencia pueden dividirse ampliamente en algoritmos de pares de menciones, de clasificación de menciones o basados en entidades. Los algoritmos de pares de menciones implican decisiones binarias si un par de dos menciones dadas pertenecen a la misma entidad. No se consideran las restricciones de toda la entidad, como el género , lo que conduce a la propagación de errores . Por ejemplo, los pronombres él o ella pueden tener una alta probabilidad de correferencia con el profesor , pero no pueden ser correferentes entre sí. Los algoritmos de clasificación de menciones amplían esta idea, pero en su lugar estipulan que una mención solo puede ser correferente con una mención (previa). Como resultado, cada mención previa debe recibir una puntuación y la mención con la puntuación más alta (o ninguna mención) está vinculada. Finalmente, en los métodos basados en entidades, las menciones se vinculan en función de la información de toda la cadena de correferencia en lugar de menciones individuales. La representación de una cadena de ancho variable es más compleja y computacionalmente costosa que los métodos basados en menciones, lo que lleva a que estos algoritmos se basen principalmente en arquitecturas de redes neuronales .