En lingüística de corpus , una colocación es una serie de palabras o términos que coexisten con más frecuencia de lo que se esperaría por casualidad. En fraseología , una colocación es un tipo de frasema compositivo , es decir que puede entenderse a partir de las palabras que lo componen. Esto contrasta con un modismo , donde el significado del todo no puede inferirse de sus partes y puede no tener ninguna relación.
Hay alrededor de siete tipos principales de colocaciones: adjetivo + sustantivo, sustantivo + sustantivo (como los sustantivos colectivos ), sustantivo + verbo, verbo + sustantivo, adverbio + adjetivo, verbos + frase preposicional ( phrasal verbs ) y verbo + adverbio.
La extracción de colocaciones es una técnica computacional que encuentra colocaciones en un documento o corpus, utilizando varios elementos de lingüística computacional que se asemejan a la minería de datos .
Las colocaciones son expresiones parcial o totalmente fijas que se establecen mediante un uso repetido que depende del contexto. Términos como cristal claro , mando intermedio , familia nuclear y cirugía estética son ejemplos de pares de palabras colocadas.
Las colocaciones pueden estar en una relación sintáctica (como verbo-objeto : tomar y decidir ), una relación léxica (como antonimia ), o pueden no estar en una relación lingüísticamente definida. El conocimiento de las colocaciones es vital para el uso competente de una lengua: una oración gramaticalmente correcta resultará incómoda si se violan las preferencias de colocación. Esto hace que la colocación sea un área interesante para la enseñanza de idiomas.
Los lingüistas de corpus especifican una palabra clave en contexto ( KWIC ) e identifican las palabras que la rodean inmediatamente. Esto da una idea de la forma en que se usan las palabras.
El procesamiento de colocaciones implica una serie de parámetros, el más importante de los cuales es la medida de asociación , que evalúa si la coexistencia es puramente aleatoria o estadísticamente significativa . Debido a la naturaleza no aleatoria del lenguaje, la mayoría de las colocaciones se clasifican como significativas y las puntuaciones de asociación se utilizan simplemente para clasificar los resultados. Las medidas de asociación comúnmente utilizadas incluyen información mutua , puntuaciones t y probabilidad logarítmica . [1] [2]
En lugar de seleccionar una única definición, Gledhill [3] propone que la colocación implica al menos tres perspectivas diferentes: co-ocurrencia, una visión estadística, que ve la colocación como la aparición recurrente en un texto de un nodo y sus colocaciones; [4] [5] [6] construcción, que ve la colocación como una correlación entre un lexema y un patrón léxico-gramatical, [7] o como una relación entre una base y sus socios colocativos; [8] y expresión, una visión pragmática de la colocación como unidad de expresión convencional, independientemente de la forma. [9] [10] Estas diferentes perspectivas contrastan con la forma habitual de presentar la colocación en los estudios fraseológicos. Tradicionalmente hablando, la colocación se explica en términos de las tres perspectivas a la vez, en un continuo:
En 1933, el segundo informe provisional de Harold Palmer sobre colocaciones en inglés destacó la importancia de la colocación como clave para producir un lenguaje con sonido natural para cualquiera que esté aprendiendo un idioma extranjero . [11] Así, a partir de la década de 1940, la información sobre combinaciones de palabras recurrentes se convirtió en una característica estándar de los diccionarios para estudiantes monolingües . A medida que estos diccionarios se volvieron "menos centrados en palabras y más centrados en frases", [12] se prestó más atención a la colocación. Esta tendencia se vio respaldada, desde principios del siglo XXI, por la disponibilidad de grandes corpus de texto y software inteligente de consulta de corpus , lo que permitió proporcionar una explicación más sistemática de la colocación en los diccionarios. Utilizando estas herramientas, diccionarios como el Macmillan English Dictionary y el Longman Dictionary of Contemporary English incluyeron cuadros o paneles con listas de colocaciones frecuentes. [13]
También hay una serie de diccionarios especializados dedicados a describir las colocaciones frecuentes en un idioma. [14] Estos incluyen (para español) Redes: Diccionario combinatorio del español contemporaneo (2004), (para francés) Le Robert: Dictionnaire des combinaisons de mots (2007) y (para inglés) el Diccionario LTP de colocaciones seleccionadas (1997) y el Diccionario de colocaciones Macmillan (2010). [15]
La prueba t de Student se puede utilizar para determinar si la aparición de una colocación en un corpus es estadísticamente significativa. [16] Para un bigrama , sea la probabilidad incondicional de ocurrencia de en un corpus con tamaño , y sea la probabilidad incondicional de ocurrencia de en el corpus. La puntuación t para el bigram se calcula como:
donde es la media muestral de la aparición de , es el número de apariciones de , es la probabilidad de que, bajo la hipótesis nula, y aparezcan de forma independiente en el texto, y es la varianza muestral. Con un valor grande , la prueba t es equivalente a una prueba Z.