La extracción de colocaciones es la tarea de utilizar una computadora para extraer colocaciones automáticamente de un corpus .
El método tradicional para realizar la extracción de colocaciones es encontrar una fórmula basada en las cantidades estadísticas de esas palabras para calcular una puntuación asociada a cada par de palabras. Las fórmulas propuestas son información mutua , prueba t , prueba z , prueba de chi-cuadrado y razón de verosimilitud . [1]
En el ámbito de la lingüística de corpus , la colocación se define como una secuencia de palabras o términos que aparecen juntos con más frecuencia de lo que cabría esperar por casualidad. "Crystal clear", "middle management", "nuclear family" y "cosmetic surgery" son ejemplos de pares de palabras colocadas. Algunas palabras se encuentran juntas porque forman un sustantivo compuesto , por ejemplo, "riding boots" o "motor cyclist" o "collocation extraction" en sí.