Punto de información mutua

El Punto de Información Mutua (PIM) o Información Mutua Puntual, (IMP) (en inglés, Pointwise mutual information (PMI)),[1]​ es una medida de asociación utilizada en la teoría y la estadística de la información.En contraste con la información mutua (Mutual Information, MI), que se basa en PIM, esta se refiere a los eventos individuales, mientras que MI se refiere a la media de todos los eventos posibles.El PMI de un par de resultados x e y perteneciente a variables discretas aleatorias X e Y, cuantifican la diferencia entre la probabilidad de su coincidencia dada su distribución conjunta y sus distribuciones individuales, suponiendo independencia matemática: La información mutua (MI) de las variables aleatorias X y Y es el valor esperado del PIM sobre todos los resultados posibles (con respeto a la distribución junta) Puede tomar valores positivos o negativos, pero es cero si X y Y es independiente.Note que incluso aunque PIM puede ser negativo o positivo, su resultado esperado sobre todos los acontecimientos de junta (MI) es positivo.Aquí, un ejemplo para ilustrar: Utilizando esta tabla podemos distribuir de manera marginal para conseguir la siguiente tabla adicional para las distribuciones individuales: Con este ejemplo, podemos computar cuatro valores para .p m i ( x ; y )Utilizando logaritmo base-2: (Para referencia, la información mutua entonces sería 0.214170945)El punto de información mutua tiene muchas relaciones de semejanza con la información mutua.El punto de información mutua puede ser normalizada entre [-1,+1] resultando en -1 (en el límite) para nunca ocurriendo junto, 0 para independencia, y +1 para completo co-ocurrencia.Esto es fácilmente demostrado por: En lingüística computacional, PMI ha sido usado para encontrar colocaciones y asociaciones entre palabras.Por ejemplo, los conteos de occurrencias y co-ocurrencias de las palabras en un corpus puede ser usado para aproximar las probabilidadesLa siguiente tabla muestra pares de palabras y sus conteos de ocurrencias y co-ocurrencias los primeros 50 millones de palabras en la Wikipedia en español (descarga de octubre del 2015) filtrando aquellos pares con 1.000 o más co-ocurrencias.La tabla muestra los pares de palabras con los 10 mayores y 10 menores valores de PMI.