La geometría de la información alcanzó su madurez como disciplina independiente a través del trabajo de Shun'ichi Amari y otros matemáticos japoneses en los años 1980.
El libro de Amari y Nagaoka, Methods of Information Geometry,[1] se considera uno de los trabajos seminales, y además presentan un amplio panorama de desarrollos significativos en la disciplinas que cubren hasta el año 2000.
Muchos de esos desarrollos sólo habían estado disponibles previamente en publicaciones en japonés, por lo que su difusión había sido limitada.
La siguiente introducción sigue las líneas generales del libro de Amari y Naoka Methods of Information Geometry.
[1] Se define un n-conjunto como un conjunto V de cardinalidad
nates de información para especificar v o equivalentemente,
, hay una forma alternativa de referirse a
Entonces, para especificar v, se resta el exceso de información usado para escoger un
partes que juntas forman una partición de
, considerando el número de veces que aparece en un mensaje viene dada por
La longitud de código promediada sobre todos los valores posibles es
se denomina entropía de una variable aleatoria
Cuando se observa una determinada variable aleatoria en un cierto contexto, cuyos valores pertenecen a
El contexto mencionado anteriormente, es una situación que se especifica mediante un conjunto de parámetros (frecuentemente usando el razonamiento combinatorio).
Nótese al cambiar de contexto o situación, la probabilidad con la que se observa un determinado resultado cambia acorde a los parámetros que definen el contexto.
Frecuentemente un conjunto de parámetros se asocia a una determinada familia de distribuciones, por lo que los parámetros en esos casos tienen una interpretación concreta, que constituye un modelo estadístico para el contexto en el que se observa
Los parámetros son muy diferentes en su naturaleza a los elementos del propio
Estas distribuciones se denominan colectivamente como una "familia exponencial" o
para una familia exponencial puede ponerse en relación con la anterior reparametrizando como
Esto se hace mediante una carta coordenada o un conjunto de ellas que conforma un atlas
debe ser una función diferenciable e invertible de
, se puede "geometrizar" tomándola para definir una nueva variedad.
Esto se hace definiendo funciones coordenadas sobre esta otra nueva variedad mediante las relaciones:
De esta forma se "geometriza" una función
En geometría diferencial ordinaria, el espacio tangente a una variedad diferenciable
En geometría diferencial ordinaria, no existe ningún sistema canónico de coordenadas sobre la variedad; así típicamente, toda discusión debe hacerse con respecto al atlas, sin necesidad explícita de coordenadas, por esa razón los vectores tangentes (y el conjunto de ellos que es el espacio tangente) se definen como operadores que actúan sobre funciones definidas sobre la variedad.
Sin embargo, cuando se usan distribuciones de probabilidad
, se es posible expresar el espacio tangente directamente como
Diversas funciones definidas sobre la variedad de distribuciones
-familia) de distribuciones y la correspondiente variedad se denomina