En estadística , la completitud es una propiedad de una estadística calculada sobre un conjunto de datos de muestra en relación con un modelo paramétrico del conjunto de datos. Se opone al concepto de estadística auxiliar . Mientras que una estadística auxiliar no contiene información sobre los parámetros del modelo, una estadística completa contiene solo información sobre los parámetros y ninguna información auxiliar. Está estrechamente relacionada con el concepto de estadística suficiente que contiene toda la información que proporciona el conjunto de datos sobre los parámetros. [1]
Consideremos una variable aleatoria X cuya distribución de probabilidad pertenece a un modelo paramétrico P θ parametrizado por θ .
Digamos que T es una estadística , es decir, la composición de una función medible con una muestra aleatoria X 1 ,..., X n .
Se dice que la estadística T es completa para la distribución de X si, para cada función medible g, [2]
Se dice que la estadística T es acotadamente completa para la distribución de X si esta implicación es válida para cada función medible g que también esté acotada.
El modelo de Bernoulli admite una estadística completa. [3] Sea X una muestra aleatoria de tamaño n tal que cada X i tiene la misma distribución de Bernoulli con parámetro p . Sea T el número de 1 observados en la muestra, es decir . T es una estadística de X que tiene una distribución binomial con parámetros ( n , p ). Si el espacio de parámetros para p es (0,1), entonces T es una estadística completa. Para ver esto, note que
Observe también que ni p ni 1 − p pueden ser 0. Por lo tanto , si y sólo si:
Al denotar p /(1 − p ) por r , se obtiene:
En primer lugar, observe que el rango de r son los reales positivos . Además, E( g ( T )) es un polinomio en r y, por lo tanto, solo puede ser idéntico a 0 si todos los coeficientes son 0, es decir, g ( t ) = 0 para todo t .
Es importante notar que el resultado de que todos los coeficientes deben ser 0 se obtuvo debido al rango de r . Si el espacio de parámetros hubiera sido finito y con un número de elementos menor o igual a n , podría ser posible resolver las ecuaciones lineales en g ( t ) obtenidas al sustituir los valores de r y obtener soluciones diferentes de 0. Por ejemplo, si n = 1 y el espacio de parámetros es {0.5}, una sola observación y un solo valor de parámetro, T no está completo. Observe que, con la definición:
entonces, E( g ( T )) = 0 aunque g ( t ) no es 0 para t = 0 ni para t = 1.
Este ejemplo mostrará que, en una muestra X 1 , X 2 de tamaño 2 de una distribución normal con varianza conocida, el estadístico X 1 + X 2 es completo y suficiente. Supongamos que ( X 1 , X 2 ) son variables aleatorias independientes , idénticamente distribuidas, normalmente distribuidas con una expectativa θ y una varianza 1. La suma
es una estadística completa para θ .
Para demostrar esto, es suficiente demostrar que no existe ninguna función distinta de cero tal que la esperanza de
permanece cero independientemente del valor de θ .
Este hecho puede verse de la siguiente manera: la distribución de probabilidad de X 1 + X 2 es normal con una esperanza 2 θ y una varianza 2. Por lo tanto, su función de densidad de probabilidad en es proporcional a
La expectativa de g anterior sería por lo tanto una constante multiplicada por
Un poco de álgebra reduce esto a
donde k ( θ ) no es cero en ninguna parte y
Como función de θ, esta es una transformada de Laplace de dos lados de h ( X ), y no puede ser idénticamente cero a menos que h ( x ) sea cero en casi todas partes. [4] La exponencial no es cero, por lo que esto solo puede suceder si g ( x ) es cero en casi todas partes.
Por el contrario, la estadística es suficiente pero no completa. Admite un estimador imparcial distinto de cero, es decir
Supongamos entonces que, independientemente del valor de Por lo tanto, no es completo.
Para algunas familias paramétricas, no existe una estadística completa y suficiente (por ejemplo, consulte Galili y Meilijson 2016 [5] ).
Por ejemplo, si toma una muestra de tamaño n > 2 de una distribución N ( θ , θ 2 ), entonces es una estadística mínima suficiente y es una función de cualquier otra estadística mínima suficiente, pero tiene una expectativa de 0 para todos los θ , por lo que no puede haber una estadística completa.
Si existe una estadística mínima suficiente, entonces cualquier estadística completa suficiente también es mínimamente suficiente. Pero hay casos patológicos en los que no existe una estadística mínima suficiente aunque exista una estadística completa.
La noción de completitud tiene muchas aplicaciones en estadística, particularmente en los siguientes dos teoremas de estadística matemática.
La completitud se da en el teorema de Lehmann-Scheffé [6] , que establece que si una estadística es insesgada, completa y suficiente para algún parámetro θ , entonces es el mejor estimador insesgado en cuanto a la media para θ . En otras palabras, esta estadística tiene una pérdida esperada menor para cualquier función de pérdida convexa ; en muchas aplicaciones prácticas con la función de pérdida al cuadrado, tiene un error cuadrático medio menor entre todos los estimadores con el mismo valor esperado .
Existen ejemplos de que cuando la estadística mínima suficiente no está completa , existen varias estadísticas alternativas para la estimación imparcial de θ , aunque algunas de ellas tienen menor varianza que otras. [7]
Véase también estimador insesgado de varianza mínima .
La completitud acotada se da en el teorema de Basu , [8] que establece que una estadística que es a la vez acotadamente completa y suficiente es independiente de cualquier estadística auxiliar .
La completitud acotada también se da en el teorema de Bahadur. En el caso en que exista al menos una estadística mínima suficiente , una estadística que sea suficiente y acotadamente completa, es necesariamente mínimamente suficiente. Otra forma del teorema de Bahadur establece que cualquier estadística suficiente y acotadamente completa sobre un espacio de coordenadas de dimensión finita también es mínimamente suficiente. [9]