stringtranslate.com

Estadística suficiente

En estadística , la suficiencia es una propiedad de una estadística calculada sobre un conjunto de datos de muestra en relación con un modelo paramétrico del conjunto de datos. Una estadística suficiente contiene toda la información que proporciona el conjunto de datos sobre los parámetros del modelo. Está estrechamente relacionada con los conceptos de estadística auxiliar , que no contiene información sobre los parámetros del modelo, y de estadística completa, que solo contiene información sobre los parámetros y ninguna información auxiliar.

Un concepto relacionado es el de suficiencia lineal , que es más débil que la suficiencia pero se puede aplicar en algunos casos donde no hay una estadística suficiente, aunque está restringido a estimadores lineales. [1] La función de estructura de Kolmogorov trata con datos finitos individuales; la noción relacionada allí es la estadística suficiente algorítmica.

El concepto se debe a Sir Ronald Fisher en 1920. [2] Stephen Stigler señaló en 1973 que el concepto de suficiencia había caído en desuso en las estadísticas descriptivas debido a la fuerte dependencia de un supuesto de la forma distributiva (véase el teorema de Pitman-Koopman-Darmois a continuación), pero seguía siendo muy importante en el trabajo teórico. [3]

Fondo

En términos generales, dado un conjunto de datos independientes distribuidos de manera idéntica y condicionados a un parámetro desconocido , una estadística suficiente es una función cuyo valor contiene toda la información necesaria para calcular cualquier estimación del parámetro (por ejemplo, una estimación de máxima verosimilitud ). Debido al teorema de factorización (ver más abajo), para una estadística suficiente , la densidad de probabilidad se puede escribir como . A partir de esta factorización, se puede ver fácilmente que la estimación de máxima verosimilitud de interactuará con solo a través de . Normalmente, la estadística suficiente es una función simple de los datos, por ejemplo, la suma de todos los puntos de datos.

En términos más generales, el "parámetro desconocido" puede representar un vector de cantidades desconocidas o puede representar todo lo que se desconoce o no se especifica por completo en el modelo. En tal caso, la estadística suficiente puede ser un conjunto de funciones, denominada estadística suficiente en conjunto . Normalmente, hay tantas funciones como parámetros. Por ejemplo, para una distribución gaussiana con media y varianza desconocidas , la estadística suficiente en conjunto, a partir de la cual se pueden estimar las estimaciones de máxima verosimilitud de ambos parámetros, consta de dos funciones, la suma de todos los puntos de datos y la suma de todos los puntos de datos al cuadrado (o, de manera equivalente, la media y la varianza de la muestra ).

En otras palabras, la distribución de probabilidad conjunta de los datos es condicionalmente independiente del parámetro dado el valor del estadístico suficiente para el parámetro . Tanto el estadístico como el parámetro subyacente pueden ser vectores.

Definición matemática

Una estadística t  =  T ( X ) es suficiente para el parámetro subyacente θ precisamente si la distribución de probabilidad condicional de los datos X , dada la estadística t  =  T ( X ), no depende del parámetro θ . [4]

Alternativamente, se puede decir que la estadística  T ( X ) es suficiente para θ si, para todas las distribuciones previas en θ , la información mutua entre θ y T(X) es igual a la información mutua entre θ y X . [5] En otras palabras, la desigualdad de procesamiento de datos se convierte en una igualdad:

Ejemplo

Por ejemplo, la media de la muestra es suficiente para la media ( μ ) de una distribución normal con varianza conocida. Una vez que se conoce la media de la muestra, no se puede obtener más información sobre μ a partir de la muestra misma. Por otro lado, para una distribución arbitraria, la mediana no es suficiente para la media: incluso si se conoce la mediana de la muestra, conocer la muestra misma proporcionaría más información sobre la media de la población. Por ejemplo, si las observaciones que son menores que la mediana son solo ligeramente menores, pero las observaciones que exceden la mediana la exceden por una cantidad grande, entonces esto tendría una influencia en la inferencia sobre la media de la población.

Teorema de factorización de Fisher-Neyman

El teorema de factorización de Fisher o criterio de factorización proporciona una caracterización conveniente de una estadística suficiente. Si la función de densidad de probabilidad es ƒ θ ( x ), entonces T es suficiente para θ si y solo si se pueden encontrar funciones no negativas g y h tales que

es decir, la densidad ƒ se puede factorizar en un producto tal que un factor, h , no depende de θ y el otro factor, que sí depende de θ , depende de x solo a través de T ( x ). Halmos y Savage dieron una prueba general de esto [6] y el teorema a veces se conoce como el teorema de factorización de Halmos-Savage. [7] Las pruebas a continuación manejan casos especiales, pero se puede dar una prueba general alternativa en la misma línea. [8] En muchos casos simples, la función de densidad de probabilidad está completamente especificada por y , y (ver Ejemplos).

Es fácil ver que si F ( t ) es una función biunívoca y T es un estadístico suficiente, entonces F ( T ) es un estadístico suficiente. En particular, podemos multiplicar un estadístico suficiente por una constante distinta de cero y obtener otro estadístico suficiente.

Interpretación del principio de verosimilitud

Una implicación del teorema es que cuando se utiliza la inferencia basada en la probabilidad, dos conjuntos de datos que arrojan el mismo valor para la estadística suficiente T ( X ) siempre arrojarán las mismas inferencias sobre θ . Según el criterio de factorización, la dependencia de la probabilidad con respecto a θ solo se da en conjunción con T ( X ). Como esta es la misma en ambos casos, la dependencia con respecto a θ también será la misma, lo que dará lugar a inferencias idénticas.

Prueba

Debido a Hogg y Craig. [9] Sea , una muestra aleatoria de una distribución que tiene la función de densidad de probabilidad f ( xθ ) para ι  <  θ  <  δ . Sea Y 1  =  u 1 ( X 1X 2 , ...,  X n ) un estadístico cuya función de densidad de probabilidad es g 1 ( y 1θ ). Lo que queremos demostrar es que Y 1  =  u 1 ( X 1 , X 2 , ...,  X n ) es un estadístico suficiente para θ si y solo si, para alguna función H ,

Primero, supongamos que

Realizaremos la transformación y i  =  u i ( x 1x 2 , ...,  x n ), para i  = 1, ...,  n , teniendo funciones inversas x i  =  w i ( y 1y 2 , ...,  y n ), para i  = 1, ...,  n , y jacobiano . Por lo tanto,

El miembro de la izquierda es la función de densidad de probabilidad conjunta g ( y 1 , y 2 , ..., y n ; θ) de Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n = u n ( X 1 , ..., X n ). En el miembro de la derecha, es la función de densidad de probabilidad de , por lo que es el cociente de y ; es decir, es la función de densidad de probabilidad condicional de dado .

Pero , y por lo tanto , se dio para no depender de . Dado que no se introdujo en la transformación y, en consecuencia, tampoco en el jacobiano , se sigue que no depende de y que es una estadística suficiente para .

Lo inverso se demuestra tomando:

donde no depende de porque depende solo de , que son independientes de cuando está condicionada por , una estadística suficiente por hipótesis. Ahora divida ambos miembros por el valor absoluto del jacobiano no nulo y reemplace por las funciones en . Esto da como resultado

donde es el jacobiano con reemplazado por su valor en términos de . El miembro de la izquierda es necesariamente la función de densidad de probabilidad conjunta de . Dado que , y por lo tanto , no depende de , entonces

es una función que no depende de .

Otra prueba

Una prueba más sencilla e ilustrativa es la siguiente, aunque se aplica sólo en el caso discreto.

Usamos la notación abreviada para denotar la densidad de probabilidad conjunta de por . Como es una función de , tenemos , siempre que y cero en caso contrario. Por lo tanto:

siendo la última igualdad verdadera según la definición de estadísticas suficientes. Por lo tanto, con y .

Por el contrario, si , tenemos

Con la primera igualdad por la definición de pdf para múltiples variables , la segunda por la observación anterior, la tercera por hipótesis y la cuarta porque la suma no ha terminado .

Sea la densidad de probabilidad condicional de un valor dado . Luego podemos derivar una expresión explícita para esto:

La primera igualdad se obtiene por definición de densidad de probabilidad condicional, la segunda por la observación anterior, la tercera por la igualdad demostrada anteriormente y la cuarta por simplificación. Esta expresión no depende de y, por lo tanto, es una estadística suficiente. [10]

Suficiencia mínima

Una estadística suficiente es mínimamente suficiente si puede representarse como una función de cualquier otra estadística suficiente. En otras palabras, S ( X ) es mínimamente suficiente si y solo si [11]

  1. S ( X ) es suficiente, y
  2. Si T ( X ) es suficiente, entonces existe una función f tal que S ( X ) = f ( T ( X )).

Intuitivamente, una estadística mínima suficiente captura de manera más eficiente toda la información posible sobre el parámetro θ .

Una caracterización útil de la suficiencia mínima es que cuando existe la densidad f θ , S ( X ) es mínimamente suficiente si y solo si [ cita necesaria ]

es independiente de θ  : S ( x ) = S ( y )

Esto se desprende del teorema de factorización de Fisher expuesto anteriormente.

Bahadur (1954) demostró un caso en el que no existe una estadística mínima suficiente. [12] Sin embargo, en condiciones moderadas, siempre existe una estadística mínima suficiente. En particular, en el espacio euclidiano, estas condiciones siempre se cumplen si las variables aleatorias (asociadas con ) son todas discretas o todas continuas.

Si existe una estadística mínima suficiente, y este suele ser el caso, entonces toda estadística completa suficiente es necesariamente mínima suficiente [13] (nótese que esta afirmación no excluye un caso patológico en el que exista una estadística completa suficiente pero no haya una estadística mínima suficiente). Si bien es difícil encontrar casos en los que no exista una estadística mínima suficiente, no es tan difícil encontrar casos en los que no exista una estadística completa.

La colección de razones de verosimilitud para , es una estadística mínima suficiente si el espacio de parámetros es discreto .

Ejemplos

Distribución de Bernoulli

Si X 1 , ....,  X n son variables aleatorias independientes distribuidas según Bernoulli con valor esperado p , entonces la suma T ( X ) =  X 1  + ... +  X n es una estadística suficiente para p (aquí 'éxito' corresponde a X i  = 1 y 'fracaso' a X i  = 0; por lo que T es el número total de éxitos)

Esto se ve considerando la distribución de probabilidad conjunta:

Como las observaciones son independientes, esto se puede escribir como

y, juntando potencias de p y 1 −  p , se obtiene

que satisface el criterio de factorización, siendo h ( x ) = 1 simplemente una constante.

Nótese la característica crucial: el parámetro desconocido p interactúa con los datos x sólo a través de la estadística T ( x ) = Σ  x i .

Como aplicación concreta, esto proporciona un procedimiento para distinguir una moneda justa de una moneda sesgada .

Distribución uniforme

Si X 1 , ...., X n son independientes y están uniformemente distribuidas en el intervalo [0, θ ], entonces T ( X ) = max( X 1 , ..., X n ) es suficiente para θ — el máximo de la muestra es una estadística suficiente para el máximo de la población.

Para ver esto, considere la función de densidad de probabilidad conjunta de X   ( X 1 ,..., X n ). Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales.

donde 1 { ... } es la función indicadora . Por lo tanto, la densidad toma la forma requerida por el teorema de factorización de Fisher-Neyman, donde h ( x ) =  1 {min{ x i }≥0} , y el resto de la expresión es una función de solo θ y T ( x ) = max{ x i }.

De hecho, el estimador insesgado de varianza mínima (MVUE) para θ es

Este es el máximo de muestra, escalado para corregir el sesgo , y es MVUE según el teorema de Lehmann-Scheffé . El máximo de muestra sin escalar T ( X ) es el estimador de máxima verosimilitud para θ .

Distribución uniforme (con dos parámetros)

Si son independientes y se distribuyen uniformemente en el intervalo (donde y son parámetros desconocidos), entonces es una estadística bidimensional suficiente para .

Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales, es decir

La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando

Dado que no depende del parámetro y depende solo de la función

El teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para .

Distribución de Poisson

Si X 1 , ....,  X n son independientes y tienen una distribución de Poisson con parámetro λ , entonces la suma T ( X ) =  X 1  + ... +  X n es un estadístico suficiente para  λ .

Para ver esto, considere la distribución de probabilidad conjunta:

Como las observaciones son independientes, esto se puede escribir como

que puede escribirse como

lo que demuestra que se cumple el criterio de factorización, donde h ( x ) es el recíproco del producto de los factoriales. Nótese que el parámetro λ interactúa con los datos solo a través de su suma T ( X ).

Distribución normal

Si son independientes y se distribuyen normalmente con valor esperado (un parámetro) y varianza finita conocida , entonces

es una estadística suficiente para

Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales, es decir

La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando

Dado que no depende del parámetro y depende solo de la función

El teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para .

Si se desconoce y dado que , la probabilidad anterior se puede reescribir como

El teorema de factorización de Fisher-Neyman todavía se cumple e implica que es una estadística conjunta suficiente para .

Distribución exponencial

Si son independientes y se distribuyen exponencialmente con valor esperado θ (un parámetro positivo de valor real desconocido), entonces es una estadística suficiente para θ.

Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales, es decir

La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando

Dado que no depende del parámetro y depende solo de la función

El teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para .

Distribución gamma

Si son independientes y se distribuyen como , donde y son parámetros desconocidos de una distribución Gamma , entonces es una estadística bidimensional suficiente para .

Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de densidad de probabilidad se puede escribir como un producto de densidades individuales, es decir

La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando

Dado que no depende del parámetro y depende solo de la función

El teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para

Teorema de Rao-Blackwell

La suficiencia encuentra una aplicación útil en el teorema de Rao-Blackwell , que establece que si g ( X ) es cualquier tipo de estimador de θ , entonces típicamente la esperanza condicional de g ( X ) dada la estadística suficiente T ( X ) es un mejor estimador de θ (en el sentido de tener una varianza menor) , y nunca es peor. A veces uno puede construir muy fácilmente un estimador muy rudimentario g ( X ), y luego evaluar ese valor esperado condicional para obtener un estimador que sea óptimo en varios sentidos.

Familia exponencial

Según el teorema de Pitman-Koopman-Darmois, entre las familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se está estimando, solo en las familias exponenciales hay un estadístico suficiente cuya dimensión permanece acotada a medida que aumenta el tamaño de la muestra. Intuitivamente, esto indica que las familias de distribuciones no exponenciales en la línea real requieren estadísticos no paramétricos para capturar completamente la información de los datos.

En términos menos concisos, supongamos que hay variables aleatorias reales independientes distribuidas de forma idéntica cuya distribución se sabe que está en alguna familia de distribuciones de probabilidad, parametrizada por , que satisface ciertas condiciones técnicas de regularidad, entonces esa familia es una familia exponencial si y solo si hay una estadística suficiente con valor n cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n . [14]

Este teorema muestra que la existencia de una estadística suficiente, de dimensión finita y con valores vectoriales reales, restringe drásticamente las posibles formas de una familia de distribuciones en la línea real .

Cuando los parámetros o las variables aleatorias ya no tienen valores reales, la situación es más compleja. [15]

Otros tipos de suficiencia

Suficiencia bayesiana

Una formulación alternativa de la condición de que un estadístico sea suficiente, establecida en un contexto bayesiano, involucra las distribuciones posteriores obtenidas utilizando el conjunto de datos completo y utilizando únicamente un estadístico. Por lo tanto, el requisito es que, para casi cada x ,

De manera más general, sin asumir un modelo paramétrico, podemos decir que la estadística T es suficientemente predictiva si

Resulta que esta "suficiencia bayesiana" es una consecuencia de la formulación anterior, [16] sin embargo no son directamente equivalentes en el caso de dimensión infinita. [17] Hay disponible una variedad de resultados teóricos para la suficiencia en un contexto bayesiano. [18]

Suficiencia lineal

Un concepto llamado "suficiencia lineal" se puede formular en un contexto bayesiano, [19] y de manera más general. [20] Primero defina el mejor predictor lineal de un vector Y basado en X como . Entonces una estadística lineal T ( x ) es linealmente suficiente [21] si

Véase también

Notas

  1. ^ Dodge, Y. (2003) — entrada para suficiencia lineal
  2. ^ Fisher, RA (1922). "Sobre los fundamentos matemáticos de la estadística teórica". Philosophical Transactions of the Royal Society A . 222 (594–604): 309–368. Bibcode :1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM  48.1280.02. JSTOR  91208.
  3. ^ Stigler, Stephen (diciembre de 1973). "Estudios en la historia de la probabilidad y la estadística. XXXII: Laplace, Fisher y el descubrimiento del concepto de suficiencia". Biometrika . 60 (3): 439–445. doi :10.1093/biomet/60.3.439. JSTOR  2334992. MR  0326872.
  4. ^ Casella, George; Berger, Roger L. (2002). Inferencia estadística, 2.ª ed . Duxbury Press.
  5. ^ Portada, Thomas M. (2006). Elementos de la teoría de la información . Joy A. Thomas (2.ª ed.). Hoboken, Nueva Jersey: Wiley-Interscience. pág. 36. ISBN 0-471-24195-4.OCLC 59879802  .
  6. ^ Halmos, PR; Savage, LJ (1949). "Aplicación del teorema de Radon-Nikodym a la teoría de estadísticas suficientes". Anales de estadística matemática . 20 (2): 225–241. doi : 10.1214/aoms/1177730032 . ISSN  0003-4851.
  7. ^ "Teorema de factorización - Enciclopedia de Matemáticas". encyclopediaofmath.org . Consultado el 7 de septiembre de 2022 .
  8. ^ Taraldsen, G. (2022). "El teorema de factorización para suficiencia". Preimpresión . doi :10.13140/RG.2.2.15068.87687.
  9. ^ Hogg, Robert V.; Craig, Allen T. (1995). Introducción a la estadística matemática . Prentice Hall. ISBN 978-0-02-355722-4.
  10. ^ "El teorema de factorización de Fisher-Neyman".Página web en Connexions (cnx.org)
  11. ^ Dodge (2003) — entrada para estadísticas mínimas suficientes
  12. ^ Lehmann y Casella (1998), Teoría de la estimación puntual , 2.ª edición, Springer, pág. 37
  13. ^ Lehmann y Casella (1998), Teoría de la estimación puntual , 2.ª edición, Springer, página 42
  14. ^ Tikochinsky, Y.; Tishby, NZ; Levine, RD (1984-11-01). "Enfoque alternativo a la inferencia de máxima entropía". Physical Review A . 30 (5): 2638–2644. Bibcode :1984PhRvA..30.2638T. doi :10.1103/physreva.30.2638. ISSN  0556-2791.
  15. ^ Andersen, Erling Bernhard (septiembre de 1970). "Suficiencia y familias exponenciales para espacios muestrales discretos". Revista de la Asociación Estadounidense de Estadística . 65 (331): 1248–1255. doi :10.1080/01621459.1970.10481160. ISSN  0162-1459.
  16. ^ Bernardo, JM ; Smith, AFM (1994). "Sección 5.1.4". Teoría bayesiana . Wiley. ISBN 0-471-92416-4.
  17. ^ Blackwell, D. ; Ramamoorthi, RV (1982). "Una estadística bayesiana pero no clásicamente suficiente". Anales de estadística . 10 (3): 1025–1026. doi : 10.1214/aos/1176345895 . MR  0663456. Zbl  0485.62004.
  18. ^ Nogales, AG; Oyola, JA; Pérez, P. (2000). "Sobre la independencia condicional y la relación entre suficiencia e invariancia desde el punto de vista bayesiano". Statistics & Probability Letters . 46 (1): 75–84. doi :10.1016/S0167-7152(99)00089-9. MR  1731351. Zbl  0964.62003.
  19. ^ Goldstein, M.; O'Hagan, A. (1996). "Suficiencia lineal bayesiana y sistemas de evaluaciones posteriores de expertos". Revista de la Royal Statistical Society . Serie B. 58 (2): 301–316. JSTOR  2345978.
  20. ^ Godambe, VP (1966). "Un nuevo enfoque para el muestreo a partir de poblaciones finitas. II Distribución libre de suficiencia". Revista de la Royal Statistical Society . Serie B. 28 (2): 320–328. JSTOR  2984375.
  21. ^ Witting, T. (1987). "La propiedad lineal de Markov en la teoría de la credibilidad". Boletín ASTIN . 17 (1): 71–84. doi : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .

Referencias