stringtranslate.com

estadística suficiente

En estadística , una estadística es suficiente con respecto a un modelo estadístico y su parámetro desconocido asociado si "ninguna otra estadística que pueda calcularse a partir de la misma muestra proporciona información adicional sobre el valor del parámetro". [1] En particular, una estadística es suficiente para una familia de distribuciones de probabilidad si la muestra a partir de la cual se calcula no proporciona información adicional que la estadística, sobre cuál de esas distribuciones de probabilidad es la distribución muestral .

Un concepto relacionado es el de suficiencia lineal , que es más débil que suficiencia pero puede aplicarse en algunos casos donde no existe una estadística suficiente, aunque está restringido a estimadores lineales. [2] La función de estructura de Kolmogorov trata con datos finitos individuales; la noción relacionada es la estadística algorítmica suficiente.

El concepto se debe a Sir Ronald Fisher en 1920. Stephen Stigler señaló en 1973 que el concepto de suficiencia había caído en desgracia en la estadística descriptiva debido a la fuerte dependencia de un supuesto de la forma distributiva (ver el teorema de Pitman-Koopman-Darmois a continuación). ), pero siguió siendo muy importante en el trabajo teórico. [3]

Fondo

En términos generales, dado un conjunto de datos independientes distribuidos idénticamente condicionados a un parámetro desconocido , una estadística suficiente es una función cuyo valor contiene toda la información necesaria para calcular cualquier estimación del parámetro (por ejemplo, una estimación de máxima verosimilitud ). Debido al teorema de factorización (ver más abajo), para una estadística suficiente , la densidad de probabilidad se puede escribir como . A partir de esta factorización, se puede ver fácilmente que la estimación de máxima verosimilitud de interactuará solo a través de . Normalmente, la estadística suficiente es una función simple de los datos, por ejemplo, la suma de todos los puntos de datos.

De manera más general, el "parámetro desconocido" puede representar un vector de cantidades desconocidas o puede representar todo lo que se desconoce o no está completamente especificado en el modelo. En tal caso, la estadística suficiente puede ser un conjunto de funciones, denominada estadística conjuntamente suficiente . Normalmente, hay tantas funciones como parámetros. Por ejemplo, para una distribución gaussiana con media y varianza desconocidas , el estadístico conjuntamente suficiente, a partir del cual se pueden estimar las estimaciones de máxima verosimilitud de ambos parámetros, consta de dos funciones, la suma de todos los puntos de datos y la suma de todos los puntos de datos al cuadrado ( o equivalentemente, la media muestral y la varianza muestral ).

En otras palabras, la distribución de probabilidad conjunta de los datos es condicionalmente independiente del parámetro dado el valor del estadístico suficiente para el parámetro . Tanto la estadística como el parámetro subyacente pueden ser vectores.

Definición matemática

Una estadística t  =  T ( X ) es suficiente para el parámetro subyacente θ precisamente si la distribución de probabilidad condicional de los datos X , dada la estadística t  =  T ( X ), no depende del parámetro θ . [4]

Alternativamente, se puede decir que la estadística  T ( X ) es suficiente para θ si, para todas las distribuciones anteriores en θ , la información mutua entre θ y T(X) es igual a la información mutua entre θ y X . [5] En otras palabras, la desigualdad en el procesamiento de datos se convierte en una igualdad:

Ejemplo

Como ejemplo, la media muestral es suficiente para la media ( μ ) de una distribución normal con varianza conocida. Una vez que se conoce la media de la muestra, no se puede obtener más información sobre μ de la muestra misma. Por otro lado, para una distribución arbitraria la mediana no es suficiente para la media: incluso si se conoce la mediana de la muestra, conocer la muestra misma proporcionaría más información sobre la media poblacional. Por ejemplo, si las observaciones que son menores que la mediana son solo un poco menores, pero las observaciones que exceden la mediana la exceden en gran medida, entonces esto tendría influencia en la inferencia que uno realiza sobre la media poblacional.

Teorema de factorización de Fisher-Neyman

El teorema de factorización de Fisher o criterio de factorización proporciona una caracterización conveniente de una estadística suficiente. Si la función de densidad de probabilidad es ƒ θ ( x ), entonces T es suficiente para θ si y sólo si se pueden encontrar funciones no negativas g y h tales que

es decir, la densidad ƒ se puede factorizar en un producto tal que un factor, h , no depende de θ y el otro factor, que sí depende de θ , depende de x sólo a través de T ( x ). Halmos y Savage [6] dieron una prueba general de esto y el teorema a veces se denomina teorema de factorización de Halmos-Savage. [7] Las pruebas siguientes manejan casos especiales, pero se puede dar una prueba general alternativa en la misma línea. [8]

Es fácil ver que si F ( t ) es una función uno a uno y T es un estadístico suficiente, entonces F ( T ) es un estadístico suficiente. En particular, podemos multiplicar un estadístico suficiente por una constante distinta de cero y obtener otro estadístico suficiente.

Interpretación del principio de probabilidad

Una implicación del teorema es que cuando se utiliza la inferencia basada en la verosimilitud, dos conjuntos de datos que produzcan el mismo valor para el estadístico suficiente T ( X ) siempre producirán las mismas inferencias sobre θ . Según el criterio de factorización, la dependencia de la probabilidad de θ es sólo en conjunción con T ( X ). Como esto es lo mismo en ambos casos, la dependencia de θ también será la misma, lo que llevará a inferencias idénticas.

Prueba

Gracias a Hogg y Craig. [9] Sea , una muestra aleatoria de una distribución que tiene la función de probabilidad f ( xθ ) para ι  <  θ  <  δ . Sea Y 1  =  u 1 ( X 1X 2 , ...,  X n ) un estadístico cuya función de probabilidad es g 1 ( y 1θ ). Lo que queremos demostrar es que Y 1  =  u 1 ( X 1 , X 2 , ...,  X n ) es un estadístico suficiente para θ si y sólo si, para alguna función H ,

Primero, supongamos que

Haremos la transformación y i  =  u i ( x 1x 2 , ...,  x n ), para i  = 1, ...,  n , teniendo funciones inversas x i  =  w i ( y 1y 2 , ...,  y n ), para i  = 1, ...,  n y jacobiano . De este modo,

El miembro de la izquierda es la función de densidad de probabilidad conjunta g ( y 1 , y 2 , ..., y n ; θ ) de Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n = u norte ( X 1 , ..., X norte ). En el miembro de la derecha, está la densidad de probabilidad de , por lo que es el cociente de y ; es decir, es la pdf condicional de dado .

Pero , y así , se le dio de qué depender . Dado que no se introdujo en la transformación y, por tanto, no en el jacobiano , se deduce que no depende de y que es una estadística suficiente para .

Lo contrario se prueba tomando:

donde no depende de porque depende solo de , que son independientes cuando están condicionados por , una estadística suficiente por hipótesis. Ahora divida ambos miembros por el valor absoluto del jacobiano que no desaparece y reemplácelo por las funciones en . Esto produce

¿Dónde se reemplaza el jacobiano por su valor en términos ? El miembro de la izquierda es necesariamente la pdf conjunta de . Puesto que y por tanto no depende de , entonces

es una función que no depende de .

Otra prueba

Una prueba más simple e ilustrativa es la siguiente, aunque se aplica sólo en el caso discreto.

Usamos la notación abreviada para denotar la densidad de probabilidad conjunta de by . Como es función de , tenemos , siempre que y cero en caso contrario. Por lo tanto:

siendo la última igualdad cierta según la definición de estadísticas suficientes. Así con y .

Por el contrario, si tenemos

Con la primera igualdad por la definición de pdf para múltiples variables , la segunda por la observación anterior, la tercera por hipótesis y la cuarta porque la suma no ha terminado .

Denotemos la densidad de probabilidad condicional de dado . Entonces podemos derivar una expresión explícita para esto:

Con la primera igualdad por definición de densidad de probabilidad condicional, la segunda por la observación anterior, la tercera por la igualdad demostrada anteriormente y la cuarta por simplificación. Esta expresión no depende de y por lo tanto es una estadística suficiente. [10]

Suficiencia mínima

Una estadística suficiente es mínimamente suficiente si puede representarse como una función de cualquier otra estadística suficiente. En otras palabras, S ( X ) es mínimo suficiente si y sólo si [11]

  1. S ( X ) es suficiente, y
  2. si T ( X ) es suficiente, entonces existe una función f tal que S ( X ) = f ( T ( X )).

Intuitivamente, una estadística mínima suficiente captura de manera más eficiente toda la información posible sobre el parámetro θ .

Una caracterización útil de suficiencia mínima es que cuando existe la densidad f θ , S ( X ) es mínima suficiente si y solo si [ cita necesaria ]

es independiente de θ  : S ( x ) = S ( y )

Esto se deriva del teorema de factorización de Fisher mencionado anteriormente.

Bahadur, 1954, demostró un caso en el que no existe una estadística mínima suficiente. [12] Sin embargo, en condiciones suaves, siempre existe una estadística mínima suficiente. En particular, en el espacio euclidiano, estas condiciones siempre se cumplen si las variables aleatorias (asociadas con ) son todas discretas o todas continuas.

Si existe una estadística mínima suficiente, y este suele ser el caso, entonces cada estadística suficiente completa es necesariamente mínima suficiente [13] (tenga en cuenta que esta afirmación no excluye un caso patológico en el que existe una suficiente completa mientras que no hay una estadística mínima suficiente). estadística). Si bien es difícil encontrar casos en los que no exista una estadística mínima suficiente, no lo es tanto encontrar casos en los que no exista una estadística completa.

La colección de razones de verosimilitud para , es una estadística mínima suficiente si el espacio de parámetros es discreto .

Ejemplos

Distribución de Bernoulli

Si X 1 , ....,  X n son variables aleatorias independientes distribuidas por Bernoulli con valor esperado p , entonces la suma T ( X ) =  X 1  + ... +  X n es un estadístico suficiente para p (aquí 'éxito ' corresponde a Xi =  1 y 'fracaso' a Xi =  0; entonces T es el número total de éxitos)

Esto se ve considerando la distribución de probabilidad conjunta:

Como las observaciones son independientes, esto se puede escribir como

y, sumando potencias de p y 1 −  p , se obtiene

que satisface el criterio de factorización, siendo h ( x ) = 1 solo una constante.

Tenga en cuenta la característica crucial: el parámetro desconocido p interactúa con los datos x sólo a través del estadístico T ( x ) = Σ  x i .

Como aplicación concreta, esto proporciona un procedimiento para distinguir una moneda justa de una moneda sesgada .

Distribución uniforme

Si X 1 , ...., X n son independientes y están distribuidos uniformemente en el intervalo [0, θ ], entonces T ( X ) = max( X 1 , ..., X n ) es suficiente para θ — la muestra El máximo es una estadística suficiente para el máximo de población.

Para ver esto, considere la función de densidad de probabilidad conjunta de X   ( X 1 ,..., X n ). Debido a que las observaciones son independientes, la función de probabilidad se puede escribir como un producto de densidades individuales.

donde 1 { ... } es la función indicadora . Así, la densidad toma la forma requerida por el teorema de factorización de Fisher-Neyman, donde h ( x ) =  1 {min{ x i }≥0} , y el resto de la expresión es función solo de θ y T ( x ) = max { xyo } .

De hecho, el estimador insesgado de varianza mínima (MVUE) para θ es

Este es el máximo muestral, ajustado para corregir el sesgo , y es MVUE según el teorema de Lehmann-Scheffé . El máximo de muestra sin escala T ( X ) es el estimador de máxima verosimilitud para θ .

Distribución uniforme (con dos parámetros)

Si son independientes y están distribuidos uniformemente en el intervalo (donde y son parámetros desconocidos), entonces es un estadístico bidimensional suficiente para .

Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de probabilidad se puede escribir como un producto de densidades individuales, es decir

La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando

Dado que no depende del parámetro y depende solo de la función.

el teorema de factorización de Fisher-Neyman implica que es un estadístico suficiente para .

distribución de veneno

Si X 1 , ....,  X n son independientes y tienen una distribución de Poisson con parámetro λ , entonces la suma T ( X ) =  X 1  + ... +  X n es un estadístico suficiente para  λ .

Para ver esto, considere la distribución de probabilidad conjunta:

Como las observaciones son independientes, esto se puede escribir como

que puede escribirse como

lo que demuestra que se cumple el criterio de factorización, donde h ( x ) es el recíproco del producto de los factoriales. Tenga en cuenta que el parámetro λ interactúa con los datos solo a través de su suma T ( X ).

Distribución normal

Si son independientes y están distribuidos normalmente con un valor esperado (un parámetro) y una varianza finita conocida, entonces

es una estadística suficiente para

Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de probabilidad se puede escribir como un producto de densidades individuales, es decir

La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando

Dado que no depende del parámetro y depende solo de la función.

el teorema de factorización de Fisher-Neyman implica que es un estadístico suficiente para .

Si se desconoce y desde entonces , la probabilidad anterior se puede reescribir como

El teorema de factorización de Fisher-Neyman todavía se cumple e implica que es un estadístico suficiente conjunto para .

Distribución exponencial

Si son independientes y están distribuidos exponencialmente con el valor esperado θ (un parámetro positivo desconocido de valor real), entonces es una estadística suficiente para θ.

Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de probabilidad se puede escribir como un producto de densidades individuales, es decir

La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando

Dado que no depende del parámetro y depende solo de la función.

el teorema de factorización de Fisher-Neyman implica que es un estadístico suficiente para .

Distribución gamma

Si son independientes y están distribuidos como a , donde y son parámetros desconocidos de una distribución gamma , entonces es un estadístico bidimensional suficiente para .

Para ver esto, considere la función de densidad de probabilidad conjunta de . Debido a que las observaciones son independientes, la función de probabilidad se puede escribir como un producto de densidades individuales, es decir

La densidad conjunta de la muestra toma la forma requerida por el teorema de factorización de Fisher-Neyman, dejando

Dado que no depende del parámetro y depende solo de la función.

el teorema de factorización de Fisher-Neyman implica que es una estadística suficiente para

Teorema de Rao-Blackwell

La suficiencia encuentra una aplicación útil en el teorema de Rao-Blackwell , que establece que si g ( X ) es cualquier tipo de estimador de θ , entonces típicamente la expectativa condicional de g ( X ) dado el estadístico suficiente T ( X ) es mejor (en la sensación de tener un estimador de varianza más bajo de θ , y nunca es peor. A veces se puede construir muy fácilmente un estimador g ( X ) muy burdo y luego evaluar ese valor esperado condicional para obtener un estimador que sea óptimo en varios sentidos.

familia exponencial

Según el teorema de Pitman-Koopman-Darmois, entre familias de distribuciones de probabilidad cuyo dominio no varía con el parámetro que se estima, sólo en las familias exponenciales existe un estadístico suficiente cuya dimensión permanece acotada a medida que aumenta el tamaño de la muestra. Intuitivamente, esto establece que las familias de distribuciones no exponenciales en la línea real requieren estadísticas no paramétricas para capturar completamente la información de los datos.

De manera menos concisa, supongamos que son variables aleatorias reales independientes distribuidas idénticamente cuya distribución se sabe que pertenece a alguna familia de distribuciones de probabilidad, parametrizada por , que satisface ciertas condiciones de regularidad técnica, entonces esa familia es una familia exponencial si y solo si hay un valor suficiente. Estadístico cuyo número de componentes escalares no aumenta a medida que aumenta el tamaño de la muestra n . [14]

Este teorema muestra que la existencia de estadísticas suficientes de dimensión finita y valoradas en vectores reales restringe drásticamente las posibles formas de una familia de distribuciones en la línea real .

Cuando los parámetros o las variables aleatorias ya no tienen valores reales, la situación es más compleja. [15]

Otros tipos de suficiencia

suficiencia bayesiana

Una formulación alternativa de la condición de que una estadística sea suficiente, establecida en un contexto bayesiano, implica las distribuciones posteriores obtenidas utilizando el conjunto de datos completo y utilizando sólo una estadística. Por tanto, el requisito es que, para casi cada x ,

De manera más general, sin asumir un modelo paramétrico, podemos decir que la estadística T es suficientemente predictiva si

Resulta que esta "suficiencia bayesiana" es una consecuencia de la formulación anterior, [16] sin embargo, no son directamente equivalentes en el caso de dimensión infinita. [17] Está disponible una variedad de resultados teóricos sobre la suficiencia en un contexto bayesiano. [18]

suficiencia lineal

Un concepto llamado "suficiencia lineal" puede formularse en un contexto bayesiano [19] y de manera más general. [20] Primero defina el mejor predictor lineal de un vector Y basado en X como . Entonces un estadístico lineal T ( x ) es lineal suficiente [21] si

Ver también

Notas

  1. ^ Pescador, RA (1922). "Sobre los fundamentos matemáticos de la estadística teórica". Transacciones filosóficas de la Royal Society A. 222 (594–604): 309–368. Código Bib : 1922RSPTA.222..309F. doi : 10.1098/rsta.1922.0009 . hdl : 2440/15172 . JFM  48.1280.02. JSTOR  91208.
  2. ^ Dodge, Y. (2003) - entrada para suficiencia lineal
  3. ^ Stigler, Stephen (diciembre de 1973). "Estudios de Historia de la Probabilidad y Estadística. XXXII: Laplace, Fisher y el descubrimiento del concepto de suficiencia". Biometrika . 60 (3): 439–445. doi :10.1093/biomet/60.3.439. JSTOR  2334992. SEÑOR  0326872.
  4. ^ Casella, George; Berger, Roger L. (2002). Inferencia estadística, 2ª ed . Prensa de Duxbury.
  5. ^ Portada, Thomas M. (2006). Elementos de la teoría de la información . Joy A. Thomas (2ª ed.). Hoboken, Nueva Jersey: Wiley-Interscience. pag. 36.ISBN 0-471-24195-4. OCLC  59879802.
  6. ^ Halmos, PR; Salvaje, LJ (1949). "Aplicación del teorema de radón-Nikodym a la teoría de la estadística suficiente". Los anales de la estadística matemática . 20 (2): 225–241. doi : 10.1214/aoms/1177730032 . ISSN  0003-4851.
  7. ^ "Teorema de factorización - Enciclopedia de Matemáticas". encyclopediaofmath.org . Consultado el 7 de septiembre de 2022 .
  8. ^ Taraldsen, G. (2022). "El teorema de factorización de la suficiencia". Preimpresión . doi :10.13140/RG.2.2.15068.87687.
  9. ^ Hogg, Robert V.; Craig, Allen T. (1995). Introducción a la Estadística Matemática . Prentice Hall. ISBN 978-0-02-355722-4.
  10. ^ "El teorema de factorización de Fisher-Neyman".. Página web en Connexions (cnx.org)
  11. ^ Dodge (2003): entrada para estadísticas mínimas suficientes
  12. ^ Lehmann y Casella (1998), Teoría de la estimación puntual , segunda edición, Springer, p.37
  13. ^ Lehmann y Casella (1998), Teoría de la estimación puntual , segunda edición, Springer, página 42
  14. ^ Tikochinsky, Y.; Tishby, Nueva Zelanda; Levine, RD (1 de noviembre de 1984). "Enfoque alternativo para la inferencia de máxima entropía". Revisión física A. 30 (5): 2638–2644. Código bibliográfico : 1984PhRvA..30.2638T. doi :10.1103/physreva.30.2638. ISSN  0556-2791.
  15. ^ Andersen, Erling Bernhard (septiembre de 1970). "Suficiencia y familias exponenciales para espacios muestrales discretos". Revista de la Asociación Estadounidense de Estadística . 65 (331): 1248-1255. doi :10.1080/01621459.1970.10481160. ISSN  0162-1459.
  16. ^ Bernardo, JM ; Smith, AFM (1994). "Sección 5.1.4". Teoría bayesiana . Wiley. ISBN 0-471-92416-4.
  17. ^ Blackwell, D .; Ramamoorthi, RV (1982). "Una estadística de Bayes pero no clásicamente suficiente". Anales de Estadística . 10 (3): 1025-1026. doi : 10.1214/aos/1176345895 . SEÑOR  0663456. Zbl  0485.62004.
  18. ^ Nogales, AG; Oyola, JA; Pérez, P. (2000). "Sobre la independencia condicional y la relación entre suficiencia e invariancia bajo el punto de vista bayesiano". Cartas de estadística y probabilidad . 46 (1): 75–84. doi :10.1016/S0167-7152(99)00089-9. SEÑOR  1731351. Zbl  0964.62003.
  19. ^ Goldstein, M.; O'Hagan, A. (1996). "Suficiencia lineal de Bayes y sistemas de valoraciones posteriores de expertos". Revista de la Real Sociedad de Estadística . Serie B. 58 (2): 301–316. JSTOR  2345978.
  20. ^ Godambe, vicepresidente (1966). "Un nuevo enfoque para el muestreo de poblaciones finitas. II Suficiencia sin distribución". Revista de la Real Sociedad de Estadística . Serie B. 28 (2): 320–328. JSTOR  2984375.
  21. ^ Ingenio, T. (1987). "La propiedad lineal de Markov en la teoría de la credibilidad". Boletín ASTIN . 17 (1): 71–84. doi : 10.2143/ast.17.1.2014984 . hdl : 20.500.11850/422507 .

Referencias