Remuestreo con navaja

En estadística , el método jackknife (validación cruzada jackknife) es una técnica de validación cruzada y, por lo tanto, una forma de remuestreo . Es especialmente útil para la estimación de sesgo y varianza . El método jackknife es anterior a otros métodos de remuestreo comunes, como el bootstrap . Dada una muestra de tamaño , se puede construir un estimador jackknife agregando las estimaciones de parámetros de cada submuestra de tamaño obtenidas omitiendo una observación. ^[1] ${\estilo de visualización n}$ ${\estilo de visualización (n-1)}$

La técnica de la navaja fue desarrollada por Maurice Quenouille (1924-1973) a partir de 1949 y refinada en 1956. John Tukey amplió la técnica en 1958 y propuso el nombre de "navaja" porque, al igual que una navaja física (una navaja plegable compacta), es una herramienta básica que puede improvisar una solución para una variedad de problemas, aunque los problemas específicos se pueden resolver de manera más eficiente con una herramienta diseñada específicamente para ese fin. ^[2]

La navaja es una aproximación lineal del bootstrap . ^[2]

Un ejemplo sencillo: estimación de la media

El estimador jackknife de un parámetro se obtiene omitiendo sistemáticamente cada observación de un conjunto de datos y calculando la estimación del parámetro sobre las observaciones restantes y luego agregando estos cálculos.

Por ejemplo, si el parámetro a estimar es la media poblacional de la variable aleatoria , entonces, para un conjunto dado de observaciones iid, el estimador natural es la media de la muestra: ${\estilo de visualización x}$ $x_{1},...,x_{n}$

{\bar {x}}={\frac {1}{n}}\suma _{i=1}^{n}x_{i}={\frac {1}{n}}\suma _{i\in [n]}x_{i},

donde la última suma utiliza otra forma de indicar que el índice se ejecuta sobre el conjunto . ${\estilo de visualización i}$ $[n]=\{1,\ldots ,n\}$

Luego procedemos de la siguiente manera: para cada uno calculamos la media de la submuestra jackknife que consiste en todos los puntos de datos excepto el -ésimo, y esto se llama la -ésima réplica jackknife: $i\in [n]$ ${\bar {x}}_{(i)}$ ${\estilo de visualización i}$ ${\estilo de visualización i}$

{\bar {x}}_{(i)}={\frac {1}{n-1}}\sum _{j\in [n],j\neq i}x_{j},\quad \quad i=1,\dots ,n.

Podría ser útil pensar que estas réplicas de Jackknife nos dan una aproximación de la distribución de la media de la muestra y que cuanto mayor sea, mejor será esta aproximación. Por último, para obtener el estimador de Jackknife, tomamos el promedio de estas réplicas de Jackknife: ${\estilo de visualización n}$ ${\bar {x}}_{(1)},\ldots ,{\bar {x}}_{(n)}$ ${\estilo de visualización {\bar {x}}}$ ${\estilo de visualización n}$ ${\estilo de visualización n}$

{\bar {x}}_{\mathrm {jack} }={\frac {1}{n}}\sum _{i=1}^{n}{\bar {x}}_{(i)}.

Se puede preguntar sobre el sesgo y la varianza de . A partir de la definición de como el promedio de las réplicas de jackknife, se podría intentar calcular explícitamente, y el sesgo es un cálculo trivial, pero la varianza de es más compleja ya que las réplicas de jackknife no son independientes. ${\bar {x}}_{\mathrm {jack} }$ ${\bar {x}}_{\mathrm {jack} }$ ${\bar {x}}_{\mathrm {jack} }$

Para el caso especial de la media, se puede demostrar explícitamente que la estimación jackknife es igual a la estimación usual:

{\frac {1}{n}}\sum _{i=1}^{n}{\bar {x}}_{(i)}={\bar {x}}.

Esto establece la identidad . Luego, si tomamos las expectativas, obtenemos , por lo que es imparcial, mientras que si tomamos la varianza, obtenemos . Sin embargo, estas propiedades generalmente no se cumplen para parámetros distintos de la media. ${\bar {x}}_{\mathrm {jack} }={\bar {x}}$ $E[{\bar {x}}_{\mathrm {jack} }]=E[{\bar {x}}]=E[x]$ ${\bar {x}}_{\mathrm {jack} }$ $V[{\bar {x}}_{\mathrm {jack} }]=V[{\bar {x}}]=V[x]/n$

Este ejemplo simple para el caso de estimación de la media es sólo para ilustrar la construcción de un estimador jackknife, mientras que las sutilezas reales (y la utilidad) emergen para el caso de estimación de otros parámetros, tales como momentos superiores a la media u otras funciones de la distribución.

${\bar {x}}_{\mathrm {jack} }$ podría usarse para construir una estimación empírica del sesgo de , es decir, con algún factor adecuado , aunque en este caso sabemos que esta construcción no agrega ningún conocimiento significativo, pero da la estimación correcta del sesgo (que es cero). ${\estilo de visualización {\bar {x}}}$ ${\widehat {\operatorname {sesgo} }}({\bar {x}})_{\mathrm {jack} }=c({\bar {x}}_{\mathrm {jack} }-{\bar {x}})$ $c>0$ ${\bar {x}}_{\mathrm {jack} }={\bar {x}}$

Se puede calcular una estimación de navaja de la varianza de a partir de la varianza de las réplicas de navaja : ^[3]^[4] ${\estilo de visualización {\bar {x}}}$ ${\bar {x}}_{(i)}$

{\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }={\frac {n-1}{n}}\sum _{i=1}^{n}({\bar {x}}_{(i)}-{\bar {x}}_{\mathrm {jack} })^{2}={\frac {1}{n(n-1)}}\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}.

La igualdad de la izquierda define el estimador y la igualdad de la derecha es una identidad que se puede verificar directamente. Luego, tomando las expectativas, obtenemos , por lo que este es un estimador insesgado de la varianza de . ${\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }$ $E[{\widehat {\operatorname {var} }}({\bar {x}})_{\mathrm {jack} }]=V[x]/n=V[{\bar {x}}]$ ${\bar {x}}$

Estimación del sesgo de un estimador

La técnica jackknife se puede utilizar para estimar (y corregir) el sesgo de un estimador calculado sobre toda la muestra.

Supongamos que es el parámetro objetivo de interés, que se supone que es algún funcional de la distribución de . Con base en un conjunto finito de observaciones , que se supone que consiste en copias iid de , se construye el estimador : $\theta$ $x$ $x_{1},...,x_{n}$ $x$ ${\hat {\theta }}$

{\hat {\theta }}=f_{n}(x_{1},\ldots ,x_{n}).

El valor de depende de la muestra, por lo que cambiará de una muestra aleatoria a otra. ${\hat {\theta }}$

Por definición el sesgo de es el siguiente: ${\hat {\theta }}$

{\text{bias}}({\hat {\theta }})=E[{\hat {\theta }}]-\theta .

Se puede desear calcular varios valores de a partir de varias muestras y promediarlos para calcular una aproximación empírica de , pero esto es imposible cuando no hay "otras muestras" cuando se utilizó todo el conjunto de observaciones disponibles para calcular . En este tipo de situación, la técnica de remuestreo de navaja puede ser de ayuda. ${\hat {\theta }}$ $E[{\hat {\theta }}]$ $x_{1},...,x_{n}$ ${\hat {\theta }}$

Construimos las réplicas de navaja:

{\hat {\theta }}_{(1)}=f_{n-1}(x_{2},x_{3}\ldots ,x_{n})

{\hat {\theta }}_{(2)}=f_{n-1}(x_{1},x_{3},\ldots ,x_{n})

\vdots

{\hat {\theta }}_{(n)}=f_{n-1}(x_{1},x_{2},\ldots ,x_{n-1})

donde cada réplica es una estimación de "dejar uno afuera" basada en la submuestra de navaja que consiste en todos los puntos de datos menos uno:

{\hat {\theta }}_{(i)}=f_{n-1}(x_{1},\ldots ,x_{i-1},x_{i+1},\ldots ,x_{n})\quad \quad i=1,\dots ,n.

Luego definimos su promedio:

{\hat {\theta }}_{\mathrm {jack} }={\frac {1}{n}}\sum _{i=1}^{n}{\hat {\theta }}_{(i)}

La estimación del sesgo de tipo jackknife viene dada por: ${\hat {\theta }}$

{\widehat {\text{bias}}}({\hat {\theta }})_{\mathrm {jack} }=(n-1)({\hat {\theta }}_{\mathrm {jack} }-{\hat {\theta }})

y la estimación de navaja corregida por sesgo resultante viene dada por: $\theta$

{\hat {\theta }}_{\text{jack}}^{*}={\hat {\theta }}-{\widehat {\text{bias}}}({\hat {\theta }})_{\mathrm {jack} }=n{\hat {\theta }}-(n-1){\hat {\theta }}_{\mathrm {jack} }.

Esto elimina el sesgo en el caso especial en que se presenta y lo reduce a los demás casos. ^[2] $O(n^{-1})$ $O(n^{-2})$

Estimación de la varianza de un estimador

La técnica jackknife también se puede utilizar para estimar la varianza de un estimador calculado sobre toda la muestra.

Véase también

Literatura

Berger, YG (2007). "Un estimador de varianza de tipo jackknife para muestras estratificadas unietapa con probabilidades desiguales". Biometrika . 94 (4): 953–964. doi :10.1093/biomet/asm072.
Berger, YG; Rao, JNK (2006). "Jackknife ajustado para imputación bajo muestreo de probabilidad desigual sin reemplazo". Journal of the Royal Statistical Society, Serie B . 68 (3): 531–547. doi : 10.1111/j.1467-9868.2006.00555.x .
Berger, YG; Skinner, CJ (2005). "Un estimador de varianza de tipo jackknife para muestreo de probabilidad desigual". Journal of the Royal Statistical Society, Serie B . 67 (1): 79–89. doi :10.1111/j.1467-9868.2005.00489.x.
Jiang, J.; Lahiri, P.; Wan, SM. (2002). "Una teoría de navaja unificada para la mejor predicción empírica con estimación M". Anales de Estadística . 30 (6): 1782–810. doi : 10.1214/aos/1043351257 .
Jones, HL (1974). "Estimación Jackknife de funciones de medias de estratos". Biometrika . 61 (2): 343–348. doi :10.2307/2334363. JSTOR 2334363.
Kish, L.; Frankel, MR (1974). "Inferencia a partir de muestras complejas". Revista de la Royal Statistical Society, Serie B . 36 (1): 1–37.
Krewski, D.; Rao, JNK (1981). "Inferencia a partir de muestras estratificadas: propiedades de los métodos de linealización, jackknife y replicación repetida equilibrada". Anales de Estadística . 9 (5): 1010–1019. doi : 10.1214/aos/1176345580 .
Quenouille, MH (1956). "Notas sobre el sesgo en la estimación". Biometrika . 43 (3–4): 353–360. doi :10.1093/biomet/43.3-4.353.
Rao, JNK; Shao, J. (1992). "Estimación de la varianza de Jackknife con datos de encuesta bajo imputación de plataforma activa". Biometrika . 79 (4): 811–822. doi :10.1093/biomet/79.4.811.
Rao, JNK; Wu, CFJ; Yue, K. (1992). "Algunos trabajos recientes sobre métodos de remuestreo para encuestas complejas". Survey Methodology . 18 (2): 209–217.
Shao, J. y Tu, D. (1995). El método Jackknife y Bootstrap. Springer-Verlag, Inc.
Tukey, JW (1958). "Sesgo y confianza en muestras no muy grandes (resumen)". Anales de estadística matemática . 29 (2): 614.
Wu, CFJ (1986). "Jackknife, Bootstrap y otros métodos de remuestreo en el análisis de regresión". Anales de Estadística . 14 (4): 1261–1295. doi : 10.1214/aos/1176350142 .

Notas

^ Efron 1982, pág. 2.
^ abc Cameron y Trivedi 2005, pág. 375.
^ Efron 1982, pág. 14.
^ McIntosh, Avery I. "El método de estimación Jackknife" (PDF) . Universidad de Boston . Avery I. McIntosh. Archivado desde el original (PDF) el 2016-05-14 . Consultado el 2016-04-30 .:pág. 3.

Referencias

Cameron, Adrian; Trivedi, Pravin K. (2005). Microeconometría: métodos y aplicaciones . Cambridge Nueva York: Cambridge University Press. ISBN 9780521848053.
Efron, Bradley ; Stein, Charles (mayo de 1981). "La estimación Jackknife de la varianza". Anales de Estadística . 9 (3): 586–596. doi : 10.1214/aos/1176345462 . JSTOR 2240822.
Efron, Bradley (1982). El método jackknife, el método bootstrap y otros métodos de remuestreo . Filadelfia, PA: Sociedad de Matemáticas Industriales y Aplicadas. ISBN 9781611970319.
Quenouille, Maurice H. (septiembre de 1949). "Problemas en el muestreo plano". Anales de estadística matemática . 20 (3): 355–375. doi : 10.1214/aoms/1177729989 . JSTOR 2236533.
Quenouille, Maurice H. (1956). "Notas sobre el sesgo en la estimación". Biometrika . 43 (3–4): 353–360. doi :10.1093/biomet/43.3-4.353. JSTOR 2332914.
Tukey, John W. (1958). "Sesgo y confianza en muestras no muy grandes (resumen)". Anales de estadística matemática . 29 (2): 614. doi : 10.1214/aoms/1177706647 .