stringtranslate.com

Remuestreo con navaja

Esquema del remuestreo con navaja

En estadística , el método jackknife (validación cruzada jackknife) es una técnica de validación cruzada y, por lo tanto, una forma de remuestreo . Es especialmente útil para la estimación de sesgo y varianza . El método jackknife es anterior a otros métodos de remuestreo comunes, como el bootstrap . Dada una muestra de tamaño , se puede construir un estimador jackknife agregando las estimaciones de parámetros de cada submuestra de tamaño obtenidas omitiendo una observación. [1]

La técnica de la navaja fue desarrollada por Maurice Quenouille (1924-1973) a partir de 1949 y refinada en 1956. John Tukey amplió la técnica en 1958 y propuso el nombre de "navaja" porque, al igual que una navaja física (una navaja plegable compacta), es una herramienta básica que puede improvisar una solución para una variedad de problemas, aunque los problemas específicos se pueden resolver de manera más eficiente con una herramienta diseñada específicamente para ese fin. [2]

La navaja es una aproximación lineal del bootstrap . [2]

Un ejemplo sencillo: estimación de la media

El estimador jackknife de un parámetro se obtiene omitiendo sistemáticamente cada observación de un conjunto de datos y calculando la estimación del parámetro sobre las observaciones restantes y luego agregando estos cálculos.

Por ejemplo, si el parámetro a estimar es la media poblacional de la variable aleatoria , entonces, para un conjunto dado de observaciones iid, el estimador natural es la media de la muestra:

donde la última suma utiliza otra forma de indicar que el índice se ejecuta sobre el conjunto .

Luego procedemos de la siguiente manera: para cada uno calculamos la media de la submuestra jackknife que consiste en todos los puntos de datos excepto el -ésimo, y esto se llama la -ésima réplica jackknife:

Podría ser útil pensar que estas réplicas de Jackknife nos dan una aproximación de la distribución de la media de la muestra y que cuanto mayor sea, mejor será esta aproximación. Por último, para obtener el estimador de Jackknife, tomamos el promedio de estas réplicas de Jackknife:

Se puede preguntar sobre el sesgo y la varianza de . A partir de la definición de como el promedio de las réplicas de jackknife, se podría intentar calcular explícitamente, y el sesgo es un cálculo trivial, pero la varianza de es más compleja ya que las réplicas de jackknife no son independientes.

Para el caso especial de la media, se puede demostrar explícitamente que la estimación jackknife es igual a la estimación usual:

Esto establece la identidad . Luego, si tomamos las expectativas, obtenemos , por lo que es imparcial, mientras que si tomamos la varianza, obtenemos . Sin embargo, estas propiedades generalmente no se cumplen para parámetros distintos de la media.

Este ejemplo simple para el caso de estimación de la media es sólo para ilustrar la construcción de un estimador jackknife, mientras que las sutilezas reales (y la utilidad) emergen para el caso de estimación de otros parámetros, tales como momentos superiores a la media u otras funciones de la distribución.

podría usarse para construir una estimación empírica del sesgo de , es decir, con algún factor adecuado , aunque en este caso sabemos que esta construcción no agrega ningún conocimiento significativo, pero da la estimación correcta del sesgo (que es cero).

Se puede calcular una estimación de navaja de la varianza de a partir de la varianza de las réplicas de navaja : [3] [4]

La igualdad de la izquierda define el estimador y la igualdad de la derecha es una identidad que se puede verificar directamente. Luego, tomando las expectativas, obtenemos , por lo que este es un estimador insesgado de la varianza de .

Estimación del sesgo de un estimador

La técnica jackknife se puede utilizar para estimar (y corregir) el sesgo de un estimador calculado sobre toda la muestra.

Supongamos que es el parámetro objetivo de interés, que se supone que es algún funcional de la distribución de . Con base en un conjunto finito de observaciones , que se supone que consiste en copias iid de , se construye el estimador :

El valor de depende de la muestra, por lo que cambiará de una muestra aleatoria a otra.

Por definición el sesgo de es el siguiente:

Se puede desear calcular varios valores de a partir de varias muestras y promediarlos para calcular una aproximación empírica de , pero esto es imposible cuando no hay "otras muestras" cuando se utilizó todo el conjunto de observaciones disponibles para calcular . En este tipo de situación, la técnica de remuestreo de navaja puede ser de ayuda.

Construimos las réplicas de navaja:

donde cada réplica es una estimación de "dejar uno afuera" basada en la submuestra de navaja que consiste en todos los puntos de datos menos uno:

Luego definimos su promedio:

La estimación del sesgo de tipo jackknife viene dada por:

y la estimación de navaja corregida por sesgo resultante viene dada por:

Esto elimina el sesgo en el caso especial en que se presenta y lo reduce a los demás casos. [2]

Estimación de la varianza de un estimador

La técnica jackknife también se puede utilizar para estimar la varianza de un estimador calculado sobre toda la muestra.

Véase también

Literatura

Notas

  1. ^ Efron 1982, pág. 2.
  2. ^ abc Cameron y Trivedi 2005, pág. 375.
  3. ^ Efron 1982, pág. 14.
  4. ^ McIntosh, Avery I. "El método de estimación Jackknife" (PDF) . Universidad de Boston . Avery I. McIntosh. Archivado desde el original (PDF) el 2016-05-14 . Consultado el 2016-04-30 .:pág. 3.

Referencias