Estimador

En estadística , un estimador es una regla para calcular una estimación de una cantidad dada basándose en datos observados : así se distinguen la regla (el estimador), la cantidad de interés (el estimando ) y su resultado (la estimación). ^[1] Por ejemplo, la media de la muestra es un estimador comúnmente utilizado de la media de la población .

Existen estimadores puntuales y de intervalo . Los estimadores puntuales producen resultados de un solo valor. Esto contrasta con un estimador de intervalo , donde el resultado sería un rango de valores plausibles. "Un solo valor" no significa necesariamente "un solo número", sino que incluye estimadores de valores vectoriales o de valores de función.

La teoría de la estimación se ocupa de las propiedades de los estimadores; es decir, de definir propiedades que se puedan utilizar para comparar diferentes estimadores (diferentes reglas para crear estimaciones) para la misma cantidad, basándose en los mismos datos. Dichas propiedades se pueden utilizar para determinar las mejores reglas que se deben utilizar en determinadas circunstancias. Sin embargo, en la estadística robusta , la teoría estadística pasa a considerar el equilibrio entre tener buenas propiedades, si se cumplen supuestos estrictamente definidos, y tener peores propiedades que se cumplan en condiciones más amplias.

Fondo

Un "estimador" o " estimación puntual " es una estadística (es decir, una función de los datos) que se utiliza para inferir el valor de un parámetro desconocido en un modelo estadístico . Una forma común de expresarlo es "el estimador es el método seleccionado para obtener una estimación de un parámetro desconocido". El parámetro que se estima a veces se denomina estimando . Puede ser de dimensión finita (en modelos paramétricos y semiparamétricos ) o de dimensión infinita ( modelos semiparamétricos y no paramétricos ). ^[2] Si se denota el parámetro , el estimador se escribe tradicionalmente añadiendo un circunflejo sobre el símbolo: . Al ser una función de los datos, el estimador es en sí mismo una variable aleatoria ; una realización particular de esta variable aleatoria se denomina "estimación". A veces, las palabras "estimador" y "estimación" se utilizan indistintamente. ${\estilo de visualización \theta}$ ${\widehat {\theta}}$

La definición prácticamente no impone restricciones sobre qué funciones de los datos pueden denominarse "estimadores". El atractivo de los diferentes estimadores se puede juzgar observando sus propiedades, como la imparcialidad , el error cuadrático medio , la consistencia , la distribución asintótica , etc. La construcción y comparación de estimadores son los temas de la teoría de la estimación . En el contexto de la teoría de la decisión , un estimador es un tipo de regla de decisión , y su rendimiento se puede evaluar mediante el uso de funciones de pérdida .

Cuando se utiliza la palabra "estimador" sin calificativo, normalmente se refiere a una estimación puntual. La estimación en este caso es un único punto en el espacio de parámetros . También existe otro tipo de estimadores: los estimadores de intervalo , donde las estimaciones son subconjuntos del espacio de parámetros.

El problema de la estimación de densidad surge en dos aplicaciones. En primer lugar, en la estimación de las funciones de densidad de probabilidad de variables aleatorias y, en segundo lugar, en la estimación de la función de densidad espectral de una serie temporal . En estos problemas, las estimaciones son funciones que pueden considerarse como estimaciones puntuales en un espacio de dimensión infinita, y existen problemas de estimación de intervalos correspondientes.

Definición

Supongamos que se necesita estimar un parámetro fijo . Entonces, un "estimador" es una función que asigna el espacio muestral a un conjunto de estimaciones muestrales . Un estimador de se denota generalmente con el símbolo . A menudo es conveniente expresar la teoría utilizando el álgebra de variables aleatorias : así, si X se utiliza para denotar una variable aleatoria correspondiente a los datos observados, el estimador (tratado en sí mismo como una variable aleatoria) se simboliza como una función de esa variable aleatoria, . La estimación para un valor particular de datos observados (es decir, para ) es entonces , que es un valor fijo. A menudo se utiliza una notación abreviada en la que se interpreta directamente como una variable aleatoria , pero esto puede causar confusión. ${\estilo de visualización \theta}$ ${\estilo de visualización \theta}$ ${\widehat {\theta}}$ ${\widehat {\theta}}(X)$ ${\estilo de visualización x}$ ${\estilo de visualización X=x}$ ${\widehat {\theta}}(x)$ ${\widehat {\theta}}$

Propiedades cuantificadas

Las siguientes definiciones y atributos son relevantes. ^[3]

Error

Para una muestra dada , el " error " del estimador se define como ${\estilo de visualización x}$ ${\widehat {\theta}}$

e(x)={\widehat {\theta }}(x)-\theta ,

donde es el parámetro que se está estimando. El error, e , depende no sólo del estimador (la fórmula o procedimiento de estimación), sino también de la muestra. ${\estilo de visualización \theta}$

Error cuadrático medio

El error cuadrático medio de se define como el valor esperado (promedio ponderado por probabilidad, sobre todas las muestras) de los errores al cuadrado; es decir, ${\widehat {\theta}}$

\operatorname {MSE} ({\widehat {\theta }})=\operatorname {E} [({\widehat {\theta }}(X)-\theta )^{2}].

Se utiliza para indicar qué tan lejos, en promedio, se encuentra la colección de estimaciones del parámetro único que se está estimando. Considere la siguiente analogía. Suponga que el parámetro es el centro de la diana de un objetivo, el estimador es el proceso de disparar flechas al objetivo y las flechas individuales son estimaciones (muestras). Entonces, un MSE alto significa que la distancia promedio de las flechas desde el centro de la diana es alta, y un MSE bajo significa que la distancia promedio desde el centro de la diana es baja. Las flechas pueden estar agrupadas o no. Por ejemplo, incluso si todas las flechas dan en el mismo punto, pero no alcanzan el objetivo, el MSE sigue siendo relativamente grande. Sin embargo, si el MSE es relativamente bajo, es probable que las flechas estén más agrupadas (que muy dispersas) alrededor del objetivo.

Desviación de muestreo

Para una muestra dada , la desviación de muestreo del estimador se define como ${\estilo de visualización x}$ ${\widehat {\theta}}$

d(x)={\widehat {\theta }}(x)-\nombredeloperador {E} ({\widehat {\theta }}(X))={\widehat {\theta }}(x)-\nombredeloperador {E} ({\widehat {\theta }}),

donde es el valor esperado del estimador. La desviación de muestreo, d , depende no solo del estimador, sino también de la muestra. $\operatorname {E} ({\widehat {\theta }}(X))$

Diferencia

La varianza de es el valor esperado de las desviaciones de muestreo al cuadrado; es decir, . Se utiliza para indicar qué tan lejos, en promedio, se encuentra el conjunto de estimaciones del valor esperado de las estimaciones. (Obsérvese la diferencia entre MSE y varianza). Si el parámetro es el centro de un objetivo y las flechas son estimaciones, entonces una varianza relativamente alta significa que las flechas están dispersas, y una varianza relativamente baja significa que las flechas están agrupadas. Incluso si la varianza es baja, el conjunto de flechas puede estar muy lejos del objetivo, e incluso si la varianza es alta, el conjunto difuso de flechas puede seguir siendo imparcial. Finalmente, incluso si todas las flechas fallan por completo el objetivo, si, no obstante, todas dan en el mismo punto, la varianza es cero. ${\widehat {\theta}}$ $\operatorname {Var} ({\widehat {\theta }})=\operatorname {E} [({\widehat {\theta }}-\operatorname {E} [{\widehat {\theta }}])^{2}]$

Inclinación

El sesgo de se define como . Es la distancia entre el promedio de la colección de estimaciones y el parámetro único que se está estimando. El sesgo de es una función del valor verdadero de por lo que decir que el sesgo de es significa que para cada el sesgo de es . ${\widehat {\theta}}$ $B({\widehat {\theta }})=\nombredeloperador {E} ({\widehat {\theta }})-\theta$ ${\widehat {\theta}}$ ${\estilo de visualización \theta}$ ${\widehat {\theta}}$ ${\estilo de visualización b}$ ${\estilo de visualización \theta}$ ${\widehat {\theta}}$ ${\estilo de visualización b}$

Existen dos tipos de estimadores: estimadores sesgados y estimadores insesgados. Se puede determinar si un estimador es sesgado o no por la relación entre y 0: $\operatorname {E} ({\widehat {\theta }})-\theta$

Si , está sesgado. $\operatorname {E} ({\widehat {\theta }})-\theta \neq 0$ ${\widehat {\theta}}$
Si , es imparcial. $\operatorname {E} ({\widehat {\theta }})-\theta = 0$ ${\widehat {\theta}}$

El sesgo es también el valor esperado del error, ya que . Si el parámetro es el centro de un objetivo y las flechas son estimaciones, entonces un valor absoluto relativamente alto para el sesgo significa que la posición promedio de las flechas está fuera del objetivo, y un sesgo absoluto relativamente bajo significa que la posición promedio de las flechas está en el objetivo. Pueden estar dispersos o agrupados. La relación entre el sesgo y la varianza es análoga a la relación entre la exactitud y la precisión . $\nombreoperador {E} ({\widehat {\theta }})-\theta =\nombreoperador {E} ({\widehat {\theta }}-\theta )$

El estimador es un estimador imparcial de si y solo si . El sesgo es una propiedad del estimador, no de la estimación. A menudo, la gente se refiere a una "estimación sesgada" o una "estimación imparcial", pero en realidad están hablando de una "estimación de un estimador sesgado" o una "estimación de un estimador imparcial". Además, la gente a menudo confunde el "error" de una única estimación con el "sesgo" de un estimador. Que el error de una estimación sea grande, no significa que el estimador esté sesgado. De hecho, incluso si todas las estimaciones tienen valores absolutos astronómicos para sus errores, si el valor esperado del error es cero, el estimador es imparcial. Además, el sesgo de un estimador no impide que el error de una estimación sea cero en un caso particular. La situación ideal es tener un estimador imparcial con baja varianza, y también tratar de limitar el número de muestras donde el error es extremo (es decir, tener pocos valores atípicos). Sin embargo, la imparcialidad no es esencial. A menudo, si se permite un pequeño sesgo, se puede encontrar un estimador con un error cuadrático medio menor y/o menos estimaciones de muestras atípicas. ${\widehat {\theta}}$ ${\estilo de visualización \theta}$ $B({\widehat {\theta }})=0$

Una alternativa a la versión de "imparcial" mencionada anteriormente es la "mediana imparcial", en la que la mediana de la distribución de estimaciones coincide con el valor verdadero; por lo tanto, a largo plazo, la mitad de las estimaciones serán demasiado bajas y la otra mitad demasiado altas. Si bien esto se aplica inmediatamente solo a los estimadores de valores escalares, se puede extender a cualquier medida de tendencia central de una distribución: consulte estimadores medianamente imparciales .

En un problema práctico, siempre puede tener una relación funcional con . Por ejemplo, si una teoría genética establece que hay un tipo de hoja (verde almidonado) que se produce con probabilidad , con . Entonces, para las hojas, la variable aleatoria , o el número de hojas verdes almidonadas, se puede modelar con una distribución. El número se puede utilizar para expresar el siguiente estimador para : . Se puede demostrar que es un estimador insesgado para : . ${\widehat {\theta}}$ ${\estilo de visualización \theta}$ $p_{1}=1/4\cdot (\theta +2)$ $0<\theta <1$ ${\estilo de visualización n}$ $Estilo de visualización N_{1}$ $Bin(n,p_{1})$ ${\estilo de visualización \theta}$ ${\widehat {\theta}}=4/n\cdot N_{1}-2$ ${\widehat {\theta}}$ ${\estilo de visualización \theta}$ $E[{\widehat {\theta }}]=E[4/n\cdot N_{1}-2]$ $=4/n\cdot E[N_{1}]-2$ $=4/n\cdot np_{1}-2$ $=4\cdot p_{1}-2$ $=4\cdot 1/4\cdot (\theta +2)-2$ $=\theta+2-2$ $=\theta$

Imparcial

Una propiedad deseable para los estimadores es la característica de imparcialidad, en la que se demuestra que un estimador no tiene una tendencia sistemática a producir estimaciones mayores o menores que la probabilidad proporcionada. Además, los estimadores imparciales con varianzas más pequeñas son preferibles a los de varianzas mayores porque estarán más cerca del valor "verdadero" del parámetro. El estimador imparcial con la varianza más pequeña se conoce como estimador imparcial de varianza mínima (MVUE).

Para saber si su estimador es imparcial, es fácil seguir la ecuación , . Con el estimador T con un parámetro de interés, se resuelve la ecuación anterior de modo que se muestre que el estimador es imparcial. Si observamos la figura de la derecha, a pesar de ser el único estimador imparcial, si las distribuciones se superpusieran y ambas estuvieran centradas, entonces la distribución sería en realidad el estimador imparcial preferido. $\operatorname {E} ({\widehat {\theta }})-\theta = 0$ ${\widehat {\theta}}$ ${\estilo de visualización \theta}$ $\operatorname {E} [T]=\theta$ $\theta_{2}$ ${\estilo de visualización \theta}$ $\theta_{1}$

Expectativa Al observar las cantidades en interés de la expectativa para la distribución del modelo, existe un estimador imparcial que debería satisfacer las dos ecuaciones siguientes.

1.\quad {\overline {X}}_{n}={\frac {X_{1}+X_{2}+\cdots +X_{n}}{n}}

2.\quad \operatorname {E} \left[{\overline {X}}_{n}\right]=\mu

Varianza De manera similar, cuando se observan cantidades en interés de la varianza como la distribución del modelo, también existe un estimador imparcial que debería satisfacer las dos ecuaciones siguientes.

1.\quad S_{n}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\bar {X_{n}}})^{2}

2.\quad \operatorname {E} \left[S_{n}^{2}\right]=\sigma ^{2}

Nótese que estamos dividiendo por n − 1 porque si dividiéramos por n obtendríamos un estimador con un sesgo negativo que produciría estimaciones demasiado pequeñas para . También debe mencionarse que, aunque es insesgado, lo inverso no es cierto. ^[4] $\sigma ^{2}$ $Estilo de visualización S_{n}^{2}}$ $\sigma ^{2}$

Relaciones entre las cantidades

El error cuadrático medio, la varianza y el sesgo están relacionados: es decir, el error cuadrático medio = varianza + el cuadrado del sesgo. En particular, para un estimador insesgado, la varianza es igual al error cuadrático medio. $\operatorname {MSE} ({\widehat {\theta }})=\operatorname {Var} ({\widehat {\theta }})+(B({\widehat {\theta }}))^{2},$
La desviación estándar de un estimador de (la raíz cuadrada de la varianza), o una estimación de la desviación estándar de un estimador de , se denomina error estándar de . ${\widehat {\theta}}$ ${\estilo de visualización \theta}$ ${\widehat {\theta}}$ ${\estilo de visualización \theta}$ ${\widehat {\theta}}$
El equilibrio entre sesgo y varianza se utilizará en la complejidad del modelo, el sobreajuste y el subajuste. Se utiliza principalmente en el campo del aprendizaje supervisado y el modelado predictivo para diagnosticar el rendimiento de los algoritmos.

Propiedades del comportamiento

Consistencia

Una secuencia consistente de estimadores es una secuencia de estimadores que convergen en probabilidad a la cantidad que se está estimando a medida que el índice (normalmente el tamaño de la muestra ) crece sin límite. En otras palabras, al aumentar el tamaño de la muestra aumenta la probabilidad de que el estimador se acerque al parámetro de la población.

Matemáticamente, una secuencia de estimadores { t _n ; n ≥ 0 } es un estimador consistente para el parámetro θ si y solo si, para todo ε > 0 , sin importar cuán pequeño sea, tenemos

\lim _{n\to \infty }\Pr \left\{\left|t_{n}-\theta \right|<\varepsilon \right\}=1

La consistencia definida anteriormente puede denominarse consistencia débil. La secuencia es fuertemente consistente si converge casi con seguridad al valor verdadero.

Un estimador que converge a un múltiplo de un parámetro puede convertirse en un estimador consistente multiplicando el estimador por un factor de escala , es decir, el valor verdadero dividido por el valor asintótico del estimador. Esto ocurre con frecuencia en la estimación de parámetros de escala mediante medidas de dispersión estadística .

Consistencia de Fisher

Un estimador puede considerarse consistente de Fisher siempre que el estimador sea el mismo funcional de la función de distribución empírica que la función de distribución verdadera. Siguiendo la fórmula:

{\widehat {\theta }}=h(T_{n}),\theta =h(T_{\theta })

Donde y son la función de distribución empírica y las funciones de distribución teórica respectivamente. Un ejemplo sencillo para ver si algo es consistente con Fisher es comprobar la consistencia de la media y la varianza. Por ejemplo, para comprobar la consistencia de la media y comprobar la varianza, confirme que . ^[5] $Estilo de visualización T_{n}$ $T_{\theta}$ ${\widehat {\mu }}={\bar {X}}$ ${\widehat {\sigma }}^{2}=SSD/n$

Normalidad asintótica

Un estimador asintóticamente normal es un estimador consistente cuya distribución alrededor del parámetro verdadero θ se aproxima a una distribución normal con una desviación estándar que se reduce proporcionalmente a medida que el tamaño de la muestra n crece. Utilizando para denotar la convergencia en la distribución , t _n es asintóticamente normal si $1/{\sqrt {n}}$ ${\xrightarrow {D}}$

{\sqrt {n}}(t_{n}-\theta ){\xrightarrow {D}}N(0,V),

para algunos V .

En esta formulación, V/n puede denominarse varianza asintótica del estimador. Sin embargo, algunos autores también denominan V a la varianza asintótica . Nótese que la convergencia no necesariamente habrá ocurrido para cualquier "n" finito, por lo tanto, este valor es solo una aproximación a la varianza verdadera del estimador, mientras que en el límite la varianza asintótica (V/n) es simplemente cero. Para ser más específicos, la distribución del estimador t _n converge débilmente a una función delta de Dirac centrada en . $\theta$

El teorema del límite central implica la normalidad asintótica de la media de la muestra como estimador de la media verdadera. En términos más generales, los estimadores de máxima verosimilitud son asintóticamente normales en condiciones de regularidad bastante débil (véase la sección sobre asintótica del artículo sobre máxima verosimilitud). Sin embargo, no todos los estimadores son asintóticamente normales; los ejemplos más simples se encuentran cuando el valor verdadero de un parámetro se encuentra en el límite de la región de parámetros permisibles. ${\bar {X}}$

Eficiencia

La eficiencia de un estimador se utiliza para estimar la cantidad de interés de una manera de "error mínimo". En realidad, no existe un mejor estimador explícito; solo puede haber un mejor estimador. La buena o mala eficiencia de un estimador se basa en la elección de una función de pérdida particular , y se refleja en dos propiedades naturalmente deseables de los estimadores: ser insesgados y tener un error cuadrático medio mínimo (MSE) . En general, no se pueden satisfacer ambas simultáneamente: un estimador insesgado puede tener un error cuadrático medio menor que cualquier estimador sesgado (ver sesgo del estimador ). Una función relaciona el error cuadrático medio con el sesgo del estimador. ^[4] $\operatorname {E} ({\widehat {\theta }})-\theta =0$ $\operatorname {E} [({\widehat {\theta }}-\theta )^{2}]$

\operatorname {E} [({\widehat {\theta }}-\theta )^{2}]=(\operatorname {E} ({\widehat {\theta }})-\theta )^{2}+\operatorname {Var} (\theta )\

El primer término representa el error cuadrático medio; el segundo término representa el cuadrado del sesgo del estimador; y el tercer término representa la varianza de la muestra. La calidad del estimador se puede identificar a partir de la comparación entre la varianza, el cuadrado del sesgo del estimador o el MSE. La varianza del buen estimador (buena eficiencia) sería menor que la varianza del mal estimador (mala eficiencia). El cuadrado del sesgo del estimador con un buen estimador sería menor que el sesgo del estimador con un mal estimador. El MSE de un buen estimador sería menor que el MSE del mal estimador. Supongamos que hay dos estimadores, es el buen estimador y es el mal estimador. La relación anterior se puede expresar mediante las siguientes fórmulas. $\theta _{1}$ $\theta _{2}$

\operatorname {Var} (\theta _{1})<\operatorname {Var} (\theta _{2})

|\operatorname {E} (\theta _{1})-\theta |<\left|\operatorname {E} (\theta _{2})-\theta \right|

\operatorname {MSE} (\theta _{1})<\operatorname {MSE} (\theta _{2})

Además de utilizar la fórmula para identificar la eficiencia del estimador, también se puede identificar a través del gráfico. Si un estimador es eficiente, en el gráfico de frecuencia vs. valor, habrá una curva con alta frecuencia en el centro y baja frecuencia en los dos lados. Por ejemplo:

Si un estimador no es eficiente, en el gráfico de frecuencia vs. valor habrá una curva relativamente más suave.

En pocas palabras, el buen estimador tiene una curva estrecha, mientras que el mal estimador tiene una curva grande. Al representar estas dos curvas en un gráfico con un eje y compartido , la diferencia se hace más evidente.

Entre los estimadores insesgados, a menudo existe uno con la varianza más baja, llamado estimador insesgado de varianza mínima ( MVUE ). En algunos casos existe un estimador eficiente insesgado , que, además de tener la varianza más baja entre los estimadores insesgados, satisface el límite de Cramér-Rao , que es un límite inferior absoluto de la varianza para las estadísticas de una variable.

Respecto de dichos "mejores estimadores imparciales", véase también el límite de Cramér-Rao , el teorema de Gauss-Markov , el teorema de Lehmann-Scheffé y el teorema de Rao-Blackwell .

Robustez

Véase también

Referencias

^ Mosteller, F.; Tukey, JW (1987) [1968]. "Análisis de datos, incluidas las estadísticas". The Collected Works of John W. Tukey: Philosophy and Principles of Data Analysis 1965–1986 . Vol. 4. CRC Press. págs. 601–720 [pág. 633]. ISBN 0-534-05101-4– a través de Google Books .
^ Kosorok (2008), sección 3.1, págs. 35–39.
^ Jaynes (2007), pág.172.
^ ab Dekking, Frederik Michel; Kraaikamp, Cornelis; Lopuhaä, Hendrik Paul; Meester, Ludolf Erwin (2005). Una introducción moderna a la probabilidad y la estadística. Textos Springer en Estadística. ISBN 978-1-85233-896-1.
^ Lauritzen, Steffen. "Propiedades de los estimadores" (PDF) . Universidad de Oxford . Consultado el 9 de diciembre de 2023 .

Lectura adicional

Bol'shev, Login Nikolaevich (2001) [1994], "Estimador estadístico", Enciclopedia de Matemáticas , EMS Press.
Jaynes, ET (2007). Teoría de la probabilidad: la lógica de la ciencia (5.ª ed.). Cambridge University Press . ISBN 978-0-521-59271-0..
Kosorok, Michael (2008). Introducción a los procesos empíricos y a la inferencia semiparamétrica. Springer Series in Statistics. Springer . doi :10.1007/978-0-387-74978-5. ISBN 978-0-387-74978-5.
Lehmann, EL ; Casella, G. (1998). Teoría de la estimación puntual (2.ª ed.). Springer . ISBN 0-387-98502-6.
Shao, Jun (1998), Estadística matemática , Springer , ISBN 0-387-98674-X

Enlaces externos

Fundamentos de la teoría de la estimación