estimador m

En estadística , los estimadores M son una clase amplia de estimadores extremos para los cuales la función objetivo es un promedio muestral. ^[1] Tanto los mínimos cuadrados no lineales como la estimación de máxima verosimilitud son casos especiales de estimadores M. La definición de estimadores M fue motivada por estadísticas sólidas , que aportaron nuevos tipos de estimadores M. ^{[ cita necesaria ]} Sin embargo, los estimadores M no son intrínsecamente robustos, como se desprende del hecho de que incluyen estimadores de máxima verosimilitud, que en general no son robustos. El procedimiento estadístico de evaluar un estimador M en un conjunto de datos se llama estimación M.

De manera más general, un estimador M puede definirse como un cero de una función de estimación . ^[2]^[3]^[4]^[5]^[6]^[7] Esta función de estimación es a menudo la derivada de otra función estadística. Por ejemplo, una estimación de máxima verosimilitud es el punto donde la derivada de la función de verosimilitud con respecto al parámetro es cero; por tanto, un estimador de máxima verosimilitud es un punto crítico de la función de puntuación . ^[8] En muchas aplicaciones, estos estimadores M pueden considerarse como estimaciones de características de la población.

Motivación histórica

El método de mínimos cuadrados es un estimador M prototípico, ya que el estimador se define como un mínimo de la suma de cuadrados de los residuos.

Otro estimador M popular es la estimación de máxima verosimilitud. Para una familia de funciones de densidad de probabilidad f parametrizadas por θ , se calcula un estimador de máxima verosimilitud de θ para cada conjunto de datos maximizando la función de verosimilitud sobre el espacio de parámetros { θ }. Cuando las observaciones son independientes y están distribuidas idénticamente, una estimación ML satisface ${\sombrero {\theta }}$

{\widehat {\theta }}=\arg \max _{\displaystyle \theta }{\left(\prod _{i=1}^{n}f(x_{i},\theta )\ bien)}\,\!

o equivalente,

{\widehat {\theta }}=\arg \min _{\displaystyle \theta }{\left(\sum _{i=1}^{n}-\log {(f(x_{i} ,\theta ))}\right)}.\,\!

Los estimadores de máxima verosimilitud tienen propiedades óptimas en el límite de un número infinito de observaciones en condiciones bastante generales, pero pueden estar sesgados y no ser los estimadores más eficientes para muestras finitas.

Definición

En 1964, Peter J. Huber propuso generalizar la estimación de máxima verosimilitud para minimizar

\sum _{i=1}^{n}\rho (x_{i},\theta ),\,\!

donde ρ es una función con ciertas propiedades (ver más abajo). Las soluciones

{\hat {\theta }}=\arg \min _{\displaystyle \theta }\left(\sum _{i=1}^{n}\rho (x_{i},\theta )\ bien)\,\!

se denominan estimadores M ("M" para "tipo de máxima verosimilitud" (Huber, 1981, página 43)); Otros tipos de estimadores robustos incluyen estimadores L , estimadores R y estimadores S. Los estimadores de máxima verosimilitud (MLE) son, por tanto, un caso especial de estimadores M. Con un cambio de escala adecuado, los estimadores M son casos especiales de estimadores extremos (en los que se pueden utilizar funciones más generales de las observaciones).

La función ρ, o su derivada, ψ, se puede elegir de tal manera que proporcione al estimador propiedades deseables (en términos de sesgo y eficiencia) cuando los datos provienen realmente de la distribución supuesta, y un comportamiento "no malo" cuando los datos se generan a partir de un modelo que, en cierto sentido, está cerca de la distribución supuesta.

Tipos

Los estimadores M son soluciones, θ , que minimizan

\sum _{i=1}^{n}\rho (x_{i},\theta ).\,\!

Esta minimización siempre se puede hacer directamente. A menudo es más sencillo derivar con respecto a θ y resolver la raíz de la derivada. Cuando esta diferenciación es posible, se dice que el estimador M es de tipo ψ . De lo contrario, se dice que el estimador M es de tipo ρ .

En la mayoría de los casos prácticos, los estimadores M son de tipo ψ.

tipo ρ

Para un entero positivo r , sea y mida espacios. es un vector de parámetros. Un estimador M de tipo ρ se define mediante una función medible . Asigna una distribución de probabilidad al valor (si existe) que minimiza : $({\mathcal {X}},\Sigma)$ $(\Theta \subset \mathbb {R} ^{r},S)$ $\theta \en \Theta$ $T$ $\rho :{\mathcal {X}}\times \Theta \rightarrow \mathbb {R}$ $F$ ${\mathcal {X}}$ $T(F)\en \Theta$ $\int _{\mathcal {X}}\rho (x,\theta )dF(x)$

T(F):=\arg \min _{\theta \in \Theta }\int _{\mathcal {X}}\rho (x,\theta )dF(x)

Por ejemplo, para el estimador de máxima verosimilitud , donde . $\rho (x,\theta )=-\log(f(x,\theta ))$ $f(x,\theta )={\frac {\partial F(x,\theta )}{\partial x}}$

tipo ψ

Si es diferenciable con respecto a , el cálculo de suele ser mucho más sencillo. Un estimador M de tipo ψ T se define mediante una función medible . Asigna una distribución de probabilidad F al valor (si existe) que resuelve la ecuación vectorial: $\rho$ $\theta$ ${\widehat {\theta }}$ $\psi :{\mathcal {X}}\times \Theta \rightarrow \mathbb {R} ^{r}$ ${\mathcal {X}}$ $T(F)\in \Theta$

\int _{\mathcal {X}}\psi (x,\theta )\,dF(x)=0

\int _{\mathcal {X}}\psi (x,T(F))\,dF(x)=0

Por ejemplo, para el estimador de máxima verosimilitud , donde denota la transpuesta del vector u y . $\psi (x,\theta )=\left({\frac {\partial \log(f(x,\theta ))}{\partial \theta ^{1}}},\dots ,{\frac {\partial \log(f(x,\theta ))}{\partial \theta ^{p}}}\right)^{\mathrm {T} }$ $u^{\mathrm {T} }$ $f(x,\theta )={\frac {\partial F(x,\theta )}{\partial x}}$

Tal estimador no es necesariamente un estimador M de tipo ρ, pero si ρ tiene una primera derivada continua con respecto a , entonces una condición necesaria para que un estimador M de tipo ψ sea un estimador M de tipo ρ es . Las definiciones anteriores pueden extenderse fácilmente a muestras finitas. $\theta$ $\psi (x,\theta )=\nabla _{\theta }\rho (x,\theta )$

Si la función ψ disminuye a cero como , el estimador se llama redescendente . Estos estimadores tienen algunas propiedades adicionales deseables, como el rechazo total de los valores atípicos. $x\rightarrow \pm \infty$

Cálculo

Para muchas opciones de ρ o ψ, no existe una solución de forma cerrada y se requiere un enfoque iterativo para el cálculo. Es posible utilizar algoritmos de optimización de funciones estándar, como Newton-Raphson . Sin embargo, en la mayoría de los casos se puede realizar un algoritmo de ajuste de mínimos cuadrados reponderado iterativamente ; Este suele ser el método preferido.

Para algunas elecciones de ψ, específicamente funciones redescendentes , la solución puede no ser única. La cuestión es particularmente relevante en problemas multivariados y de regresión. Por lo tanto, es necesario tener cierto cuidado para garantizar que se elijan buenos puntos de partida. Son comunes puntos de partida sólidos , como la mediana como estimación de la ubicación y la desviación absoluta de la mediana como estimación univariada de escala.

Parámetros de concentración

En el cálculo de estimadores M, a veces es útil reescribir la función objetivo de modo que se reduzca la dimensión de los parámetros. El procedimiento se llama “concentración” o “perfilado”. Los ejemplos en los que concentrar parámetros aumentan la velocidad de cálculo incluyen modelos de regresiones aparentemente no relacionadas (SUR). ^[9] Considere el siguiente problema de estimación M:

({\hat {\beta }}_{n},{\hat {\gamma }}_{n}):=\arg \max _{\beta ,\gamma }\textstyle \sum _{i=1}^{N}\displaystyle q(w_{i},\beta ,\gamma )

Suponiendo diferenciabilidad de la función q , el estimador M resuelve las condiciones de primer orden:

\sum _{i=1}^{N}\triangledown _{\beta }\,q(w_{i},\beta ,\gamma )=0

\sum _{i=1}^{N}\triangledown _{\gamma }\,q(w_{i},\beta ,\gamma )=0

Ahora, si podemos resolver la segunda ecuación para γ en términos de y , la segunda ecuación se convierte en: $W:=(w_{1},w_{2},..,w_{N})$ $\beta$

\sum _{i=1}^{N}\triangledown _{\gamma }\,q(w_{i},\beta ,g(W,\beta ))=0

donde g es, hay alguna función que encontrar. Ahora, podemos reescribir la función objetivo original únicamente en términos de β insertando la función g en el lugar de . Como resultado, hay una reducción en el número de parámetros. $\gamma$

La posibilidad de realizar este procedimiento depende de los problemas particulares que se presenten. Sin embargo, cuando es posible, concentrar los parámetros puede facilitar en gran medida el cálculo. Por ejemplo, al estimar el modelo SUR de 6 ecuaciones con 5 variables explicativas en cada ecuación mediante Máxima Verosimilitud, el número de parámetros disminuye de 51 a 30. ^[9]

A pesar de su característica atractiva en el cálculo, los parámetros de concentración tienen una utilidad limitada para derivar propiedades asintóticas del estimador M. ^[10] La presencia de W en cada suma de la función objetivo dificulta la aplicación de la ley de los grandes números y el teorema del límite central .

Propiedades

Distribución

Se puede demostrar que los estimadores M tienen una distribución asintóticamente normal. Como tal, se pueden utilizar enfoques tipo Wald para construir intervalos de confianza y pruebas de hipótesis. Sin embargo, dado que la teoría es asintótica, con frecuencia será sensato verificar la distribución, tal vez examinando la permutación o la distribución bootstrap .

Función de influencia

La función de influencia de un estimador M de tipo - es proporcional a su función definitoria. $\psi$ $\psi$

Sea T un estimador M de tipo ψ y G una distribución de probabilidad para la cual está definida. Su función de influencia SI es $T(G)$

\operatorname {IF} (x;T,G)=-{\frac {\psi (x,T(G))}{\int \left[{\frac {\partial \psi (y,\theta )}{\partial \theta }}\right]f(y)\mathrm {d} y}}

suponiendo que existe la función de densidad . Una prueba de esta propiedad de los estimadores M se puede encontrar en Huber (1981, Sección 3.2). $f(y)$

Aplicaciones

Se pueden construir estimadores M para parámetros de ubicación y parámetros de escala en entornos univariados y multivariados, además de usarse en regresión robusta.

Ejemplos

Significar

Sea ( X ₁ , ..., X _n ) un conjunto de variables aleatorias independientes, distribuidas idénticamente , con distribución F.

si definimos

\rho (x,\theta )={\frac {(x-\theta )^{2}}{2}},\,\!

observamos que esto se minimiza cuando θ es la media de las X s. Por tanto, la media es un estimador M de tipo ρ, con esta función ρ.

Como esta función ρ es continuamente diferenciable en θ , la media también es un estimador M de tipo ψ para ψ( x , θ ) = θ − x .

Mediana

Para la estimación mediana de ( X ₁ , ..., X _n ), podemos definir la función ρ como

\rho (x,\theta )=|x-\theta |

y de manera similar, la función ρ se minimiza cuando θ es la mediana de las X s.

Si bien esta función ρ no es diferenciable en θ , el estimador M de tipo ψ, que es el subgradiente de la función ρ, se puede expresar como

\psi (x,\theta )=\operatorname {sgn}(x-\theta )

\psi (x,\theta )={\begin{cases}\{-1\},&{\mbox{if }}x-\theta <0\\\{1\},&{\mbox{if }}x-\theta >0\\\left[-1,1\right],&{\mbox{if }}x-\theta =0\end{cases}}

^{[ se necesita aclaración ]}

Condiciones suficientes para la coherencia estadística.

Los estimadores M son consistentes bajo varios conjuntos de condiciones. Un conjunto típico de supuestos es que la clase de funciones satisface una ley uniforme de números grandes y que el máximo está bien separado. Específicamente, dado un objetivo empírico y poblacional , respectivamente, como : $M_{n},M:\Theta \rightarrow \mathbb {R}$ $n\rightarrow \infty$

\sup _{\theta \in \Theta }|M_{n}(\theta )-M(\theta )|{\stackrel {p}{\rightarrow }}0

\epsilon >0

\sup _{\theta :d(\theta ,\theta ^{*})\geq \epsilon }M(\theta )<M(\theta ^{*})

donde es una función de distancia y es óptima, entonces la estimación M es consistente. ^[11] $d:\Theta \times \Theta \rightarrow \mathbb {R}$ $\theta ^{*}$

La restricción de convergencia uniforme no es necesariamente necesaria; un conjunto alternativo de supuestos es considerar la convergencia puntual ( en probabilidad ) de las funciones objetivo. Además, suponga que cada uno de ellos tiene una derivada continua con exactamente un cero o tiene una derivada que no es decreciente y es de orden asintóticamente . Finalmente, supongamos que el máximo está bien separado. Entonces la estimación M es consistente. ^[12] $M_{n}$ $o_{p}(1)$ $\theta ^{*}$

Ver también

Referencias

^ Hayashi, Fumio (2000). "Estimadores extremos". Econometría . Prensa de la Universidad de Princeton. ISBN 0-691-01018-8.
^ Vidyadhar P. Godambe , editor. Funciones de estimación , volumen 7 de Oxford Statistical Science Series. The Clarendon Press Oxford University Press, Nueva York, 1991.
^ Christopher C. Heyde. "Cuasi-verosimilitud y su aplicación: un enfoque general para la estimación óptima de parámetros" . Serie Springer en Estadística. Springer-Verlag, Nueva York, 1997.
^ DL McLeish y Christopher G. Small. La teoría y aplicaciones de las funciones de inferencia estadística , volumen 44 de Lecture Notes in Statistics. Springer-Verlag, Nueva York, 1988.
^ Parimal Mukhopadhyay. Introducción a la estimación de funciones . Alpha Science Internacional, Ltd, 2004.
^ Christopher G. Small y Jinfang Wang. Métodos numéricos para ecuaciones de estimación no lineales , volumen 29 de Oxford Statistical Science Series. The Clarendon Press Oxford University Press, Nueva York, 2003.
^ Sara A. van de Geer . Procesos empíricos en estimación M: aplicaciones de la teoría de procesos empíricos, volumen 6 de la Serie Cambridge en Matemática estadística y probabilística. Prensa de la Universidad de Cambridge, Cambridge, 2000.
^ Ferguson, Thomas S. (1982). "Una estimación de máxima verosimilitud inconsistente". Revista de la Asociación Estadounidense de Estadística . 77 (380): 831–834. doi :10.1080/01621459.1982.10477894. JSTOR 2287314.
^ ab Giles, DE (10 de julio de 2012). "Concentrar o perfilar la función de probabilidad".
^ Wooldridge, JM (2001). Análisis econométrico de datos de sección transversal y de panel . Cambridge, Massachusetts: MIT Press. ISBN 0-262-23219-7.
^ Vaart AW van der. Estadísticas asintóticas. Prensa de la Universidad de Cambridge; 1998.
^ Vaart AW van der. Estadísticas asintóticas. Prensa de la Universidad de Cambridge; 1998.

Otras lecturas

Andersen, Robert (2008). "Métodos modernos para una regresión robusta" . Aplicaciones cuantitativas en las ciencias sociales. vol. 152. Los Ángeles, CA: Publicaciones Sage. ISBN 978-1-4129-4072-6.
Godambe, vicepresidente (1991). Funciones de estimación . Serie de ciencia estadística de Oxford. vol. 7. Nueva York: Clarendon Press. ISBN 978-0-19-852228-7.
Heyde, Christopher C. (1997). Heyde, Christopher C (ed.). "Cuasi-verosimilitud y su aplicación: un enfoque general para la estimación óptima de parámetros" . Serie Springer en Estadística. Nueva York: Springer. doi :10.1007/b98823. ISBN 978-0-387-98225-0.
Huber, Peter J. (2009). Estadísticas sólidas (2ª ed.). Hoboken, Nueva Jersey: John Wiley & Sons Inc. ISBN 978-0-470-12990-6.
Hoaglin, David C.; Federico Mosteller; John W. Tukey (1983). Comprensión del análisis de datos exploratorio y sólido . Hoboken, Nueva Jersey: John Wiley & Sons Inc. ISBN 0-471-09777-2.
McLeish, DL; Christopher G. pequeño (1989). La teoría y aplicaciones de las funciones de inferencia estadística . Apuntes de conferencias sobre estadística. vol. 44. Nueva York: Springer. ISBN 978-0-387-96720-2.
Mukhopadhyay, Parimal (2004). Introducción a la estimación de funciones . Harrow, Reino Unido: Alpha Science International, Ltd. ISBN 978-1-84265-163-6.
Prensa, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007), "Sección 15.7. Estimación robusta", Recetas numéricas: el arte de la informática científica (3.ª ed.), Nueva York: Cambridge University Press, ISBN 978-0-521-88068-8
Serfling, Robert J. (2002). Teoremas de aproximación de la estadística matemática . Serie Wiley en probabilidad y estadística matemática. Hoboken, Nueva Jersey: John Wiley & Sons Inc. ISBN 978-0-471-21927-9.
Shapiro, Alejandro (2000). "Sobre las asintóticas de estimadores M locales restringidos ". Anales de Estadística . 28 (3): 948–960. CiteSeerX 10.1.1.69.2288 . doi :10.1214/aos/1015952006. JSTOR 2674061. SEÑOR 1792795.
Pequeño, Christopher G.; Jinfang Wang (2003). Métodos numéricos para ecuaciones de estimación no lineales . Serie de ciencia estadística de Oxford. vol. 29. Nueva York: Oxford University Press. ISBN 978-0-19-850688-1.
van de Geer, Sara A. (2000). Procesos empíricos en estimación M: aplicaciones de la teoría de procesos empíricos . Serie Cambridge en Matemáticas Estadística y Probabilística. vol. 6. Cambridge, Reino Unido: Cambridge University Press. ISBN 978-0-521-65002-1.
Wilcox, RR (2003). Aplicación de técnicas estadísticas contemporáneas . San Diego, CA: Prensa académica. págs. 55–79.
Wilcox, RR (2012). Introducción a la estimación robusta y la prueba de hipótesis, 3.ª ed . San Diego, CA: Prensa académica.

enlaces externos

Estimadores M: una introducción al tema por Zhengyou Zhang