Estimador invariante

En estadística , el concepto de estimador invariante es un criterio que se puede utilizar para comparar las propiedades de diferentes estimadores para la misma cantidad. Es una forma de formalizar la idea de que un estimador debe tener ciertas cualidades intuitivamente atractivas. Estrictamente hablando, "invariante" significaría que las estimaciones en sí mismas no cambian cuando tanto las mediciones como los parámetros se transforman de una manera compatible, pero el significado se ha ampliado para permitir que las estimaciones cambien de maneras apropiadas con tales transformaciones. ^[1] El término estimador equivariante se utiliza en contextos matemáticos formales que incluyen una descripción precisa de la relación de la forma en que el estimador cambia en respuesta a cambios en el conjunto de datos y la parametrización: esto corresponde al uso de " equivariancia " en matemáticas más generales.

Configuración general

Fondo

En la inferencia estadística , existen varios enfoques de la teoría de la estimación que se pueden utilizar para decidir inmediatamente qué estimadores se deben utilizar de acuerdo con esos enfoques. Por ejemplo, las ideas de la inferencia bayesiana conducirían directamente a los estimadores bayesianos . De manera similar, la teoría de la inferencia estadística clásica a veces puede conducir a conclusiones sólidas sobre qué estimador se debe utilizar. Sin embargo, la utilidad de estas teorías depende de tener un modelo estadístico completamente prescrito y también puede depender de tener una función de pérdida relevante para determinar el estimador. Por lo tanto, se puede realizar un análisis bayesiano , lo que lleva a una distribución posterior para los parámetros relevantes, pero el uso de una función de utilidad o pérdida específica puede no estar claro. Las ideas de invariancia se pueden aplicar entonces a la tarea de resumir la distribución posterior. En otros casos, los análisis estadísticos se realizan sin un modelo estadístico completamente definido o la teoría clásica de la inferencia estadística no se puede aplicar fácilmente porque la familia de modelos que se están considerando no son susceptibles de dicho tratamiento. Además de estos casos en los que la teoría general no prescribe un estimador, el concepto de invariancia de un estimador se puede aplicar cuando se buscan estimadores de formas alternativas, ya sea por simplicidad de aplicación del estimador o para que el estimador sea robusto .

El concepto de invariancia se utiliza a veces por sí solo como una forma de elegir entre estimadores, pero esto no es necesariamente definitivo. Por ejemplo, un requisito de invariancia puede ser incompatible con el requisito de que el estimador sea insesgado respecto de la media ; por otro lado, el criterio de insesgabilidad respecto de la mediana se define en términos de la distribución de muestreo del estimador y, por lo tanto, es invariante ante muchas transformaciones.

Un uso del concepto de invariancia es cuando se propone una clase o familia de estimadores y se debe seleccionar una formulación particular entre ellos. Un procedimiento consiste en imponer propiedades de invariancia relevantes y luego encontrar la formulación dentro de esta clase que tenga las mejores propiedades, lo que conduce a lo que se denomina estimador invariante óptimo.

Algunas clases de estimadores invariantes

Existen varios tipos de transformaciones que resultan útiles al trabajar con estimadores invariantes. Cada una de ellas da lugar a una clase de estimadores que son invariantes a esos tipos particulares de transformación.

Invariancia de cambios: teóricamente, las estimaciones de un parámetro de ubicación deberían ser invariantes a cambios simples de los valores de los datos. Si todos los valores de los datos se incrementan en una cantidad dada, la estimación debería cambiar en la misma cantidad. Al considerar la estimación utilizando un promedio ponderado , este requisito de invariancia implica inmediatamente que los pesos deberían sumar uno. Si bien el mismo resultado se deriva a menudo de un requisito de imparcialidad, el uso de "invariancia" no requiere que exista un valor medio y no hace uso de ninguna distribución de probabilidad.
Invariancia de escala: Tenga en cuenta que este tema sobre la invariancia del parámetro de escala del estimador no debe confundirse con la invariancia de escala más general sobre el comportamiento de los sistemas bajo propiedades agregadas (en física).
Invariancia de transformación de parámetros: En este caso, la transformación se aplica únicamente a los parámetros. El concepto aquí es que, esencialmente, se debe hacer la misma inferencia a partir de los datos y un modelo que involucra un parámetro θ que la que se haría a partir de los mismos datos si el modelo usara un parámetro φ, donde φ es una transformación uno a uno de θ, φ = h (θ). Según este tipo de invariancia, los resultados de los estimadores invariantes a la transformación también deberían estar relacionados por φ = h (θ). Los estimadores de máxima verosimilitud tienen esta propiedad cuando la transformación es monótona . Aunque las propiedades asintóticas del estimador pueden ser invariantes, las propiedades de la muestra pequeña pueden ser diferentes y es necesario derivar una distribución específica. ^[2]
Invariancia de permutación: cuando un conjunto de valores de datos se puede representar mediante un modelo estadístico que indica que son resultados de variables aleatorias independientes e idénticamente distribuidas , es razonable imponer el requisito de que cualquier estimador de cualquier propiedad de la distribución común debe ser invariante a la permutación: específicamente, que el estimador, considerado como una función del conjunto de valores de datos, no debe cambiar si los elementos de datos se intercambian dentro del conjunto de datos.

La combinación de invariancia de permutación e invariancia de ubicación para estimar un parámetro de ubicación a partir de un conjunto de datos independientes e idénticamente distribuidos utilizando un promedio ponderado implica que los pesos deben ser idénticos y sumar uno. Por supuesto, pueden ser preferibles otros estimadores distintos del promedio ponderado.

Estimadores invariantes óptimos

En esta configuración, se nos proporciona un conjunto de mediciones que contiene información sobre un parámetro desconocido . Las mediciones se modelan como una variable aleatoria vectorial que tiene una función de densidad de probabilidad que depende de un vector de parámetros . $x$ $\theta$ $x$ $f(x|\theta )$ $\theta$

El problema consiste en estimar dado . La estimación, denotada por , es una función de las mediciones y pertenece a un conjunto . La calidad del resultado se define mediante una función de pérdida que determina una función de riesgo . Los conjuntos de valores posibles de , , y se denotan por , , y , respectivamente. $\theta$ $x$ $a$ $A$ $L=L(a,\theta )$ $R=R(a,\theta )=E[L(a,\theta )|\theta ]$ $x$ $\theta$ $a$ $X$ $\Theta$ $A$

En la clasificación

En la clasificación estadística , la regla que asigna una clase a un nuevo elemento de datos puede considerarse un tipo especial de estimador. Se pueden tener en cuenta varias consideraciones de tipo invariante a la hora de formular el conocimiento previo para el reconocimiento de patrones .

Entorno matemático

Definición

Un estimador invariante es un estimador que obedece las dos reglas siguientes: ^{[ cita requerida ]}

Principio de invariancia racional: la acción adoptada en un problema de decisión no debe depender de la transformación de la medida utilizada.
Principio de invariancia: si dos problemas de decisión tienen la misma estructura formal (en términos de , y ), entonces se debe utilizar la misma regla de decisión en cada problema. $X$ $\Theta$ $f(x|\theta )$ $L$

Para definir formalmente un estimador invariante o equivariante, primero se necesitan algunas definiciones relacionadas con grupos de transformaciones. Sea , el conjunto de posibles muestras de datos. Un grupo de transformaciones de , que se denotará por , es un conjunto de transformaciones (medibles) 1:1 y sobre 1:1 de sobre sí mismo, que satisface las siguientes condiciones: $X$ $X$ $G$ $X$

Si y entonces $g_{1}\in G$ $g_{2}\in G$ $g_{1}g_{2}\in G\,$
Si entonces , donde (Es decir, cada transformación tiene una inversa dentro del grupo.) $g\in G$ $g^{-1}\in G$ $g^{-1}(g(x))=x\,.$
$e\in G$ (es decir, hay una transformación de identidad ) $e(x)=x\,$

Los conjuntos de datos y en son equivalentes si para algún . Todos los puntos equivalentes forman una clase de equivalencia . Dicha clase de equivalencia se denomina órbita (en ). La órbita, , es el conjunto . Si consta de una única órbita, se dice que es transitiva. $x_{1}$ $x_{2}$ $X$ $x_{1}=g(x_{2})$ $g\in G$ $X$ $x_{0}$ $X(x_{0})$ $X(x_{0})=\{g(x_{0}):g\in G\}$ $X$ $g$

Se dice que una familia de densidades es invariante bajo el grupo si, para cada y existe un único tal que tiene densidad . se denotará . $F$ $G$ $g\in G$ $\theta \in \Theta$ $\theta ^{*}\in \Theta$ $Y=g(x)$ $f(y|\theta ^{*})$ $\theta ^{*}$ ${\bar {g}}(\theta )$

Si es invariante bajo el grupo , entonces se dice que la función de pérdida es invariante bajo si para cada y existe un tal que para todos . El valor transformado se denotará por . $F$ $G$ $L(\theta ,a)$ $G$ $g\in G$ $a\in A$ $a^{*}\in A$ $L(\theta ,a)=L({\bar {g}}(\theta ),a^{*})$ $\theta \in \Theta$ $a^{*}$ ${\tilde {g}}(a)$

En lo anterior, es un grupo de transformaciones de a sí mismo y es un grupo de transformaciones de a sí mismo. ${\bar {G}}=\{{\bar {g}}:g\in G\}$ $\Theta$ ${\tilde {G}}=\{{\tilde {g}}:g\in G\}$ $A$

Un problema de estimación es invariante (equivariante) si existen tres grupos como se definió anteriormente. $G$ $G,{\bar {G}},{\tilde {G}}$

Para un problema de estimación que es invariante bajo , el estimador es un estimador invariante bajo si, para todos y , $G$ $\delta (x)$ $G$ $x\in X$ $g\in G$

\delta (g(x))={\tilde {g}}(\delta (x)).

Propiedades

La función de riesgo de un estimador invariante, , es constante en las órbitas de . De manera equivalente para todos y . $\delta$ $\Theta$ $R(\theta ,\delta )=R({\bar {g}}(\theta ),\delta )$ $\theta \in \Theta$ ${\bar {g}}\in {\bar {G}}$
La función de riesgo de un estimador invariante con transitivo es constante. ${\bar {g}}$

Para un problema dado, el estimador invariante con el menor riesgo se denomina "mejor estimador invariante". No siempre se puede lograr el mejor estimador invariante. Un caso especial en el que se puede lograr es cuando es transitivo. ${\bar {g}}$

Ejemplo: parámetro de ubicación

Supongamos que es un parámetro de ubicación si la densidad de tiene la forma . Para y , el problema es invariante bajo . El estimador invariante en este caso debe satisfacer $\theta$ $X$ $f(x-\theta )$ $\Theta =A=\mathbb {R} ^{1}$ $L=L(a-\theta )$ $g={\bar {g}}={\tilde {g}}=\{g_{c}:g_{c}(x)=x+c,c\in \mathbb {R} \}$

\delta (x+c)=\delta (x)+c,{\text{ for all }}c\in \mathbb {R} ,

por lo tanto, es de la forma ( ). es transitiva en por lo que el riesgo no varía con : es decir, . El mejor estimador invariante es el que lleva el riesgo al mínimo. $\delta (x)=x+K$ $K\in \mathbb {R}$ ${\bar {g}}$ $\Theta$ $\theta$ $R(\theta ,\delta )=R(0,\delta )=\operatorname {E} [L(X+K)|\theta =0]$ $R(\theta ,\delta )$

En el caso de que L sea el error al cuadrado $\delta (x)=x-\operatorname {E} [X|\theta =0].$

Estimador de Pitman

El problema de estimación es que tiene densidad , donde θ es un parámetro a estimar y donde la función de pérdida es . Este problema es invariante con los siguientes grupos de transformación (aditivos): $X=(X_{1},\dots ,X_{n})$ $f(x_{1}-\theta ,\dots ,x_{n}-\theta )$ $L(|a-\theta |)$

G=\{g_{c}:g_{c}(x)=(x_{1}+c,\dots ,x_{n}+c),c\in \mathbb {R} ^{1}\},

{\bar {G}}=\{g_{c}:g_{c}(\theta )=\theta +c,c\in \mathbb {R} ^{1}\},

{\tilde {G}}=\{g_{c}:g_{c}(a)=a+c,c\in \mathbb {R} ^{1}\}.

El mejor estimador invariante es el que minimiza $\delta (x)$

{\frac {\int _{-\infty }^{\infty }L(\delta (x)-\theta )f(x_{1}-\theta ,\dots ,x_{n}-\theta )d\theta }{\int _{-\infty }^{\infty }f(x_{1}-\theta ,\dots ,x_{n}-\theta )d\theta }},

y este es el estimador de Pitman (1939).

Para el caso de pérdida de error al cuadrado, el resultado es

\delta (x)={\frac {\int _{-\infty }^{\infty }\theta f(x_{1}-\theta ,\dots ,x_{n}-\theta )d\theta }{\int _{-\infty }^{\infty }f(x_{1}-\theta ,\dots ,x_{n}-\theta )d\theta }}.

Si (es decir, una distribución normal multivariada con componentes independientes de varianza unitaria) entonces $x\sim N(\theta 1_{n},I)\,\!$

\delta _{\text{Pitman}}=\delta _{ML}={\frac {\sum {x_{i}}}{n}}.

Si (componentes independientes que tienen una distribución de Cauchy con parámetro de escala σ ) entonces ,. Sin embargo, el resultado es $x\sim C(\theta 1_{n},I\sigma ^{2})\,\!$ $\delta _{\text{Pitman}}\neq \delta _{ML}$

\delta _{\text{Pitman}}=\sum _{k=1}^{n}{x_{k}\left[{\frac {{\text{Re}}\{w_{k}\}}{\sum _{m=1}^{n}{{\text{Re}}\{w_{k}\}}}}\right]},\qquad n>1,

con

w_{k}=\prod _{j\neq k}\left[{\frac {1}{(x_{k}-x_{j})^{2}+4\sigma ^{2}}}\right]\left[1-{\frac {2\sigma }{(x_{k}-x_{j})}}i\right].

Referencias

^ Véase la sección 5.2.1 en Gourieroux, C. y Monfort, A. (1995). Estadísticas y modelos econométricos, volumen 1. Cambridge University Press.
^ Gouriéroux y Monfort (1995)

Berger, James O. (1985). Teoría de la decisión estadística y análisis bayesiano (2.ª ed.). Nueva York: Springer-Verlag. ISBN 0-387-96098-8.Sr. 0804611 .^{[ página necesaria ]}
Freue, Gabriela V. Cohen (2007). "El estimador Pitman del parámetro de localización de Cauchy". Revista de Planificación e Inferencia Estadística . 137 (6): 1900–1913. doi :10.1016/j.jspi.2006.05.002.
Pitman, EJG (1939). "La estimación de los parámetros de localización y escala de una población continua de cualquier forma dada". Biometrika . 30 (3/4): 391–421. doi :10.1093/biomet/30.3-4.391. JSTOR 2332656.
Pitman, EJG (1939). "Pruebas de hipótesis sobre parámetros de escala y localización". Biometrika . 31 (1/2): 200–215. doi :10.1093/biomet/31.1-2.200. JSTOR 2334983.