Estadísticas robustas

Las estadísticas robustas son estadísticas que mantienen sus propiedades incluso si los supuestos distribucionales subyacentes son incorrectos. Se han desarrollado métodos estadísticos robustos para muchos problemas comunes, como la estimación de la ubicación , la escala y los parámetros de regresión . Una motivación es producir métodos estadísticos que no se vean afectados indebidamente por los valores atípicos . Otra motivación es proporcionar métodos con un buen rendimiento cuando hay pequeñas desviaciones de una distribución paramétrica . Por ejemplo, los métodos robustos funcionan bien para mezclas de dos distribuciones normales con diferentes desviaciones estándar ; bajo este modelo, los métodos no robustos como una prueba t funcionan mal. ^[1]^[2]

Introducción

Las estadísticas robustas buscan proporcionar métodos que emulen los métodos estadísticos populares, pero que no se vean afectados indebidamente por valores atípicos u otras pequeñas desviaciones de los supuestos del modelo . En estadística, los métodos de estimación clásicos se basan en gran medida en supuestos que a menudo no se cumplen en la práctica. En particular, a menudo se supone que los errores de los datos se distribuyen normalmente, al menos aproximadamente, o que se puede confiar en el teorema del límite central para producir estimaciones distribuidas normalmente. Desafortunadamente, cuando hay valores atípicos en los datos, los estimadores clásicos a menudo tienen un rendimiento muy deficiente, cuando se juzgan utilizando el punto de ruptura y la función de influencia que se describen a continuación.

El efecto práctico de los problemas observados en la función de influencia se puede estudiar empíricamente examinando la distribución de muestreo de los estimadores propuestos bajo un modelo de mezcla , donde se mezcla una pequeña cantidad (1-5% suele ser suficiente) de contaminación. Por ejemplo, se puede utilizar una mezcla de 95% de una distribución normal y 5% de una distribución normal con la misma media pero una desviación estándar significativamente mayor (que representa valores atípicos).

Las estadísticas paramétricas robustas pueden proceder de dos maneras:

mediante el diseño de estimadores de modo que se logre un comportamiento preseleccionado de la función de influencia
reemplazando estimadores que son óptimos bajo el supuesto de una distribución normal con estimadores que son óptimos para, o al menos derivados para, otras distribuciones; por ejemplo, utilizando la distribución t con bajos grados de libertad (alta curtosis) o con una mezcla de dos o más distribuciones.

Se han estudiado estimaciones robustas para los siguientes problemas:

Estimación de parámetros de ubicación
Estimación de parámetros de escala
Estimación de coeficientes de regresión ^[3]
estimación de estados del modelo en modelos expresados en forma de espacio de estados , para lo cual el método estándar es equivalente a un filtro de Kalman .

Definición

Existen varias definiciones de una " estadística robusta ". Estrictamente hablando, una estadística robusta es resistente a errores en los resultados, producidos por desviaciones de los supuestos ^[4] (por ejemplo, de normalidad). Esto significa que si los supuestos se cumplen solo de manera aproximada, el estimador robusto aún tendrá una eficiencia razonable y un sesgo razonablemente pequeño , además de ser asintóticamente insesgado , es decir, tendrá un sesgo que tiende a 0 a medida que el tamaño de la muestra tiende a infinito.

Por lo general, el caso más importante es la robustez distributiva , es decir, la robustez frente a la ruptura de los supuestos sobre la distribución subyacente de los datos. ^[4] Los procedimientos estadísticos clásicos suelen ser sensibles a la "longtailedness" (por ejemplo, cuando la distribución de los datos tiene colas más largas que la distribución normal supuesta). Esto implica que se verán fuertemente afectados por la presencia de valores atípicos en los datos, y las estimaciones que producen pueden estar muy distorsionadas si hay valores atípicos extremos en los datos, en comparación con lo que estarían si los valores atípicos no estuvieran incluidos en los datos.

Por el contrario, los estimadores más robustos que no son tan sensibles a las distorsiones distributivas, como la cola larga, también son resistentes a la presencia de valores atípicos. Por lo tanto, en el contexto de las estadísticas robustas, la robustez distributiva y la resistencia a los valores atípicos son efectivamente sinónimos. ^[4] Para una perspectiva sobre la investigación en estadísticas robustas hasta el año 2000, véase Portnoy y He (2000).

Algunos expertos prefieren el término estadística resistente para la robustez distributiva y reservan el término "robustez" para la robustez no distributiva, por ejemplo, la robustez a la violación de supuestos sobre el modelo de probabilidad o el estimador, pero este es un uso minoritario. El uso simple de "robustez" para referirse a la "robustez distributiva" es común.

Al considerar qué tan robusto es un estimador a la presencia de valores atípicos, es útil probar qué sucede cuando se agrega un valor atípico extremo al conjunto de datos, y probar qué sucede cuando un valor atípico extremo reemplaza uno de los puntos de datos existentes y luego considerar el efecto de múltiples adiciones o reemplazos.

Ejemplos

La media no es una medida robusta de tendencia central . Si el conjunto de datos es, por ejemplo, los valores {2,3,5,6,9}, entonces si agregamos otro punto de datos con valor -1000 o +1000 a los datos, la media resultante será muy diferente de la media de los datos originales. De manera similar, si reemplazamos uno de los valores con un punto de datos de valor -1000 o +1000, entonces la media resultante será muy diferente de la media de los datos originales.

La mediana es una medida robusta de tendencia central . Si tomamos el mismo conjunto de datos {2,3,5,6,9}, añadimos otro punto de datos con valor -1000 o +1000, la mediana cambiará ligeramente, pero seguirá siendo similar a la mediana de los datos originales. Si reemplazamos uno de los valores por un punto de datos de valor -1000 o +1000, la mediana resultante seguirá siendo similar a la mediana de los datos originales.

Descrito en términos de puntos de ruptura, la mediana tiene un punto de ruptura del 50%, lo que significa que la mitad de los puntos deben ser valores atípicos antes de que la mediana pueda moverse fuera del rango de los no valores atípicos, mientras que la media tiene un punto de ruptura de 0, ya que una sola observación grande puede alterarla.

La desviación absoluta media y el rango intercuartil son medidas robustas de dispersión estadística , mientras que la desviación estándar y el rango no lo son.

Los estimadores recortados y los estimadores winsorizados son métodos generales para hacer que las estadísticas sean más robustas. Los estimadores L son una clase general de estadísticas simples, a menudo robustas, mientras que los estimadores M son una clase general de estadísticas robustas y ahora son la solución preferida, aunque su cálculo puede ser bastante complicado.

Datos de la velocidad de la luz

Gelman et al., en Bayesian Data Analysis (2004), analizan un conjunto de datos relacionados con las mediciones de la velocidad de la luz realizadas por Simon Newcomb . Los conjuntos de datos de ese libro se pueden encontrar en la página de conjuntos de datos clásicos , y el sitio web del libro contiene más información sobre los datos.

Aunque la mayor parte de los datos parece estar distribuida de manera más o menos normal, hay dos valores atípicos obvios. Estos valores atípicos tienen un gran efecto en la media, arrastrándola hacia ellos y alejándola del centro de la mayor parte de los datos. Por lo tanto, si la media se concibe como una medida de la ubicación del centro de los datos, está, en cierto sentido, sesgada cuando hay valores atípicos.

Además, se sabe que la distribución de la media es asintóticamente normal debido al teorema del límite central. Sin embargo, los valores atípicos pueden hacer que la distribución de la media no sea normal, incluso para conjuntos de datos bastante grandes. Además de esta no normalidad, la media también es ineficiente en presencia de valores atípicos y hay menos medidas de ubicación disponibles.

Estimación de ubicación

El gráfico siguiente muestra un gráfico de densidad de los datos de velocidad de la luz, junto con un gráfico de alfombra (panel (a)). También se muestra un gráfico Q-Q normal (panel (b)). Los valores atípicos son visibles en estos gráficos.

Los paneles (c) y (d) del gráfico muestran la distribución bootstrap de la media (c) y la media recortada al 10 % (d). La media recortada es un estimador simple y robusto de la ubicación que elimina un cierto porcentaje de observaciones (aquí el 10 %) de cada extremo de los datos y luego calcula la media de la manera habitual. El análisis se realizó en R y se utilizaron 10 000 muestras bootstrap para cada una de las medias brutas y recortadas.

La distribución de la media es claramente mucho más amplia que la de la media recortada al 10% (los gráficos están en la misma escala). Además, mientras que la distribución de la media recortada parece estar cerca de la normal, la distribución de la media bruta está bastante sesgada hacia la izquierda. Por lo tanto, en esta muestra de 66 observaciones, solo 2 valores atípicos hacen que el teorema del límite central sea inaplicable.

Los métodos estadísticos robustos, de los cuales la media recortada es un ejemplo sencillo, buscan superar a los métodos estadísticos clásicos en presencia de valores atípicos o, más generalmente, cuando las suposiciones paramétricas subyacentes no son del todo correctas.

Si bien la media recortada funciona bien en relación con la media en este ejemplo, hay disponibles estimaciones más sólidas. De hecho, la media, la mediana y la media recortada son casos especiales de estimadores M. Los detalles aparecen en las secciones siguientes.

Estimación de escala

Los valores atípicos en los datos de la velocidad de la luz tienen más que un efecto adverso sobre la media; la estimación habitual de la escala es la desviación estándar, y esta cantidad se ve aún más afectada por los valores atípicos porque los cuadrados de las desviaciones de la media entran en el cálculo, por lo que los efectos de los valores atípicos se exacerban.

Los gráficos a continuación muestran las distribuciones bootstrap de la desviación estándar, la desviación absoluta mediana (DMA) y el estimador de escala de Rousseeuw–Croux (Qn). ^[5] Los gráficos se basan en 10 000 muestras bootstrap para cada estimador, con algo de ruido gaussiano agregado a los datos remuestreados ( bootstrap suavizado ). El panel (a) muestra la distribución de la desviación estándar, (b) de la DMA y (c) de Qn.

La distribución de la desviación estándar es errática y amplia, como resultado de los valores atípicos. La desviación estándar media se comporta mejor y Qn es un poco más eficiente que la desviación estándar media. Este ejemplo simple demuestra que cuando hay valores atípicos, la desviación estándar no se puede recomendar como estimación de escala.

Detección manual de valores atípicos

Tradicionalmente, los estadísticos examinaban manualmente los datos en busca de valores atípicos y los eliminaban, generalmente verificando la fuente de los datos para ver si los valores atípicos se habían registrado por error. De hecho, en el ejemplo de la velocidad de la luz anterior, es fácil ver y eliminar los dos valores atípicos antes de continuar con cualquier análisis adicional. Sin embargo, en los tiempos modernos, los conjuntos de datos a menudo consisten en grandes cantidades de variables que se miden en grandes cantidades de unidades experimentales. Por lo tanto, la detección manual de valores atípicos a menudo resulta poco práctica.

Los valores atípicos pueden interactuar a menudo de tal manera que se enmascaran entre sí. Como ejemplo simple, considere un pequeño conjunto de datos univariados que contiene un valor atípico modesto y uno grande. La desviación estándar estimada se inflará enormemente debido al valor atípico grande. El resultado es que el valor atípico modesto parece relativamente normal. Tan pronto como se elimina el valor atípico grande, la desviación estándar estimada se reduce y el valor atípico modesto ahora parece inusual.

Este problema de enmascaramiento se agrava a medida que aumenta la complejidad de los datos. Por ejemplo, en problemas de regresión , se utilizan gráficos de diagnóstico para identificar valores atípicos. Sin embargo, es común que una vez que se han eliminado algunos valores atípicos, otros se vuelvan visibles. El problema es aún peor en dimensiones superiores.

Los métodos robustos proporcionan formas automáticas de detectar, reducir (o eliminar) y marcar los valores atípicos, eliminando en gran medida la necesidad de un análisis manual. Se debe tener cuidado; los datos iniciales que mostraban que el agujero de ozono apareció por primera vez sobre la Antártida fueron rechazados como valores atípicos mediante un análisis no humano. ^[6]

Variedad de aplicaciones

Aunque este artículo trata los principios generales de los métodos estadísticos univariados, también existen métodos robustos para problemas de regresión, modelos lineales generalizados y estimación de parámetros de diversas distribuciones.

Medidas de robustez

Las herramientas básicas utilizadas para describir y medir la robustez son el punto de ruptura , la función de influencia y la curva de sensibilidad .

Punto de ruptura

Intuitivamente, el punto de ruptura de un estimador es la proporción de observaciones incorrectas (por ejemplo, observaciones arbitrariamente grandes) que un estimador puede manejar antes de dar un resultado incorrecto (por ejemplo, arbitrariamente grande). Por lo general, el límite asintótico (muestra infinita) se cita como el punto de ruptura, aunque el punto de ruptura de muestra finita puede ser más útil. ^[7] Por ejemplo, dadas las variables aleatorias independientes y las realizaciones correspondientes , podemos usar para estimar la media. Un estimador de este tipo tiene un punto de ruptura de 0 (o un punto de ruptura de muestra finita de ) porque podemos hacerlo arbitrariamente grande simplemente cambiando cualquiera de . ${\estilo de visualización n}$ $(X_{1},\puntos ,X_{n})$ $x_{1},\puntos ,x_{n}$ ${\overline {X_{n}}}:={\frac {X_{1}+\cdots +X_{n}}{n}}$ ${\estilo de visualización 1/n}$ ${\overline {x}}$ $x_{1},\puntos ,x_{n}$

Cuanto más alto sea el punto de ruptura de un estimador, más robusto será. Intuitivamente, podemos entender que un punto de ruptura no puede superar el 50% porque si más de la mitad de las observaciones están contaminadas, no es posible distinguir entre la distribución subyacente y la distribución contaminante Rousseeuw & Leroy (1987). Por lo tanto, el punto de ruptura máximo es 0,5 y hay estimadores que alcanzan dicho punto de ruptura. Por ejemplo, la mediana tiene un punto de ruptura de 0,5. La media recortada X% tiene un punto de ruptura de X%, para el nivel elegido de X. Huber (1981) y Maronna et al. (2019) contienen más detalles. El nivel y los puntos de ruptura de potencia de las pruebas se investigan en He, Simpson & Portnoy (1990).

Las estadísticas con puntos de ruptura altos a veces se denominan estadísticas resistentes. ^[8]

Ejemplo: datos de la velocidad de la luz

En el ejemplo de la velocidad de la luz, al eliminar las dos observaciones más bajas, la media cambia de 26,2 a 27,75, un cambio de 1,55. La estimación de escala producida por el método Qn es 6,3. Podemos dividir esto por la raíz cuadrada del tamaño de la muestra para obtener un error estándar robusto, y encontramos que esta cantidad es 0,78. Por lo tanto, el cambio en la media resultante de eliminar dos valores atípicos es aproximadamente el doble del error estándar robusto.

La media recortada al 10 % para los datos de velocidad de la luz es 27,43. Si se eliminan las dos observaciones más bajas y se vuelve a calcular, se obtiene 27,67. La media recortada se ve menos afectada por los valores atípicos y tiene un punto de ruptura más alto.

Si reemplazamos la observación más baja, −44, por −1000, la media se convierte en 11,73, mientras que la media recortada al 10% sigue siendo 27,43. En muchas áreas de la estadística aplicada, es habitual que los datos se transformen logarítmicamente para que sean casi simétricos. Los valores muy pequeños se convierten en negativos grandes cuando se transforman logarítmicamente, y los ceros se vuelven negativos infinitos. Por lo tanto, este ejemplo tiene interés práctico.

Función de influencia empírica

La función de influencia empírica es una medida de la dependencia del estimador con respecto al valor de cualquiera de los puntos de la muestra. Es una medida que no depende del modelo en el sentido de que simplemente se basa en calcular nuevamente el estimador con una muestra diferente. A la derecha se encuentra la función biweight de Tukey, que, como veremos más adelante, es un ejemplo de cómo debería ser una función de influencia empírica "buena" (en un sentido definido más adelante).

En términos matemáticos, una función de influencia se define como un vector en el espacio del estimador, que a su vez se define para una muestra que es un subconjunto de la población:

$(\Omega ,{\mathcal {A}},P)$ es un espacio de probabilidad,
$({\mathcal {X}},\Sigma )$ es un espacio medible (espacio de estados),
${\estilo de visualización \Theta}$ es un espacio de parámetros de dimensión , $p\in \mathbb {N} ^{*}$
${\estilo de visualización (\Gamma, S)}$ es un espacio medible,

Por ejemplo,

$(\Omega ,{\mathcal {A}},P)$ es cualquier espacio de probabilidad,
$({\mathcal {X}},\Sigma )=(\mathbb {R} ,{\mathcal {B}})$ ,
$\Theta =\mathbb {R} \times \mathbb {R} ^{+}$
$(\Gamma, S)=(\mathbb {R},{\mathcal {B}})$ ,

La función de influencia empírica se define de la siguiente manera.

Sean y iid y es una muestra de estas variables. es un estimador. Sea . La función de influencia empírica en la observación se define por: $n\in \mathbb {N} ^{*}$ $X_{1},\puntos ,X_{n}:(\Omega ,{\mathcal {A}})\rightarrow ({\mathcal {X}},\Sigma )$ $(x_{1},\puntos ,x_{n})$ $T_{n}:({\mathcal {X}}^{n},\Sigma ^{n})\rightarrow (\Gamma ,S)$ $i\en \{1,\puntos ,n\}$ $Estilo de visualización EIF_{i}$ ${\estilo de visualización i}$

EIF_{i}:x\in {\mathcal {X}}\mapsto n\cdot (T_{n}(x_{1},\puntos ,x_{i-1},x,x_{i+1},\puntos ,x_{n})-T_{n}(x_{1},\puntos ,x_{i-1},x_{i},x_{i+1},\puntos ,x_{n}))

Esto significa que reemplazamos el valor i de la muestra por un valor arbitrario y observamos el resultado del estimador. Alternativamente, el EIF se define como el efecto, escalado por n+1 en lugar de n, en el estimador de agregar el punto a la muestra. ^[^{cita requerida}^] ${\estilo de visualización x}$

Función de influencia y curva de sensibilidad

En lugar de basarnos únicamente en los datos, podríamos utilizar la distribución de las variables aleatorias. El enfoque es bastante diferente al del párrafo anterior. Lo que ahora estamos tratando de hacer es ver qué le sucede a un estimador cuando modificamos ligeramente la distribución de los datos: supone una distribución y mide la sensibilidad al cambio en esta distribución. Por el contrario, la influencia empírica supone un conjunto de muestras y mide la sensibilidad al cambio en las muestras. ^[9]

Sea un subconjunto convexo del conjunto de todas las medidas finitas con signo en . Queremos estimar el parámetro de una distribución en . Sea el funcional el valor asintótico de alguna secuencia de estimadores . Supondremos que este funcional es consistente con Fisher , es decir . Esto significa que en el modelo , la secuencia de estimadores mide asintóticamente la cantidad correcta. ${\estilo de visualización A}$ ${\estilo de visualización \Sigma}$ $\theta \en \Theta$ ${\estilo de visualización F}$ ${\estilo de visualización A}$ $T:A\rightarrow \Gamma$ $(T_{n})_{n\in \mathbb {N}}$ $\paratodos \theta \en \Theta ,T(F_{\theta })=\theta$ ${\estilo de visualización F}$

Sea una distribución en . ¿Qué sucede cuando los datos no siguen exactamente el modelo sino otro ligeramente diferente que "se dirige hacia" ? ${\estilo de visualización G}$ ${\estilo de visualización A}$ ${\estilo de visualización F}$ ${\estilo de visualización G}$

Estamos viendo:

dT_{GF}(F)=\lim _{t\rightarrow 0^{+}}{\frac {T(tG+(1-t)F)-T(F)}{t}}

que es la derivada de Gateaux unilateral de en , en la dirección de . ${\estilo de visualización T}$ ${\estilo de visualización F}$ ${\estilo de visualización GF}$

Sea . la medida de probabilidad que da masa 1 a . Elegimos . La función de influencia queda definida por: $x\in {\mathcal {X}}$ $\Delta_{x}$ ${\estilo de visualización \{x\}}$ $G=\Delta _{x}$

IF(x;T;F):=\lim _{t\rightarrow 0^{+}}{\frac {T(t\Delta _{x}+(1-t)F)-T(F)}{t}}.

Describe el efecto de una contaminación infinitesimal en el punto de la estimación que buscamos, estandarizado por la masa de la contaminación (el sesgo asintótico causado por la contaminación en las observaciones). Para un estimador robusto, queremos una función de influencia acotada, es decir, una que no se acerque al infinito cuando x se vuelve arbitrariamente grande. $x$ $t$

Propiedades deseables

Las propiedades de una función de influencia que le confieren un rendimiento deseable son:

Punto de rechazo finito , $\rho ^{*}$
Sensibilidad a errores brutos pequeños $\gamma ^{*}$
Pequeña sensibilidad al desplazamiento local . $\lambda ^{*}$

Punto de rechazo

\rho ^{*}:=\inf _{r>0}\{r:IF(x;T;F)=0,|x|>r\}

Sensibilidad al error bruto

\gamma ^{*}(T;F):=\sup _{x\in {\mathcal {X}}}|IF(x;T;F)|

Sensibilidad al cambio local

\lambda ^{*}(T;F):=\sup _{(x,y)\in {\mathcal {X}}^{2} \atop x\neq y}\left\|{\frac {IF(y;T;F)-IF(x;T;F)}{y-x}}\right\|

Este valor, que se parece mucho a una constante de Lipschitz , representa el efecto de desplazar ligeramente una observación de a un punto vecino , es decir, agregar una observación en y eliminar una en . $x$ $y$ $y$ $x$

Estimadores M

(El contexto matemático de este párrafo se da en la sección sobre funciones de influencia empírica).

Históricamente, se propusieron varios enfoques para la estimación robusta, incluidos los estimadores R y los estimadores L. Sin embargo, los estimadores M parecen dominar ahora el campo como resultado de su generalidad, su potencial para puntos de ruptura altos y su eficiencia comparativamente alta. Véase Huber (1981).

Los estimadores M no son inherentemente robustos. Sin embargo, pueden diseñarse para lograr propiedades favorables, incluida la robustez. Los estimadores M son una generalización de los estimadores de máxima verosimilitud (EMV), que se determina maximizando o, equivalentemente, minimizando . En 1964, Huber propuso generalizar esto a la minimización de , donde es alguna función. Por lo tanto, los EMV son un caso especial de estimadores M (de ahí el nombre: estimadores de " tipo de máxima verosimilitud"). ${\textstyle \prod _{i=1}^{n}f(x_{i})}$ ${\textstyle \sum _{i=1}^{n}-\log f(x_{i})}$ ${\textstyle \sum _{i=1}^{n}\rho (x_{i})}$ $\rho$

La minimización a menudo se puede realizar diferenciando y resolviendo , donde (si tiene una derivada). ${\textstyle \sum _{i=1}^{n}\rho (x_{i})}$ $\rho$ ${\textstyle \sum _{i=1}^{n}\psi (x_{i})=0}$ ${\textstyle \psi (x)={\frac {d\rho (x)}{dx}}}$ $\rho$

Se han propuesto varias opciones de y . Las dos figuras siguientes muestran cuatro funciones y sus funciones correspondientes. $\rho$ $\psi$ $\rho$ $\psi$

Para los errores al cuadrado, aumenta a un ritmo acelerado, mientras que para los errores absolutos, aumenta a un ritmo constante. Cuando se utiliza la función Winsorización, se introduce una mezcla de estos dos efectos: para valores pequeños de x, aumenta a un ritmo elevado al cuadrado, pero una vez que se alcanza el umbral elegido (1,5 en este ejemplo), la tasa de aumento se vuelve constante. Este estimador Winsorizado también se conoce como función de pérdida de Huber . $\rho (x)$ $\rho$

La función biweight (también conocida como bisquare) de Tukey se comporta de manera similar a la función de error al cuadrado al principio, pero para errores mayores, la función se reduce.

Propiedades de los estimadores M

Los estimadores M no necesariamente se relacionan con una función de densidad de probabilidad. Por lo tanto, en general, no se pueden utilizar métodos de inferencia estándar que surgen de la teoría de la probabilidad.

Se puede demostrar que los estimadores M se distribuyen normalmente de forma asintótica, de modo que siempre que se puedan calcular sus errores estándar, se dispone de un enfoque aproximado para la inferencia.

Dado que los estimadores M son normales sólo de manera asintótica, para tamaños de muestra pequeños puede ser adecuado utilizar un enfoque alternativo para la inferencia, como el método bootstrap. Sin embargo, los estimadores M no son necesariamente únicos (es decir, puede haber más de una solución que satisfaga las ecuaciones). Además, es posible que cualquier muestra bootstrap en particular pueda contener más valores atípicos que el punto de ruptura del estimador. Por lo tanto, se debe tener cierto cuidado al diseñar esquemas bootstrap.

Por supuesto, como vimos con el ejemplo de la velocidad de la luz, la media solo se distribuye normalmente de manera asintótica y cuando hay valores atípicos, la aproximación puede ser muy deficiente incluso para muestras bastante grandes. Sin embargo, las pruebas estadísticas clásicas, incluidas las basadas en la media, suelen estar limitadas por encima del tamaño nominal de la prueba. No ocurre lo mismo con los estimadores M y la tasa de error de tipo I puede ser sustancialmente superior al nivel nominal.

Estas consideraciones no "invalidan" la estimación M de ningún modo. Simplemente dejan claro que se debe tener cierto cuidado al utilizarla, como ocurre con cualquier otro método de estimación.

Función de influencia de un estimador M

Se puede demostrar que la función de influencia de un estimador M es proporcional a , ^[10] lo que significa que podemos derivar las propiedades de dicho estimador (como su punto de rechazo, sensibilidad al error bruto o sensibilidad al desplazamiento local) cuando conocemos su función. $T$ $\psi$ $\psi$

IF(x;T,F)=M^{-1}\psi (x,T(F))

con lo dado por: $p\times p$

M=-\int _{\mathcal {X}}\left({\frac {\partial \psi (x,\theta )}{\partial \theta }}\right)_{T(F)}\,dF(x).

Elección deψyρ

En muchas situaciones prácticas, la elección de la función no es crítica para obtener una buena estimación robusta, y muchas elecciones darán resultados similares que ofrecen grandes mejoras, en términos de eficiencia y sesgo, sobre las estimaciones clásicas en presencia de valores atípicos. ^[11] $\psi$

En teoría, se prefieren las funciones ^[^{aclaración necesaria}^] y la función biweight de Tukey (también conocida como bisquare) es una opción popular. Maronna et al. (2019) recomiendan la función biweight con una eficiencia en el conjunto normal del 85 %. $\psi$

Enfoques paramétricos robustos

Los estimadores M no necesariamente se relacionan con una función de densidad y, por lo tanto, no son completamente paramétricos. Los enfoques completamente paramétricos para la inferencia y el modelado robustos, tanto los enfoques bayesianos como los de verosimilitud, generalmente abordan distribuciones de cola pesada, como la distribución t de Student .

Para la distribución t con grados de libertad, se puede demostrar que $\nu$

\psi (x)={\frac {x}{x^{2}+\nu }}.

Para , la distribución t es equivalente a la distribución de Cauchy. Los grados de libertad a veces se conocen como el parámetro de curtosis . Es el parámetro que controla qué tan pesadas son las colas. En principio, se puede estimar a partir de los datos de la misma manera que cualquier otro parámetro. En la práctica, es común que haya múltiples máximos locales cuando se permite que varíe . Como tal, es común fijar un valor alrededor de 4 o 6. La figura a continuación muestra la función para 4 valores diferentes de . $\nu =1$ $\nu$ $\nu$ $\nu$ $\psi$ $\nu$

Ejemplo: datos de la velocidad de la luz

Para los datos de velocidad de la luz, permitiendo que el parámetro de curtosis varíe y maximizando la probabilidad, obtenemos

{\hat {\mu }}=27.40,\quad {\hat {\sigma }}=3.81,\quad {\hat {\nu }}=2.13.

Fijar y maximizar la probabilidad da $\nu =4$

{\hat {\mu }}=27.49,\quad {\hat {\sigma }}=4.51.

Conceptos relacionados

Una cantidad fundamental es una función de datos cuya distribución de población subyacente es miembro de una familia paramétrica, que no depende de los valores de los parámetros. Una estadística auxiliar es una función que también es una estadística, lo que significa que se calcula solo en términos de los datos. Estas funciones son robustas a los parámetros en el sentido de que son independientes de los valores de los parámetros, pero no robustas al modelo en el sentido de que suponen un modelo subyacente (familia paramétrica) y, de hecho, estas funciones suelen ser muy sensibles a las violaciones de los supuestos del modelo. Por lo tanto, las estadísticas de prueba , construidas con frecuencia en términos de estos para no ser sensibles a los supuestos sobre los parámetros, siguen siendo muy sensibles a los supuestos del modelo.

Reemplazo de valores atípicos y valores faltantes

La sustitución de datos faltantes se denomina imputación . Si hay relativamente pocos puntos faltantes, existen algunos modelos que se pueden utilizar para estimar valores para completar la serie, como reemplazar los valores faltantes con la media o la mediana de los datos. La regresión lineal simple también se puede utilizar para estimar los valores faltantes. ^[12] Además, a veces se pueden acomodar los valores atípicos en los datos mediante el uso de medias recortadas, otros estimadores de escala aparte de la desviación estándar (por ejemplo, MAD) y Winsorización. ^[13] En los cálculos de una media recortada, se elimina un porcentaje fijo de datos de cada extremo de los datos ordenados, eliminando así los valores atípicos. Luego, la media se calcula utilizando los datos restantes. La winsorización implica acomodar un valor atípico reemplazándolo con el siguiente valor más alto o el siguiente más pequeño según corresponda. ^[14]

Sin embargo, el uso de este tipo de modelos para predecir valores faltantes o valores atípicos en una serie temporal larga es difícil y a menudo poco fiable, en particular si el número de valores que deben completarse es relativamente alto en comparación con la longitud total del registro. La precisión de la estimación depende de lo bueno y representativo que sea el modelo y de lo largo que se extienda el período de valores faltantes. ^[15] Cuando se supone una evolución dinámica en una serie, el problema de los puntos de datos faltantes se convierte en un ejercicio de análisis multivariado (en lugar del enfoque univariante de la mayoría de los métodos tradicionales de estimación de valores faltantes y valores atípicos). En tales casos, un modelo multivariado será más representativo que uno univariante para predecir valores faltantes. El mapa autoorganizado de Kohonen (KSOM) ofrece un modelo multivariado simple y robusto para el análisis de datos, lo que proporciona buenas posibilidades para estimar valores faltantes, teniendo en cuenta su relación o correlación con otras variables pertinentes en el registro de datos. ^[14]

Los filtros de Kalman estándar no son robustos a los valores atípicos. Por este motivo, Ting, Theodorou y Schaal (2007) han demostrado recientemente que una modificación del teorema de Masreliez puede abordar los valores atípicos.

Un enfoque común para manejar los valores atípicos en el análisis de datos es realizar primero la detección de valores atípicos, seguida de un método de estimación eficiente (por ejemplo, los mínimos cuadrados). Si bien este enfoque suele ser útil, se deben tener en cuenta dos desafíos. En primer lugar, un método de detección de valores atípicos que se basa en un ajuste inicial no robusto puede sufrir el efecto de enmascaramiento, es decir, un grupo de valores atípicos puede enmascararse entre sí y escapar a la detección. ^[16] En segundo lugar, si se utiliza un ajuste inicial de alto nivel de ruptura para la detección de valores atípicos, el análisis de seguimiento puede heredar algunas de las ineficiencias del estimador inicial. ^[17]

Véase también

Notas

^ Sarkar, Palash (1 de mayo de 2014). "Sobre algunas conexiones entre estadística y criptología". Revista de planificación estadística e inferencia . 148 : 20–37. doi :10.1016/j.jspi.2013.05.008. ISSN 0378-3758.
^ Huber, Peter J.; Ronchetti, Elvezio M. (29 de enero de 2009). Estadística robusta. Serie Wiley en probabilidad y estadística (1.ª edición). Wiley. doi :10.1002/9780470434697. ISBN 978-0-470-12990-6.
^ Huber, Peter J.; Ronchetti, Elvezio M. (29 de enero de 2009). Estadística robusta. Serie Wiley en probabilidad y estadística (1.ª edición). Wiley. doi :10.1002/9780470434697. ISBN 978-0-470-12990-6.
^ abc Huber (1981), página 1.
^ Rousseeuw y Croux (1993).
^ Masters, Jeffrey. "¿Cuándo se descubrió el agujero de ozono?". Weather Underground . Archivado desde el original el 15 de septiembre de 2016.
^ Maronna y otros (2019)
^ Estadísticas resistentes, David B. Stephenson
^ de Mises (1947).
^ Huber (1981), página 45
^ Huber (1981).
^ MacDonald y Zucchini (1997); Harvey y Fernandes (1989).
^ McBean y Rovers (1998).
^ por Rustum y Adeloye (2007).
^ Rosen y Lennox (2001).
^ Rousseeuw y Leroy (1987).
^ Él y Portnoy (1992).

Referencias

Farcomeni, A.; Greco, L. (2013), Métodos robustos para la reducción de datos , Boca Raton, FL: Chapman & Hall/CRC Press, ISBN 978-1-4665-9062-5.
Hampel, Frank R. ; Ronchetti, Elvezio M. ; Rousseeuw, Peter J. ; Stahel, Werner A. (1986), Estadísticas robustas , Serie Wiley en probabilidad y estadística matemática: Probabilidad y estadística matemática, Nueva York: John Wiley & Sons, Inc., ISBN 0-471-82921-8, Sr. 0829458. Republicado en edición de bolsillo, 2005.
Harvey, AC; Fernandes, C. (octubre de 1989), "Modelos de series temporales para observaciones cualitativas o de recuento", Journal of Business & Economic Statistics , 7 (4), Taylor & Francis: 407–417, JSTOR 1391639
He, Xuming ; Portnoy, Stephen (1992), "Los estimadores LS reponderados convergen a la misma tasa que el estimador inicial", Annals of Statistics , 20 (4): 2161–2167, doi : 10.1214/aos/1176348910 , MR 1193333.
He, Xuming ; Simpson, Douglas G.; Portnoy, Stephen L. (1990), "Robustez de las pruebas frente a la ruptura", Journal of the American Statistical Association , 85 (410): 446–452, doi :10.2307/2289782, JSTOR 2289782, MR 1141746.
Hettmansperger, TP; McKean, JW (1998), Métodos estadísticos no paramétricos robustos , Biblioteca de Estadística de Kendall, vol. 5, Nueva York: John Wiley & Sons, Inc., ISBN 0-340-54937-8, Sr. 1604954. 2da ed., CRC Press, 2011.
Huber, Peter J. (1981), Estadísticas robustas , Nueva York: John Wiley & Sons, Inc., ISBN 0-471-41805-6, Sr. 0606374. Republicado en edición de bolsillo, 2004. 2.ª ed., Wiley, 2009.
MacDonald, Iain L.; Zucchini, Walter (1997), Hidden Markov y otros modelos para series temporales de valores discretos , Taylor & Francis, ISBN 9780412558504
Maronna, Ricardo A.; Martin, R. Douglas; Yohai, Victor J.; Salibián-Barrera, Matías (2019) [2006], Estadística robusta: teoría y métodos (con R) , Wiley Series in Probability and Statistics (2.ª ed.), Chichester: John Wiley & Sons, Ltd., doi :10.1002/9781119214656, ISBN 978-1-119-21468-7.
McBean, Edward A.; Rovers, Frank (1998), Procedimientos estadísticos para el análisis de datos de monitoreo ambiental y evaluación , Prentice-Hall.
Portnoy, Stephen; He, Xuming (2000), "Un viaje sólido en el nuevo milenio", Journal of the American Statistical Association , 95 (452): 1331–1335, doi :10.2307/2669782, JSTOR 2669782, MR 1825288.
Press, William H. ; Teukolsky, Saul A. ; Vetterling, William T.; Flannery, Brian P. (2007), "Sección 15.7. Estimación robusta", Recetas numéricas: el arte de la computación científica (3.ª ed.), Cambridge University Press, ISBN 978-0-521-88068-8, Sr. 2371990.
Rosen, C.; Lennox, JA (octubre de 2001), "Monitoreo multivariado y multiescalar de la operación de tratamiento de aguas residuales", Water Research , 35 (14): 3402–3410, doi :10.1016/s0043-1354(01)00069-0, PMID 11547861.
Rousseeuw, Peter J. ; Croux, Christophe (1993), "Alternativas a la desviación absoluta mediana", Journal of the American Statistical Association , 88 (424): 1273–1283, doi :10.2307/2291267, JSTOR 2291267, MR 1245360.
Rousseeuw, Peter J. ; Leroy, Annick M. (1987), Regresión robusta y detección de valores atípicos , Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics, Nueva York: John Wiley & Sons, Inc., doi :10.1002/0471725382, ISBN 0-471-85233-3, Sr. 0914792. Republicado en edición de bolsillo, 2003.
Rousseeuw, Peter J. ; Hubert, Mia (2011), "Estadísticas robustas para la detección de valores atípicos", Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery , 1 (1): 73–79, doi :10.1002/widm.2, S2CID 17448982. Preimpresión
Rustum, Rabee; Adeloye, Adebayo J. (septiembre de 2007), "Reemplazo de valores atípicos y faltantes de datos de lodos activados utilizando el mapa autoorganizado de Kohonen", Journal of Environmental Engineering , 133 (9): 909–916, doi :10.1061/(asce)0733-9372(2007)133:9(909).
Stigler, Stephen M. (2010), "La historia cambiante de la robustez", The American Statistician , 64 (4): 277–281, doi :10.1198/tast.2010.10159, MR 2758558, S2CID 10728417.
Ting, Jo-anne; Theodorou, Evangelos; Schaal, Stefan (2007), "Un filtro de Kalman para la detección robusta de valores atípicos", Conferencia internacional sobre robots y sistemas inteligentes – IROS , págs. 1514–1519.
von Mises, R. (1947), "Sobre la distribución asintótica de funciones estadísticas diferenciables", Annals of Mathematical Statistics , 18 (3): 309–348, doi : 10.1214/aoms/1177730385 , MR 0022330.
Wilcox, Rand (2012), Introducción a la estimación robusta y a las pruebas de hipótesis , Statistical Modeling and Decision Science (3.ª ed.), Ámsterdam: Elsevier/Academic Press, págs. 1–22, doi :10.1016/B978-0-12-386983-8.00001-9, ISBN 978-0-12-386983-8, Sr. 3286430.

Enlaces externos

Apuntes del curso de estadística robusta de Brian Ripley .
Las notas del curso de Nick Fieller sobre modelado estadístico y computación contienen material sobre regresión robusta.
El sitio de David Olive contiene notas del curso sobre estadísticas sólidas y algunos conjuntos de datos.
Experimentos en línea con R y JSXGraph