stringtranslate.com

Estimador Theil-Sen

El estimador de Theil-Sen de un conjunto de puntos muestrales con valores atípicos (línea negra) en comparación con la línea de mínimos cuadrados ordinarios no robustos para el mismo conjunto (azul). La línea verde discontinua representa la verdad fundamental a partir de la cual se generaron las muestras.

En estadística no paramétrica , el estimador de Theil-Sen es un método para ajustar robustamente una línea a puntos de muestra en el plano ( regresión lineal simple ) eligiendo la mediana de las pendientes de todas las líneas que pasan por pares de puntos. También se le ha llamado estimador de pendiente de Sen , [1] [2] selección de pendiente , [3] [4] método de mediana única , [5] método de ajuste de línea robusto de Kendall , [6] y línea robusta de Kendall-Theil . [7] Lleva el nombre de Henri Theil y Pranab K. Sen , quienes publicaron artículos sobre este método en 1950 y 1968 respectivamente, [8] y de Maurice Kendall debido a su relación con el coeficiente de correlación de rango tau de Kendall . [9]

La regresión de Theil-Sen tiene varias ventajas sobre la regresión de mínimos cuadrados ordinaria . Es insensible a los valores atípicos . Puede usarse para pruebas de significancia incluso cuando los residuos no se distribuyen normalmente. [10] Puede ser significativamente más precisa que la regresión lineal simple no robusta (mínimos cuadrados) para datos asimétricos y heterocedásticos , y compite bien contra mínimos cuadrados incluso para datos distribuidos normalmente en términos de poder estadístico . [11] Se la ha llamado "la técnica no paramétrica más popular para estimar una tendencia lineal". [2] Existen algoritmos rápidos para calcular los parámetros de manera eficiente.

Definición

Según lo definido por Theil (1950), el estimador de Theil-Sen de un conjunto de puntos bidimensionales ( x i , y i ) es la mediana m de las pendientes ( y jy i )/( x jx i ) determinado por todos los pares de puntos muestrales. Sen (1968) amplió esta definición para manejar el caso en el que dos puntos de datos tienen la misma coordenada x . En la definición de Sen, se toma la mediana de las pendientes definidas sólo a partir de pares de puntos que tienen distintas coordenadas x . [8]

Una vez que se ha determinado la pendiente m , se puede determinar una línea desde los puntos de muestra estableciendo la intersección con el eje y b como la mediana de los valores y imx i . La recta de ajuste es entonces la recta y = mx + b con coeficientes myb en forma pendiente-intersección . [12] Como observó Sen, esta elección de pendiente hace que el coeficiente de correlación de rango tau de Kendall se vuelva aproximadamente cero, cuando se usa para comparar los valores x i con sus residuos asociados y imx ib . Intuitivamente, esto sugiere que la distancia que pasa la línea de ajuste por encima o por debajo de un punto de datos no está correlacionada con si ese punto está en el lado izquierdo o derecho del conjunto de datos. La elección de b no afecta el coeficiente de Kendall, pero hace que el residuo mediano sea aproximadamente cero; es decir, la línea de ajuste pasa por encima y por debajo de igual número de puntos. [9]

Se puede determinar un intervalo de confianza para la estimación de la pendiente como el intervalo que contiene el 95% medio de las pendientes de las líneas determinadas por pares de puntos [13] y se puede estimar rápidamente muestreando pares de puntos y determinando el intervalo del 95% de la pendiente muestreada. pendientes. Según las simulaciones, aproximadamente 600 pares de muestras son suficientes para determinar un intervalo de confianza exacto. [11]

Variaciones

Una variación del estimador de Theil-Sen, la regresión mediana repetida de Siegel (1982), determina para cada punto muestral ( x i , y i ) , la mediana m i de las pendientes ( y jy i )/( x jx i ) de líneas que pasan por ese punto, y luego determina el estimador general como la mediana de estas medianas. Puede tolerar un mayor número de valores atípicos que el estimador de Theil-Sen, pero los algoritmos conocidos para calcularlo de manera eficiente son más complicados y menos prácticos. [14]

Una variante diferente empareja puntos de muestra por el rango de sus coordenadas x : el punto con la coordenada más pequeña se empareja con el primer punto por encima de la coordenada mediana, el segundo punto más pequeño se empareja con el siguiente punto por encima de la mediana, y así en. Luego calcula la mediana de las pendientes de las líneas determinadas por estos pares de puntos, ganando velocidad al examinar significativamente menos pares que el estimador de Theil-Sen. [15]

También se han estudiado variaciones del estimador de Theil-Sen basado en medianas ponderadas , basándose en el principio de que los pares de muestras cuyas coordenadas x difieren más tienen más probabilidades de tener una pendiente precisa y, por lo tanto, deberían recibir una ponderación mayor. [dieciséis]

Para datos estacionales, puede ser apropiado suavizar las variaciones estacionales en los datos considerando sólo pares de puntos muestrales que pertenecen al mismo mes o a la misma estación del año, y encontrando la mediana de las pendientes de las líneas determinadas por este conjunto de pares más restrictivo. [17]

Propiedades estadísticas

El estimador de Theil-Sen es un estimador insesgado de la pendiente verdadera en regresión lineal simple . [18] Para muchas distribuciones del error de respuesta , este estimador tiene una alta eficiencia asintótica en relación con la estimación de mínimos cuadrados . [19] Los estimadores con baja eficiencia requieren más observaciones independientes para lograr la misma varianza muestral de los estimadores insesgados eficientes.

El estimador de Theil-Sen es más robusto que el estimador de mínimos cuadrados porque es mucho menos sensible a los valores atípicos . Tiene un punto de ruptura de

lo que significa que puede tolerar una corrupción arbitraria de hasta el 29,3% de los puntos de datos de entrada sin degradar su precisión. [12] Sin embargo, el punto de ruptura disminuye para generalizaciones del método de dimensiones superiores. [20] Un punto de ruptura más alto, 50%, es válido para un algoritmo de ajuste de líneas robusto diferente, el estimador de mediana repetida de Siegel. [12]

El estimador de Theil-Sen es equivariante en cada transformación lineal de su variable de respuesta, lo que significa que transformar primero los datos y luego ajustar una línea, o ajustar primero una línea y luego transformarla de la misma manera, produce el mismo resultado. [21] Sin embargo, no es equivariante bajo transformaciones afines de las variables predictoras y de respuesta. [20]

Algoritmos

La pendiente mediana de un conjunto de n puntos de muestra se puede calcular exactamente calculando todas las O ( n 2 ) líneas que pasan por pares de puntos y luego aplicando un algoritmo de búsqueda de mediana de tiempo lineal . Alternativamente, puede estimarse muestreando pares de puntos. Este problema es equivalente, bajo dualidad proyectiva , al problema de encontrar el punto de cruce en una disposición de líneas que tiene la coordenada x mediana entre todos esos puntos de cruce. [22]

El problema de realizar la selección de pendientes de manera exacta pero más eficiente que el algoritmo de tiempo cuadrático de fuerza bruta se ha estudiado ampliamente en geometría computacional . Se conocen varios métodos diferentes para calcular el estimador de Theil-Sen exactamente en tiempo O ( n log n ) , ya sea de forma determinista [3] o utilizando algoritmos aleatorios . [4] El estimador de mediana repetida de Siegel también se puede construir en el mismo límite de tiempo. [23] En modelos de cálculo en los que las coordenadas de entrada son números enteros y en los que las operaciones bit a bit sobre números enteros toman un tiempo constante, el estimador de Theil-Sen se puede construir aún más rápidamente, en un tiempo esperado aleatorio . [24]

En el modelo de flujo de datos se puede mantener un estimador de la pendiente con un rango aproximadamente mediano, que tenga el mismo punto de ruptura que el estimador de Theil-Sen (en el que los puntos de muestra se procesan uno por uno mediante un algoritmo que no tiene suficientes datos persistentes). almacenamiento para representar todo el conjunto de datos) utilizando un algoritmo basado en ε-nets . [25]

Implementaciones

En el paquete de estadísticas R , tanto el estimador de Theil-Sen como el estimador de mediana repetida de Siegel están disponibles a través de la mblmbiblioteca. [26] El Servicio Geológico de Estados Unidos ha puesto a disposición una aplicación Visual Basic gratuita e independiente para la estimación de Theil-Sen . [27] El estimador Theil-Sen también se ha implementado en Python como parte de las bibliotecas SciPy y scikit-learn . [28]KTRLine

Aplicaciones

La estimación de Theil-Sen se ha aplicado a la astronomía debido a su capacidad para manejar modelos de regresión censurados . [29] En biofísica , Fernandes y Leblanc (2005) sugieren su uso para aplicaciones de detección remota, como la estimación del área foliar a partir de datos de reflectancia, debido a su "simplicidad en el cálculo, estimaciones analíticas de intervalos de confianza, robustez ante valores atípicos, suposiciones comprobables sobre residuales y... información limitada a priori sobre errores de medición". [30] Para medir datos ambientales estacionales, como la calidad del agua , se ha propuesto una variante ajustada estacionalmente del estimador Theil-Sen como preferible a la estimación de mínimos cuadrados debido a su alta precisión en presencia de datos sesgados. [17] En informática , el método Theil-Sen se ha utilizado para estimar las tendencias en el envejecimiento del software . [31] En meteorología y climatología , se ha utilizado para estimar las tendencias a largo plazo de la aparición y velocidad del viento. [32]

Ver también

Notas

  1. ^ Gilbert (1987).
  2. ^ ab El-Shaarawi y Piegorsch (2001).
  3. ^ ab Cole y col. (1989); Katz y Sharir (1993); Brönnimann y Chazelle (1998).
  4. ^ ab Dillencourt, Mount y Netanyahu (1992); Matoušek (1991); Blunck y Vahrenhold (2006).
  5. ^ Massart y col. (1997)
  6. ^ Sokal y Rohlf (1995); Dytham (2011).
  7. ^ Granato (2006)
  8. ^ ab Theil (1950); Sen (1968)
  9. ^ ab Sen (1968); Osborne (2008).
  10. ^ Helsel, Dennis R.; Hirsch, Robert M.; Ryberg, Karen R.; Archfield, Stacey A.; Gilroy, Edward J. (2020). Métodos estadísticos en recursos hídricos. Técnicas y Métodos. Reston, VA: Servicio Geológico de EE. UU. pag. 484 . Consultado el 22 de mayo de 2020 .
  11. ^ ab Wilcox (2001).
  12. ^ abc Rousseeuw y Leroy (2003), págs.67, 164.
  13. ^ Para determinar los intervalos de confianza, se deben muestrear pares de puntos con reemplazo ; esto significa que el conjunto de pares utilizado en este cálculo incluye pares en los que ambos puntos son iguales entre sí. Estos pares siempre están fuera del intervalo de confianza porque no determinan un valor de pendiente bien definido, pero usarlos como parte del cálculo hace que el intervalo de confianza sea más amplio de lo que sería sin ellos.
  14. ^ Logan (2010), Sección 8.2.7 Regresión robusta; Matoušek, Monte y Netanyahu (1998)
  15. ^ De Muth (2006).
  16. ^ Jaeckel (1972); Scholz (1978); Sievers (1978); Birkes y Dodge (1993).
  17. ^ ab Hirsch, Slack y Smith (1982).
  18. ^ Sen (1968), Teorema 5.1, pág. 1384; Wang y Yu (2005).
  19. ^ Sen (1968), Sección 6; Wilcox (1998).
  20. ^ ab Wilcox (2005).
  21. ^ Sen (1968), pág. 1383.
  22. ^ Cole y col. (1989).
  23. ^ Matoušek, Monte y Netanyahu (1998).
  24. ^ Chan y Pătraşcu (2010).
  25. ^ Bagchi y col. (2007).
  26. ^ Logan (2010), pág. 237; Vannest, Davis y Parker (2013)
  27. ^ Vannest, Davis y Parker (2013); Granato (2006)
  28. ^ Comunidad SciPy (2015); Persson y Martins (2016)
  29. ^ Akritas, Murphy y LaValley (1995).
  30. ^ Fernández y Leblanc (2005).
  31. ^ Vaidyanathan y Trivedi (2005).
  32. ^ Romanić y col. (2014).

Referencias