stringtranslate.com

Estimador de Theil-Sen

El estimador de Theil-Sen de un conjunto de puntos de muestra con valores atípicos (línea negra) comparado con la línea de mínimos cuadrados ordinarios no robusta para el mismo conjunto (línea azul). La línea verde discontinua representa la verdad fundamental a partir de la cual se generaron las muestras.

En estadística no paramétrica , el estimador de Theil–Sen es un método para ajustar de manera robusta una línea a puntos de muestra en el plano ( regresión lineal simple ) mediante la elección de la mediana de las pendientes de todas las líneas a través de pares de puntos. También se ha denominado estimador de pendiente de Sen , [1] [2] selección de pendiente , [3] [4] método de mediana única , [5] método de ajuste de línea robusto de Kendall , [6] y línea robusta de Kendall–Theil . [7] Recibe su nombre en honor a Henri Theil y Pranab K. Sen , quienes publicaron artículos sobre este método en 1950 y 1968 respectivamente, [8] y en honor a Maurice Kendall debido a su relación con el coeficiente de correlación de rango tau de Kendall . [9]

La regresión de Theil-Sen tiene varias ventajas sobre la regresión de mínimos cuadrados ordinarios . Es insensible a los valores atípicos . Se puede utilizar para pruebas de significancia incluso cuando los residuos no se distribuyen normalmente. [10] Puede ser significativamente más precisa que la regresión lineal simple no robusta (mínimos cuadrados) para datos sesgados y heterocedásticos , y compite bien con los mínimos cuadrados incluso para datos distribuidos normalmente en términos de poder estadístico . [11] Se ha llamado "la técnica no paramétrica más popular para estimar una tendencia lineal". [2] Hay algoritmos rápidos para calcular eficientemente los parámetros.

Definición

Según la definición de Theil (1950), el estimador de Theil-Sen de un conjunto de puntos bidimensionales ( x i , y i ) es la mediana m de las pendientes ( y jy i )/( x jx i ) determinadas por todos los pares de puntos de muestra. Sen (1968) amplió esta definición para abordar el caso en el que dos puntos de datos tienen la misma coordenada x . En la definición de Sen, se toma la mediana de las pendientes definidas solo a partir de pares de puntos que tienen coordenadas x distintas . [8]

Una vez que se ha determinado la pendiente m , se puede determinar una línea a partir de los puntos de muestra estableciendo que la intersección con el eje y b sea la mediana de los valores y imx i . La línea de ajuste es entonces la línea y = mx + b con coeficientes m y b en forma de pendiente-intersección . [12] Como observó Sen, esta elección de pendiente hace que el coeficiente de correlación de rango tau de Kendall se vuelva aproximadamente cero, cuando se utiliza para comparar los valores x i con sus residuos asociados y imx ib . Intuitivamente, esto sugiere que la distancia que la línea de ajuste pasa por encima o por debajo de un punto de datos no está correlacionada con si ese punto está en el lado izquierdo o derecho del conjunto de datos. La elección de b no afecta al coeficiente de Kendall, pero hace que el residuo mediano se vuelva aproximadamente cero; es decir, la línea de ajuste pasa por encima y por debajo de un número igual de puntos. [9]

Un intervalo de confianza para la estimación de la pendiente puede determinarse como el intervalo que contiene el 95% medio de las pendientes de las líneas determinadas por pares de puntos [13] y puede estimarse rápidamente mediante el muestreo de pares de puntos y la determinación del intervalo del 95% de las pendientes muestreadas. Según las simulaciones, aproximadamente 600 pares de muestras son suficientes para determinar un intervalo de confianza preciso. [11]

Variaciones

Una variación del estimador de Theil–Sen, la regresión mediana repetida de Siegel (1982), determina para cada punto de muestra ( x i , y i ) , la mediana m i de las pendientes ( y jy i )/( x jx i ) de las líneas que pasan por ese punto, y luego determina el estimador general como la mediana de estas medianas. Puede tolerar un mayor número de valores atípicos que el estimador de Theil–Sen, pero los algoritmos conocidos para calcularlo de manera eficiente son más complicados y menos prácticos. [14]

Una variante diferente empareja los puntos de muestra según el rango de sus coordenadas x : el punto con la coordenada más pequeña se empareja con el primer punto por encima de la coordenada mediana, el segundo punto más pequeño se empareja con el siguiente punto por encima de la mediana, y así sucesivamente. Luego calcula la mediana de las pendientes de las líneas determinadas por estos pares de puntos, ganando velocidad al examinar significativamente menos pares que el estimador de Theil-Sen. [15]

También se han estudiado variaciones del estimador de Theil-Sen basadas en medianas ponderadas , basándose en el principio de que los pares de muestras cuyas coordenadas x difieren más tienen más probabilidades de tener una pendiente precisa y, por lo tanto, deberían recibir un peso mayor. [16]

En el caso de los datos estacionales, puede ser adecuado suavizar las variaciones estacionales de los datos considerando solo pares de puntos de muestra que pertenezcan al mismo mes o a la misma estación del año, y hallar la mediana de las pendientes de las líneas determinadas por este conjunto más restrictivo de pares. [17]

Propiedades estadísticas

El estimador de Theil-Sen es un estimador imparcial de la pendiente verdadera en regresión lineal simple . [18] Para muchas distribuciones del error de respuesta , este estimador tiene una alta eficiencia asintótica en relación con la estimación de mínimos cuadrados . [19] Los estimadores con baja eficiencia requieren más observaciones independientes para alcanzar la misma varianza de muestra de estimadores imparciales eficientes.

El estimador de Theil-Sen es más robusto que el estimador de mínimos cuadrados porque es mucho menos sensible a los valores atípicos . Tiene un punto de ruptura de

lo que significa que puede tolerar una corrupción arbitraria de hasta el 29,3% de los puntos de datos de entrada sin degradación de su precisión. [12] Sin embargo, el punto de ruptura disminuye para generalizaciones de mayor dimensión del método. [20] Un punto de ruptura más alto, 50%, se cumple para un algoritmo de ajuste de línea robusto diferente, el estimador mediano repetido de Siegel. [12]

El estimador de Theil-Sen es equivariante bajo cada transformación lineal de su variable de respuesta, lo que significa que transformar primero los datos y luego ajustar una línea, o ajustar una línea primero y luego transformarla de la misma manera, ambos producen el mismo resultado. [21] Sin embargo, no es equivariante bajo transformaciones afines tanto de la variable predictora como de la variable de respuesta. [20]

Algoritmos

La pendiente mediana de un conjunto de n puntos de muestra se puede calcular exactamente calculando todas las O ( n 2 ) líneas a través de pares de puntos y luego aplicando un algoritmo de búsqueda de mediana de tiempo lineal . Alternativamente, se puede estimar mediante el muestreo de pares de puntos. Este problema es equivalente, bajo dualidad proyectiva , al problema de encontrar el punto de cruce en una disposición de líneas que tiene la coordenada x mediana entre todos esos puntos de cruce. [22]

El problema de realizar la selección de pendiente de forma exacta pero más eficiente que el algoritmo de tiempo cuadrático de fuerza bruta ha sido ampliamente estudiado en geometría computacional . Se conocen varios métodos diferentes para calcular el estimador de Theil–Sen exactamente en tiempo O ( n log n ) , ya sea de forma determinista [3] o utilizando algoritmos aleatorios . [4] El estimador de mediana repetida de Siegel también se puede construir en el mismo límite de tiempo. [23] En modelos de computación en los que las coordenadas de entrada son números enteros y en los que las operaciones bit a bit sobre números enteros toman un tiempo constante, el estimador de Theil–Sen se puede construir incluso más rápidamente, en un tiempo esperado aleatorio . [24]

Se puede mantener un estimador para la pendiente con un rango aproximadamente mediano, que tenga el mismo punto de ruptura que el estimador de Theil–Sen, en el modelo de flujo de datos (en el que los puntos de muestra se procesan uno por uno mediante un algoritmo que no tiene suficiente almacenamiento persistente para representar el conjunto de datos completo) utilizando un algoritmo basado en ε-nets . [25]

Implementaciones

En el paquete de estadísticas Rmblm , tanto el estimador de Theil-Sen como el estimador de mediana repetida de Siegel están disponibles a través de la biblioteca. [26] El Servicio Geológico de Estados Unidos ha puesto a disposición una aplicación gratuita e independiente en Visual Basic para la estimación de Theil-Sen, . [27] El estimador de Theil-Sen también se ha implementado en Python como parte de las bibliotecas SciPy y scikit-learn . [28]KTRLine

Aplicaciones

La estimación de Theil-Sen se ha aplicado a la astronomía debido a su capacidad para manejar modelos de regresión censurados . [29] En biofísica , Fernandes y Leblanc (2005) sugieren su uso para aplicaciones de teledetección, como la estimación del área de las hojas a partir de datos de reflectancia debido a su "simplicidad en el cálculo, estimaciones analíticas de intervalos de confianza, robustez ante valores atípicos, suposiciones comprobables con respecto a los residuos y ... información a priori limitada con respecto a los errores de medición". [30] Para medir datos ambientales estacionales como la calidad del agua , se ha propuesto una variante ajustada estacionalmente del estimador de Theil-Sen como preferible a la estimación de mínimos cuadrados debido a su alta precisión en presencia de datos sesgados. [17] En informática , el método de Theil-Sen se ha utilizado para estimar tendencias en el envejecimiento del software . [31] En meteorología y climatología , se ha utilizado para estimar las tendencias a largo plazo de la ocurrencia y velocidad del viento. [32]

Véase también

Notas

  1. ^ Gilbert (1987).
  2. ^ ab El-Shaarawi y Piegorsch (2001).
  3. ^ desde Cole y col. (1989); Katz y Sharir (1993); Brönnimann y Chazelle (1998).
  4. ^ ab Dillencourt, Mount y Netanyahu (1992); Matoušek (1991); Blunck y Vahrenhold (2006).
  5. ^ Massart y otros (1997)
  6. ^ Sokal y Rohlf (1995); Dytham (2011).
  7. ^ Granato (2006)
  8. ^ de Theil (1950); Sen (1968)
  9. ^ desde Sen (1968); Osborne (2008).
  10. ^ Helsel, Dennis R.; Hirsch, Robert M.; Ryberg, Karen R.; Archfield, Stacey A.; Gilroy, Edward J. (2020). Métodos estadísticos en recursos hídricos. Técnicas y métodos. Reston, VA: Servicio Geológico de Estados Unidos. p. 484. Consultado el 22 de mayo de 2020 .
  11. ^ por Wilcox (2001).
  12. ^ abc Rousseeuw y Leroy (2003), págs. 67, 164.
  13. ^ Para determinar los intervalos de confianza, los pares de puntos deben muestrearse con reemplazo ; esto significa que el conjunto de pares utilizados en este cálculo incluye pares en los que ambos puntos son iguales entre sí. Estos pares siempre están fuera del intervalo de confianza, porque no determinan un valor de pendiente bien definido, pero usarlos como parte del cálculo hace que el intervalo de confianza sea más amplio de lo que sería sin ellos.
  14. ^ Logan (2010), Sección 8.2.7 Regresión robusta; Matoušek, Monte y Netanyahu (1998)
  15. ^ De Muth (2006).
  16. ^ Jaeckel (1972); Scholz (1978); Sievers (1978); Birkes y Dodge (1993).
  17. ^ por Hirsch, Slack y Smith (1982).
  18. ^ Sen (1968), Teorema 5.1, pág. 1384; Wang y Yu (2005).
  19. ^ Sen (1968), Sección 6; Wilcox (1998).
  20. ^ por Wilcox (2005).
  21. ^ Sen (1968), pág. 1383.
  22. ^ Cole y otros (1989).
  23. ^ Matoušek, Monte y Netanyahu (1998).
  24. ^ Chan y Pătraşcu (2010).
  25. ^ Bagchi y otros (2007).
  26. ^ Logan (2010), pág. 237; Vannest, Davis y Parker (2013)
  27. ^ Vannest, Davis y Parker (2013); Granato (2006)
  28. ^ Comunidad SciPy (2015); Persson & Martins (2016)
  29. ^ Akritas, Murphy y LaValley (1995).
  30. ^ Fernandes y Leblanc (2005).
  31. ^ Vaidyanathan y Trivedi (2005).
  32. ^ Romanić y otros (2014).

Referencias