Estimador de Theil-Sen

En estadística no paramétrica , el estimador de Theil–Sen es un método para ajustar de manera robusta una línea a puntos de muestra en el plano ( regresión lineal simple ) mediante la elección de la mediana de las pendientes de todas las líneas a través de pares de puntos. También se ha denominado estimador de pendiente de Sen , ^[1]^[2] selección de pendiente , ^[3]^[4] método de mediana única , ^[5] método de ajuste de línea robusto de Kendall , ^[6] y línea robusta de Kendall–Theil . ^[7] Lleva el nombre de Henri Theil y Pranab K. Sen , quienes publicaron artículos sobre este método en 1950 y 1968 respectivamente, ^[8] y de Maurice Kendall debido a su relación con el coeficiente de correlación de rango tau de Kendall . ^[9]

La regresión de Theil-Sen tiene varias ventajas sobre la regresión de mínimos cuadrados ordinarios . Es insensible a los valores atípicos . Se puede utilizar para pruebas de significancia incluso cuando los residuos no se distribuyen normalmente. ^[10] Puede ser significativamente más precisa que la regresión lineal simple no robusta (mínimos cuadrados) para datos sesgados y heterocedásticos , y compite bien con los mínimos cuadrados incluso para datos distribuidos normalmente en términos de poder estadístico . ^[11] Se ha llamado "la técnica no paramétrica más popular para estimar una tendencia lineal". ^[2] Hay algoritmos rápidos para calcular eficientemente los parámetros.

Definición

Según la definición de Theil (1950), el estimador de Theil-Sen de un conjunto de puntos bidimensionales $(x i, y i)$ es la mediana $m$ de las pendientes $(y j - y i)/(x j - x i)$ determinadas por todos los pares de puntos de muestra. Sen (1968) amplió esta definición para manejar el caso en el que dos puntos de datos tienen la misma coordenada $x$ . En la definición de Sen, se toma la mediana de las pendientes definidas solo a partir de pares de puntos que tienen coordenadas $x$ distintas . ^[8]

Una vez que se ha determinado la pendiente $m$ , se puede determinar una línea a partir de los puntos de muestra estableciendo que la intersección con el $eje y$ $b$ sea la mediana de los valores $y i - mx i$ . La línea de ajuste es entonces la línea $y = mx + b$ con coeficientes $m$ y $b$ en forma de pendiente-intersección . ^[12] Como observó Sen, esta elección de pendiente hace que el coeficiente de correlación de rango tau de Kendall se vuelva aproximadamente cero, cuando se utiliza para comparar los valores $x i$ con sus residuos asociados $y i - mx i - b$ . Intuitivamente, esto sugiere que la distancia que la línea de ajuste pasa por encima o por debajo de un punto de datos no está correlacionada con si ese punto está en el lado izquierdo o derecho del conjunto de datos. La elección de $b$ no afecta al coeficiente de Kendall, pero hace que el residuo mediano se vuelva aproximadamente cero; es decir, la línea de ajuste pasa por encima y por debajo de un número igual de puntos. ^[9]

El intervalo de confianza para la estimación de la pendiente se puede determinar como el intervalo que contiene el 95 % medio de las pendientes de las líneas determinadas por pares de puntos ^[13] y se puede estimar rápidamente mediante el muestreo de pares de puntos y la determinación del intervalo del 95 % de las pendientes muestreadas. Según las simulaciones, aproximadamente 600 pares de muestras son suficientes para determinar un intervalo de confianza preciso. ^[11]

Variaciones

Una variación del estimador de Theil-Sen, la regresión mediana repetida de Siegel (1982), determina para cada punto de muestra $(x i, y i)$ , la mediana $m i$ de las pendientes $(y j - y i)/(x j - x i)$ de las líneas que pasan por ese punto, y luego determina el estimador general como la mediana de estas medianas. Puede tolerar un mayor número de valores atípicos que el estimador de Theil-Sen, pero los algoritmos conocidos para calcularlo de manera eficiente son más complicados y menos prácticos. ^[14]

Una variante diferente empareja los puntos de muestra según el rango de sus coordenadas $x$ : el punto con la coordenada más pequeña se empareja con el primer punto por encima de la coordenada mediana, el segundo punto más pequeño se empareja con el siguiente punto por encima de la mediana, y así sucesivamente. Luego calcula la mediana de las pendientes de las líneas determinadas por estos pares de puntos, ganando velocidad al examinar significativamente menos pares que el estimador de Theil-Sen. ^[15]

También se han estudiado variaciones del estimador de Theil-Sen basadas en medianas ponderadas , basándose en el principio de que los pares de muestras cuyas coordenadas $x$ difieren más tienen más probabilidades de tener una pendiente precisa y, por lo tanto, deberían recibir un peso mayor. ^[16]

En el caso de los datos estacionales, puede ser adecuado suavizar las variaciones estacionales de los datos considerando solo pares de puntos de muestra que pertenezcan al mismo mes o a la misma estación del año, y encontrando la mediana de las pendientes de las líneas determinadas por este conjunto más restrictivo de pares. ^[17]

Propiedades estadísticas

El estimador de Theil-Sen es un estimador imparcial de la pendiente verdadera en regresión lineal simple . ^[18] Para muchas distribuciones del error de respuesta , este estimador tiene una alta eficiencia asintótica en relación con la estimación de mínimos cuadrados . ^[19] Los estimadores con baja eficiencia requieren más observaciones independientes para alcanzar la misma varianza de muestra de estimadores imparciales eficientes.

El estimador de Theil-Sen es más robusto que el estimador de mínimos cuadrados porque es mucho menos sensible a los valores atípicos . Tiene un punto de ruptura de

1-{\frac {1}{\sqrt {2}}}\aproximadamente 29,3\%,

lo que significa que puede tolerar una corrupción arbitraria de hasta el 29,3% de los puntos de datos de entrada sin degradación de su precisión. ^[12] Sin embargo, el punto de ruptura disminuye para generalizaciones de mayor dimensión del método. ^[20] Un punto de ruptura más alto, 50%, se cumple para un algoritmo de ajuste de línea robusto diferente, el estimador mediano repetido de Siegel. ^[12]

El estimador de Theil-Sen es equivariante bajo cada transformación lineal de su variable de respuesta, lo que significa que transformar primero los datos y luego ajustar una línea, o ajustar primero una línea y luego transformarla de la misma manera, ambos producen el mismo resultado. ^[21] Sin embargo, no es equivariante bajo transformaciones afines tanto de la variable predictora como de la variable de respuesta. ^[20]

Algoritmos

La pendiente mediana de un conjunto de $n$ puntos de muestra se puede calcular exactamente calculando todas $las O (n 2)$ líneas a través de pares de puntos y luego aplicando un algoritmo de búsqueda de mediana de tiempo lineal . Alternativamente, se puede estimar mediante el muestreo de pares de puntos. Este problema es equivalente, bajo dualidad proyectiva , al problema de encontrar el punto de cruce en una disposición de líneas que tiene la coordenada $x$ mediana entre todos esos puntos de cruce. ^[22]

El problema de realizar la selección de pendiente de forma exacta pero más eficiente que el algoritmo de tiempo cuadrático de fuerza bruta ha sido ampliamente estudiado en geometría computacional . Se conocen varios métodos diferentes para calcular el estimador de Theil–Sen exactamente en tiempo $O (n log n)$ , ya sea de forma determinista ^[3] o utilizando algoritmos aleatorios . ^[4] El estimador de mediana repetida de Siegel también se puede construir en el mismo límite de tiempo. ^[23] En modelos de computación en los que las coordenadas de entrada son números enteros y en los que las operaciones bit a bit sobre números enteros toman un tiempo constante, el estimador de Theil–Sen se puede construir incluso más rápidamente, en un tiempo esperado aleatorio . ^[24] $O(n{\sqrt {\log n}})$

Se puede mantener un estimador para la pendiente con un rango aproximadamente mediano, que tenga el mismo punto de ruptura que el estimador de Theil–Sen, en el modelo de flujo de datos (en el que los puntos de muestra se procesan uno por uno mediante un algoritmo que no tiene suficiente almacenamiento persistente para representar el conjunto de datos completo) utilizando un algoritmo basado en ε-nets . ^[25]

Implementaciones

En el paquete de estadísticas R , tanto el estimador de Theil-Sen como el estimador de mediana repetida de Siegel están disponibles a través de la mblmbiblioteca. ^{[26] El}Servicio Geológico de Estados Unidos ha puesto a disposición una aplicación gratuita e independiente en Visual Basic para la estimación de Theil-Sen, . ^[27] El estimador de Theil-Sen también se ha implementado en Python como parte de las bibliotecas SciPy y scikit-learn . ^[28]KTRLine

Aplicaciones

La estimación de Theil-Sen se ha aplicado a la astronomía debido a su capacidad para manejar modelos de regresión censurados . ^[29] En biofísica , Fernandes y Leblanc (2005) sugieren su uso para aplicaciones de teledetección, como la estimación del área foliar a partir de datos de reflectancia debido a su "simplicidad en el cálculo, estimaciones analíticas de intervalos de confianza, robustez ante valores atípicos, suposiciones comprobables con respecto a los residuos y ... información a priori limitada con respecto a los errores de medición". ^[30] Para medir datos ambientales estacionales como la calidad del agua , se ha propuesto una variante ajustada estacionalmente del estimador de Theil-Sen como preferible a la estimación de mínimos cuadrados debido a su alta precisión en presencia de datos sesgados. ^[17] En informática , el método de Theil-Sen se ha utilizado para estimar tendencias en el envejecimiento del software . ^[31] En meteorología y climatología , se ha utilizado para estimar las tendencias a largo plazo de la ocurrencia y velocidad del viento. ^[32]

Véase también

Método de mediana-mediana [fr]
Dilución de regresión , otro problema que afecta las pendientes de tendencia estimadas

Notas

^ Gilbert (1987).
^ ab El-Shaarawi y Piegorsch (2001).
^ ab Cole y col. (1989); Katz y Sharir (1993); Brönnimann y Chazelle (1998).
^ ab Dillencourt, Mount y Netanyahu (1992); Matoušek (1991); Blunck y Vahrenhold (2006).
^ Massart y otros (1997)
^ Sokal y Rohlf (1995); Dytham (2011).
^ Granato (2006)
^ de Theil (1950); Sen (1968)
^ por Sen (1968); Osborne (2008).
^ Helsel, Dennis R.; Hirsch, Robert M.; Ryberg, Karen R.; Archfield, Stacey A.; Gilroy, Edward J. (2020). Métodos estadísticos en recursos hídricos. Técnicas y métodos. Reston, VA: Servicio Geológico de Estados Unidos. p. 484. Consultado el 22 de mayo de 2020 .
^ por Wilcox (2001).
^ abc Rousseeuw y Leroy (2003), págs. 67, 164.
^ Para determinar los intervalos de confianza, los pares de puntos deben muestrearse con reemplazo ; esto significa que el conjunto de pares utilizados en este cálculo incluye pares en los que ambos puntos son iguales entre sí. Estos pares siempre están fuera del intervalo de confianza, porque no determinan un valor de pendiente bien definido, pero usarlos como parte del cálculo hace que el intervalo de confianza sea más amplio de lo que sería sin ellos.
^ Logan (2010), Sección 8.2.7 Regresión robusta; Matoušek, Monte y Netanyahu (1998)
^ De Muth (2006).
^ Jaeckel (1972);Scholz (1978);Sievers (1978);Birkes y Dodge (1993).
^ por Hirsch, Slack y Smith (1982).
^ Sen (1968), Teorema 5.1, pág. 1384; Wang y Yu (2005).
^ Sen (1968), Sección 6; Wilcox (1998).
^ por Wilcox (2005).
^ Sen (1968), pág. 1383.
^ Cole y otros (1989).
^ Matoušek, Monte y Netanyahu (1998).
^ Chan y Pătraşcu (2010).
^ Bagchi y otros (2007).
^ Logan (2010), pág. 237; Vannest, Davis y Parker (2013)
^ Vannest, Davis y Parker (2013); Granato (2006)
^ Comunidad SciPy (2015); Persson & Martins (2016)
^ Akritas, Murphy y LaValley (1995).
^ Fernandes y Leblanc (2005).
^ Vaidyanathan y Trivedi (2005).
^ Romanić y otros (2014).

Referencias

Akritas, Michael G.; Murphy, Susan A .; LaValley, Michael P. (1995), "El estimador de Theil-Sen con datos doblemente censurados y aplicaciones a la astronomía", Journal of the American Statistical Association , 90 (429): 170–177, doi :10.1080/01621459.1995.10476499, JSTOR 2291140, MR 1325124.
Bagchi, Amitabha; Chaudhary, Amitabh; Eppstein, David ; Goodrich, Michael T. (2007), "Muestreo determinista y conteo de rangos en flujos de datos geométricos", ACM Transactions on Algorithms , 3 (2): Art. No. 16, arXiv : cs/0307027 , doi :10.1145/1240233.1240239, MR 2335299, S2CID 123315817.
Birkes, David; Dodge, Yadolah (1993), "6.3 Estimación de la línea de regresión", Métodos alternativos de regresión, Wiley Series in Probability and Statistics, vol. 282, Wiley-Interscience, págs. 113-118, ISBN 978-0-471-56881-0.
Blunck, Henrik; Vahrenhold, Jan (2006), "Selección aleatoria de pendiente in situ", Simposio internacional sobre algoritmos y complejidad, Lecture Notes in Computer Science, vol. 3998, Berlín: Springer-Verlag, págs. 30–41, doi :10.1007/11758471_6, ISBN 978-3-540-34375-2, Sr. 2263136.
Brönnimann, Hervé; Chazelle, Bernard (1998), "Selección óptima de pendiente mediante cortes", Computational Geometry Theory and Applications , 10 (1): 23–29, doi :10.1016/S0925-7721(97)00025-4, MR 1614381.
Chan, Timothy M. ; Pătraşcu, Mihai (2010), "Inversiones de conteo, conteo de rango ortogonal fuera de línea y problemas relacionados", Actas del vigésimo primer simposio anual ACM-SIAM sobre algoritmos discretos (SODA '10) , págs. 161–173, doi :10.1137/1.9781611973075.15.
Cole, Richard; Salowe, Jeffrey S.; Steiger, WL; Szemerédi, Endre (1989), "Un algoritmo de tiempo óptimo para la selección de pendientes", SIAM Journal on Computing , 18 (4): 792–810, doi :10.1137/0218055, MR 1004799.
De Muth, E. James (2006), Estadística básica y aplicaciones estadísticas farmacéuticas, Bioestadística, vol. 16 (2.ª ed.), CRC Press, pág. 577, ISBN 978-0-8493-3799-4.
Dillencourt, Michael B.; Mount, David M .; Netanyahu, Nathan S. (1992), "Un algoritmo aleatorio para la selección de pendientes", International Journal of Computational Geometry & Applications , 2 (1): 1–27, doi :10.1142/S0218195992000020, MR 1159839.
Dytham, Calvin (2011), Elección y uso de la estadística: guía para biólogos (3.ª ed.), John Wiley and Sons, pág. 230, ISBN 978-1-4051-9839-4.
El-Shaarawi, Abdel H.; Piegorsch, Walter W. (2001), Enciclopedia de Environmetrics, Volumen 1, John Wiley and Sons, pág. 19, ISBN 978-0-471-89997-6.
Fernandes, Richard; Leblanc, Sylvain G. (2005), "Regresiones lineales paramétricas (mínimos cuadrados modificados) y no paramétricas (Theil–Sen) para predecir parámetros biofísicos en presencia de errores de medición", Teledetección del medio ambiente , 95 (3): 303–316, Bibcode :2005RSEnv..95..303F, doi :10.1016/j.rse.2005.01.005.
Gilbert, Richard O. (1987), "6.5 Estimador no paramétrico de la pendiente de Sen", Métodos estadísticos para el monitoreo de la contaminación ambiental, John Wiley and Sons, págs. 217-219, ISBN 978-0-471-28878-7.
Granato, Gregory E. (2006), "Capítulo A7: Línea robusta de Kendall–Theil (KTRLine—versión 1.0)—Un programa de Visual Basic para calcular y graficar estimaciones no paramétricas robustas de coeficientes de regresión lineal entre dos variables continuas", Análisis e interpretación hidrológica , Técnicas y métodos del Servicio Geológico de los Estados Unidos, vol. 4, Servicio Geológico de los Estados Unidos.
Hirsch, Robert M. ; Slack, James R.; Smith, Richard A. (1982), "Técnicas de análisis de tendencias para datos mensuales de calidad del agua", Water Resources Research , 18 (1): 107–121, Bibcode :1982WRR....18..107H, doi :10.1029/WR018i001p00107.
Jaeckel, Louis A. (1972), "Estimación de coeficientes de regresión minimizando la dispersión de los residuos", Annals of Mathematical Statistics , 43 (5): 1449–1458, doi : 10.1214/aoms/1177692377 , MR 0348930.
Katz, Matthew J.; Sharir, Micha (1993), "Selección óptima de pendiente mediante expansores", Information Processing Letters , 47 (3): 115–122, doi : 10.1016/0020-0190(93)90234-Z , MR 1237287.
Logan, Murray (2010), Diseño y análisis bioestadístico con R: una guía práctica , John Wiley & Sons, ISBN 9781444362473
Massart, DL; Vandeginste, BGM; Buydens, LMC; De Jong, S.; Lewi, PJ; Smeyers-Verbeke, J. (1997), "12.1.5.1 Método de mediana simple", Handbook of Chemometrics and Qualimetrics: Part A, Data Handling in Science and Technology, vol. 20A, Elsevier, págs. 355–356, ISBN 978-0-444-89724-4.
Matoušek, Jiří (1991), "Algoritmo óptimo aleatorio para la selección de pendientes", Cartas de procesamiento de información , 39 (4): 183–187, doi :10.1016/0020-0190(91)90177-J, MR 1130747.
Matoušek, Jiří ; Mount, David M. ; Netanyahu, Nathan S. (1998), "Algoritmos aleatorizados eficientes para el estimador de línea mediana repetida", Algorithmica , 20 (2): 136–150, doi :10.1007/PL00009190, MR 1484533, S2CID 17362967.
Osborne, Jason W. (2008), Mejores prácticas en métodos cuantitativos, Sage Publications, Inc., pág. 273, ISBN 9781412940658.
Persson, Magnus Vilhelm; Martins, Luiz Felipe (2016), Dominar el análisis de datos de Python, Packt Publishing, p. 177, ISBN 9781783553303
Romanić, Djordje; Ćurić, Mladjen; Jovicić, Ilija; Lompar, Miloš (2014), "Tendencias a largo plazo del viento 'Koshava' durante el período 1949-2010", Revista Internacional de Climatología , 35 (2): 288–302, Bibcode :2015IJCli..35..288R, doi :10.1002/joc.3981, S2CID 129402302.
Rousseeuw, Peter J. ; Leroy, Annick M. (2003), Regresión robusta y detección de valores atípicos , Wiley Series in Probability and Mathematical Statistics, vol. 516, Wiley, pág. 67, ISBN 978-0-471-48855-2.
Scholz, Friedrich-Wilhelm (1978), "Estimaciones de regresión de mediana ponderada", The Annals of Statistics , 6 (3): 603–609, doi : 10.1214/aos/1176344204 , JSTOR 2958563, MR 0468054.
Comunidad SciPy (2015), "scipy.stats.mstats.theilslopes", Guía de referencia de SciPy v0.15.1
Sen, Pranab Kumar (1968), "Estimaciones del coeficiente de regresión basado en la tau de Kendall", Journal of the American Statistical Association , 63 (324): 1379–1389, doi :10.2307/2285891, JSTOR 2285891, MR 0258201.
Siegel, Andrew F. (1982), "Regresión robusta utilizando medianas repetidas", Biometrika , 69 (1): 242–244, doi : 10.1093/biomet/69.1.242.
Sievers, Gerald L. (1978), "Estadísticas de rango ponderado para regresión lineal simple", Journal of the American Statistical Association , 73 (363): 628–631, doi :10.1080/01621459.1978.10480067, JSTOR 2286613.
Sokal, Robert R. ; Rohlf, F. James (1995), Biometría: Principios y práctica de la estadística en la investigación biológica (3.ª ed.), Macmillan, pág. 539, ISBN 978-0-7167-2411-7.
Theil, H. (1950), "Un método de análisis de regresión lineal y polinomial invariante en cuanto a rangos. I, II, III", Nederl. Akad. Wetensch., Proc. , 53 : 386–392, 521–525, 1397–1412, MR 0036489.
Vaidyanathan, Kalyanaraman; Trivedi, Kishor S. (2005), "Un modelo integral para el rejuvenecimiento del software", IEEE Transactions on Dependable and Secure Computing , 2 (2): 124–137, doi :10.1109/TDSC.2005.15, S2CID 15105513.
Vannest, Kimberly J.; Davis, John L.; Parker, Richard I. (2013), Investigación de casos únicos en las escuelas: directrices prácticas para profesionales de las escuelas, Routledge, pág. 55, ISBN 9781136173622
Wang, Xueqin; Yu, Qiqing (2005), "Imparcialidad del estimador de Theil-Sen", Journal of Nonparametric Statistics , 17 (6): 685–695, doi :10.1080/10485250500039452, MR 2165096, S2CID 121061001.
Wilcox, Rand R. (1998), "Una nota sobre el estimador de regresión de Theil–Sen cuando el regresor es aleatorio y el término de error es heterocedástico", Biometrical Journal , 40 (3): 261–268, doi :10.1002/(SICI)1521-4036(199807)40:3<261::AID-BIMJ261>3.0.CO;2-V.
Wilcox, Rand R. (2001), "Estimador de Theil–Sen", Fundamentos de los métodos estadísticos modernos: mejora sustancial de la potencia y la precisión, Springer-Verlag, págs. 207-210, ISBN 978-0-387-95157-7.
Wilcox, Rand R. (2005), "10.2 Estimador de Theil–Sen", Introducción a la estimación robusta y a las pruebas de hipótesis , Academic Press, págs. 423–427, ISBN 978-0-12-751542-7.