stringtranslate.com

Regresión cuantil

La regresión cuantil es un tipo de análisis de regresión utilizado en estadística y econometría. Mientras que el método de mínimos cuadrados estima la media condicional de la variable de respuesta entre los valores de las variables predictoras, la regresión por cuantiles estima la mediana condicional (u otros cuantiles ) de la variable de respuesta. La regresión cuantil es una extensión de la regresión lineal que se utiliza cuando no se cumplen las condiciones de la regresión lineal.

Ejemplo de regresión cuantil

Ventajas y aplicaciones

Una ventaja de la regresión cuantil en relación con la regresión de mínimos cuadrados ordinaria es que las estimaciones de la regresión cuantil son más sólidas frente a los valores atípicos en las mediciones de respuesta. Sin embargo, el principal atractivo de la regresión cuantil va más allá y resulta ventajosa cuando las funciones cuantiles condicionales son de interés. Se pueden utilizar diferentes medidas de tendencia central y dispersión estadística para analizar de manera más completa la relación entre variables. [1]

En ecología , la regresión cuantil se ha propuesto y utilizado como una forma de descubrir relaciones predictivas más útiles entre variables en los casos en que no existe ninguna relación o solo existe una relación débil entre las medias de dichas variables. La necesidad y el éxito de la regresión cuantil en ecología se ha atribuido a la complejidad de las interacciones entre diferentes factores que conducen a datos con variación desigual de una variable para diferentes rangos de otra variable. [2]

Otra aplicación de la regresión cuantil es en las áreas de las tablas de crecimiento, donde las curvas percentiles se utilizan comúnmente para detectar crecimiento anormal. [3] [4]

Historia

La idea de estimar una pendiente de regresión mediana, un teorema importante sobre la minimización de la suma de las desviaciones absolutas y un algoritmo geométrico para construir la regresión mediana fue propuesta en 1760 por Ruđer Josip Bošković , un sacerdote católico jesuita de Dubrovnik. [1] : 4  [5] Estaba interesado en la elipticidad de la Tierra, basándose en la sugerencia de Isaac Newton de que su rotación podría hacer que se abombara en el ecuador con el correspondiente aplanamiento en los polos. [6] Finalmente produjo el primer procedimiento geométrico para determinar el ecuador de un planeta en rotación a partir de tres observaciones de una característica de la superficie. Más importante aún para la regresión cuantil fue que pudo desarrollar la primera evidencia del criterio mínimo absoluto y precedió en cincuenta años a los mínimos cuadrados introducidos por Legendre en 1805. [7]

Otros pensadores comenzaron a desarrollar la idea de Bošković, como Pierre-Simon Laplace , quien desarrolló el llamado "método de situación". Esto llevó a la mediana plural de Francis Edgeworth [8] , un enfoque geométrico para la regresión de la mediana, y es reconocido como el precursor del método simplex . [7] Los trabajos de Bošković, Laplace y Edgeworth fueron reconocidos como un preludio de las contribuciones de Roger Koenker a la regresión cuantil.

Los cálculos de regresión mediana para conjuntos de datos más grandes son bastante tediosos en comparación con el método de mínimos cuadrados, por lo que históricamente ha generado una falta de popularidad entre los estadísticos, hasta la adopción generalizada de las computadoras en la última parte del siglo XX.

Antecedentes: cuantiles

La regresión cuantil expresa los cuantiles condicionales de una variable dependiente como una función lineal de las variables explicativas. Para la practicidad de la regresión cuantil es crucial que los cuantiles se puedan expresar como la solución de un problema de minimización, como mostraremos en esta sección antes de analizar los cuantiles condicionales en la siguiente sección.

Cuantil de una variable aleatoria

Sea una variable aleatoria de valor real con función de distribución acumulativa . El enésimo cuantil de Y viene dado por

dónde

Defina la función de pérdida como , donde es una función indicadora . Se puede encontrar un cuantil específico minimizando la pérdida esperada de con respecto a : [1] (págs. 5 y 6):

Esto se puede demostrar calculando la derivada de la pérdida esperada con respecto a mediante una aplicación de la regla integral de Leibniz , estableciéndola en 0 y dejando que sea la solución de

Esta ecuación se reduce a

y luego a

Si la solución no es única, entonces tenemos que tomar la solución más pequeña para obtener el enésimo cuantil de la variable aleatoria Y.

Ejemplo

Sea una variable aleatoria discreta que toma valores con iguales probabilidades. La tarea es encontrar la mediana de Y y, por tanto, se elige el valor. Entonces la pérdida esperada de es

Como es una constante, se puede sacar de la función de pérdida esperada (esto sólo es cierto si ). Entonces, en u = 3,

Supongamos que u aumenta en 1 unidad. Entonces la pérdida esperada cambiará al cambiar u a 4. Si u = 5, la pérdida esperada es

y cualquier cambio en u aumentará la pérdida esperada. Por tanto, u =5 es la mediana. La siguiente tabla muestra la pérdida esperada (dividida por ) para diferentes valores de u .

Intuición

Considere y sea q una estimación inicial para . La pérdida esperada evaluada en q es

Para minimizar la pérdida esperada, movemos un poco el valor de q para ver si la pérdida esperada aumentará o disminuirá. Supongamos que aumentamos q en 1 unidad. Entonces el cambio de la pérdida esperada sería

El primer término de la ecuación es y el segundo término de la ecuación es . Por lo tanto, el cambio de la función de pérdida esperada es negativo si y sólo si , es decir, si y sólo si q es menor que la mediana. De manera similar, si reducimos q en 1 unidad, el cambio de la función de pérdida esperada es negativo si y sólo si q es mayor que la mediana.

Para minimizar la función de pérdida esperada, aumentaríamos (disminuiríamos) L ( q ) si q es menor (mayor) que la mediana, hasta que q alcance la mediana. La idea detrás de la minimización es contar el número de puntos (ponderados con la densidad) que son mayores o menores que q y luego mover q a un punto donde q sea mayor que el% de los puntos.

Cuantil de muestra

El cuantil muestral se puede obtener utilizando una estimación de muestreo de importancia y resolviendo el siguiente problema de minimización

,

donde la función es la función de valor absoluto inclinada. La intuición es la misma que para el cuantil de población.

Cuantil condicional y regresión cuantil

El enésimo cuantil condicional de dado es el enésimo cuantil de la distribución de probabilidad condicional de dado ,

.

Usamos mayúscula para denotar el cuantil condicional para indicar que es una variable aleatoria.

En la regresión cuantil para el enésimo cuantil, asumimos que el enésimo cuantil condicional se da como una función lineal de las variables explicativas:

.

Dada la función de distribución de , se puede obtener resolviendo

Al resolver la muestra analógica se obtiene el estimador de .

Tenga en cuenta que cuando , la función de pérdida es proporcional a la función de valor absoluto y, por lo tanto, la regresión mediana es la misma que la regresión lineal por mínimas desviaciones absolutas .

Cálculo de estimaciones para parámetros de regresión.

Las formas matemáticas que surgen de la regresión cuantil son distintas de las que surgen del método de mínimos cuadrados . El método de mínimos cuadrados conduce a la consideración de problemas en un espacio producto interno , que implican proyección sobre subespacios y, por tanto, el problema de minimizar los errores cuadráticos puede reducirse a un problema de álgebra lineal numérica . La regresión cuantil no tiene esta estructura y, en cambio, el problema de minimización se puede reformular como un problema de programación lineal.

dónde

,   

Los métodos simplex [1] : 181  o los métodos de punto interior [1] : 190  se pueden aplicar para resolver el problema de programación lineal.

Propiedades asintóticas

Porque , bajo algunas condiciones de regularidad, es asintóticamente normal :

dónde

y

La estimación directa de la matriz asintótica de varianza-covarianza no siempre es satisfactoria. La inferencia de los parámetros de regresión cuantil se puede hacer con las pruebas de puntuación de rango de regresión o con los métodos de arranque. [9]

Equivarianza

Consulte el estimador invariante para conocer los antecedentes sobre la invarianza o consulte la equivarianza .

Equivarianza de escala

para cualquier y

Equivarianza de turnos

para cualquier y

Equivarianza a la reparametrización del diseño.

Sea cualquier matriz no singular y

Invariancia a transformaciones monótonas.

Si es una función no decreciente , se aplica la siguiente propiedad de invariancia :

Ejemplo 1):

Si y , entonces . La regresión media no tiene la misma propiedad ya que

Inferencia

Interpretación de los parámetros de pendiente.

El modelo lineal especifica mal la verdadera relación sistemática cuando no es lineal. Sin embargo, minimiza una distancia ponderada entre modelos lineales. [10] Además, los parámetros de pendiente del modelo lineal se pueden interpretar como promedios ponderados de las derivadas para que puedan usarse para la inferencia causal. [11] Específicamente, la hipótesis para todos implica la hipótesis , que puede probarse utilizando el estimador y su distribución límite.

Bondad de ajuste

La bondad de ajuste para la regresión cuantil para el cuantil se puede definir como: [12] donde es la suma de cuadrados del cuantil condicional, mientras que es la suma de cuadrados del cuantil incondicional.

Variantes

Métodos bayesianos para regresión cuantil.

Debido a que la regresión cuantil normalmente no supone una probabilidad paramétrica para las distribuciones condicionales de Y|X, los métodos bayesianos funcionan con una probabilidad de trabajo. Una elección conveniente es la probabilidad laplaciana asimétrica, [13] porque la moda del posterior resultante bajo un anterior plano son las estimaciones habituales de regresión cuantil. La inferencia posterior, sin embargo, debe interpretarse con cuidado. Yang, Wang y He [14] proporcionaron un ajuste de varianza posterior para una inferencia válida. Además, Yang y He [15] demostraron que se puede tener una inferencia posterior asintóticamente válida si se elige que la probabilidad de trabajo sea la probabilidad empírica.

Métodos de aprendizaje automático para la regresión cuantil.

Más allá de la simple regresión lineal, existen varios métodos de aprendizaje automático que pueden extenderse a la regresión cuantil. Un cambio del error al cuadrado a la función de pérdida de valor absoluto inclinada (también conocida como pérdida de pinball [16] ) permite que los algoritmos de aprendizaje basados ​​en descenso de gradiente aprendan un cuantil específico en lugar de la media. Significa que podemos aplicar todas las redes neuronales y algoritmos de aprendizaje profundo a la regresión cuantil, [17] [18], que luego se denomina regresión cuantil no paramétrica . [19] Los algoritmos de aprendizaje basados ​​en árboles también están disponibles para la regresión cuantil (ver, por ejemplo, Bosques de regresión cuantil, [20] como una simple generalización de los bosques aleatorios ).

Regresión cuantil censurada

Si la variable de respuesta está sujeta a censura, la media condicional no es identificable sin supuestos distributivos adicionales, pero el cuantil condicional sí suele ser identificable. Para trabajos recientes sobre regresión cuantil censurada, ver: Portnoy [21] y Wang y Wang [22]

Ejemplo (2):

Deja y . Entonces . Este es el modelo de regresión cuantil censurada: los valores estimados se pueden obtener sin hacer suposiciones distributivas, pero a costa de dificultades computacionales, [23] algunas de las cuales pueden evitarse utilizando un procedimiento simple de regresión cuantil censurada de tres pasos como aproximación. [24]

Para la censura aleatoria de las variables de respuesta, la regresión cuantil censurada de Portnoy (2003) [21] proporciona estimaciones consistentes de todas las funciones cuantiles identificables basadas en la reponderación apropiada de cada punto censurado.

La regresión cuantil censurada tiene estrechos vínculos con el análisis de supervivencia .

Representación de dos estimadores de Kaplan-Meier para las probabilidades de supervivencia de dos grupos de pacientes en función del tiempo , donde es la función de distribución de las muertes. El cuantil de las muertes es , donde está la función cuantil de las muertes. La regresión de cuantiles censurados se puede utilizar para estimar estos cuantiles condicionales individualmente, mientras que el análisis de supervivencia estima la función de supervivencia (condicional).

Errores heterocedásticos

La pérdida de regresión cuantil debe adaptarse en presencia de errores heteroscedásticos para que sea eficiente . [25]

Implementaciones

Numerosos paquetes de software estadístico incluyen implementaciones de regresión cuantil:

Ver también

Literatura

Referencias

  1. ^ abcde Koenker, Roger (2005). Regresión cuantil . Prensa de la Universidad de Cambridge. págs. 146–7. ISBN 978-0-521-60827-5.
  2. ^ Cade, Brian S.; Mediodía, Barry R. (2003). "Una suave introducción a la regresión cuantil para ecologistas" (PDF) . Fronteras en Ecología y Medio Ambiente . 1 (8): 412–420. doi :10.2307/3868138. JSTOR  3868138.
  3. ^ Wei, Y.; Pedro, A.; Koenker, R.; Él, X. (2006). "Métodos de regresión cuantil para gráficos de crecimiento de referencia". Estadística en Medicina . 25 (8): 1369-1382. doi :10.1002/sim.2271. PMID  16143984. S2CID  7830193.
  4. ^ Wei, Y.; Él, X. (2006). "Gráficos de crecimiento condicional (con debates)". Anales de Estadística . 34 (5): 2069–2097 y 2126–2131. arXiv : matemáticas/0702634 . doi :10.1214/009053606000000623. S2CID  88516697.
  5. ^ Stigler, S. (1984). "Boscovich, Simpson y una nota manuscrita de 1760 sobre el ajuste de una relación lineal". Biometrika . 71 (3): 615–620. doi :10.1093/biomet/71.3.615.
  6. ^ Koenker, Roger (2005). Regresión cuantil . Cambridge: Prensa de la Universidad de Cambridge. págs.2. ISBN 9780521845731.
  7. ^ ab Furno, Marilena; Vistocco, Domenico (2018). Regresión cuantil: estimación y simulación . Hoboken, Nueva Jersey: John Wiley & Sons. págs. ISBN 9781119975281.
  8. ^ Koenker, Roger (agosto de 1998). "Galton, Edgeworth, Frisch y las perspectivas de regresión cuantil en economía" (PDF) . UIUC.edu . Consultado el 22 de agosto de 2018 .
  9. ^ Kocherginsky, M.; Él, X.; Mu, Y. (2005). "Intervalos de confianza prácticos para cuantiles de regresión". Revista de Estadística Computacional y Gráfica . 14 (1): 41–55. doi :10.1198/106186005X27563. S2CID  120598656.
  10. ^ Angrist, J.; Chernozhukov, V.; Fernández-Val, I. (2006). "Regresión por cuantiles bajo especificación errónea, con una aplicación a la estructura salarial de EE. UU." (PDF) . Econométrica . 74 (2): 539–563. doi :10.1111/j.1468-0262.2006.00671.x.
  11. ^ Kato, R.; Sasaki, Y. (2017). "Sobre el uso de regresiones cuantiles lineales para la inferencia causal". Teoría econométrica . 33 (3): 664–690. doi : 10.1017/S0266466616000177 .
  12. ^ Roger Koenker y José AF Machado (1999) Bondad de ajuste y procesos de inferencia relacionados para la regresión cuantil, Revista de la Asociación Estadounidense de Estadística, 94:448, 1296-1310, DOI: 10.1080/01621459.1999.10473882
  13. ^ Kozumi, H.; Kobayashi, G. (2011). "Métodos de muestreo de Gibbs para la regresión cuantil bayesiana" (PDF) . Revista de simulación y computación estadística . 81 (11): 1565-1578. doi :10.1080/00949655.2010.496117. S2CID  44015988.
  14. ^ Yang, Y.; Wang, HX; Él, X. (2016). "Inferencia posterior en regresión cuantil bayesiana con probabilidad asimétrica de Laplace". Revista estadística internacional . 84 (3): 327–344. doi :10.1111/insr.12114. hdl : 2027.42/135059 . S2CID  14947362.
  15. ^ Yang, Y.; Él, X. (2010). "Probabilidad empírica bayesiana para la regresión cuantil". Anales de Estadística . 40 (2): 1102-1131. arXiv : 1207.5378 . doi :10.1214/12-AOS1005. S2CID  88519086.
  16. ^ Steinwart, Ingo; Christmann, Andreas (2011). "Estimación de cuantiles condicionales con la ayuda de la pérdida de pinball". Bernoulli . 17 (1). Sociedad Bernoulli de Estadística Matemática y Probabilidad: 211–225. arXiv : 1102.2101 . doi :10.3150/10-BEJ267.
  17. ^ Petneházi, Gábor (21 de agosto de 2019). "QCNN: red neuronal convolucional cuantil". arXiv : 1908.07978 [cs.LG].
  18. ^ Rodrigues, Filipe; Pereira, Francisco C. (27 de agosto de 2018). "Más allá de las expectativas: regresión cuantil y media de articulación profunda para problemas espacio-temporales". arXiv : 1808.08798 [estadística].
  19. ^ Regresión cuantil no paramétrica: restricciones no cruzadas y predicción conforme por Wenlu Tang, Guohao Shen, Yuanyuan Lin, Jian Huang, https://arxiv.org/pdf/2210.10161.pdf
  20. ^ Meinshausen, Nicolai (2006). "Bosques de regresión cuantil" (PDF) . Revista de investigación sobre aprendizaje automático . 7 (6): 983–999.
  21. ^ ab Portnoy, SL (2003). "Cuantiles de regresión censurados". Revista de la Asociación Estadounidense de Estadística . 98 (464): 1001–1012. doi :10.1198/016214503000000954. S2CID  120674851.
  22. ^ Wang, H .; Wang, L. (2009). "Regresión cuantil censurada ponderada localmente". Revista de la Asociación Estadounidense de Estadística . 104 (487): 1117-1128. CiteSeerX 10.1.1.504.796 . doi : 10.1198/jasa.2009.tm08230. S2CID  34494316. 
  23. ^ Powell, James L. (1986). "Cuantiles de regresión censurados". Revista de Econometría . 32 (1): 143-155. doi :10.1016/0304-4076(86)90016-3.
  24. ^ Chernozhukov, Víctor; Hong, Han (2002). "Regresión cuantil censurada en tres pasos y relaciones extramaritales". J.Amer. Estadístico. Asociación 97 (459): 872–882. doi :10.1198/016214502388618663. S2CID  1410755.
  25. ^ Regresión cuantil eficiente para modelos heterocedásticos por Yoonsuh Jung, Yoonkyung Lee, Steven N. MacEachern, https://www.tandfonline.com/doi/abs/10.1080/00949655.2014.967244?journalCode=gscs20
  26. ^ "quantreg(x,y,tau,order,Nboot) - Intercambio de archivos - MATLAB Central". www.mathworks.com . Consultado el 1 de febrero de 2016 .
  27. ^ "Referencia de comandos de Gretl" (PDF) . Abril de 2017. Archivado desde el original (PDF) el 15 de diciembre de 2018 . Consultado el 22 de abril de 2017 .
  28. ^ "quantreg: regresión cuantil". Proyecto R. 2018-12-18.
  29. ^ "gbm: modelos de regresión potenciados generalizados". Proyecto R. 2019-01-14.
  30. ^ "quantregForest: bosques de regresión cuantil". Proyecto R. 2017-12-19.
  31. ^ "qrnn: redes neuronales de regresión cuantil". Proyecto R. 2018-06-26.
  32. ^ "qgam: modelos de regresión cuantil aditiva suave". Proyecto R. 2019-05-23.
  33. ^ "Bosques de regresión cuantil". Jardín Scikit . Consultado el 3 de enero de 2019 .
  34. ^ "Modelos de estadísticas: regresión cuantil". Modelos de estadísticas . Consultado el 15 de noviembre de 2019 .
  35. ^ "Introducción a la regresión cuantil y el procedimiento QUANTREG" (PDF) . Soporte SAS .
  36. ^ "El procedimiento QUANTSELECT". Soporte SAS .
  37. ^ "qreg - Regresión cuantil" (PDF) . Manual de estadísticas .
  38. ^ Cameron, A. Colin; Trivedi, Pravin K. (2010). "Regresión cuantil". Microeconometría con Stata (edición revisada). Estación universitaria: Stata Press. págs. 211-234. ISBN 978-1-59718-073-3.
  39. ^ "JohnLangford/vowpal_wabbit". GitHub . Consultado el 9 de julio de 2016 .
  40. ^ "CuantilRegresión.m". MathematicaForPrediction . Consultado el 3 de enero de 2019 .
  41. ^ "Regresión cuantil". Repositorio de funciones Wolfram . Consultado el 14 de septiembre de 2022 .