En un contexto de modelo de regresión, el objetivo es establecer si existe o no una relación entre una variable de respuesta y un conjunto de variables predictoras. Además, si existe una relación, el objetivo es poder describir esta relación lo mejor posible. Un supuesto principal en la regresión lineal es la varianza constante u (homocedasticidad), lo que significa que diferentes variables de respuesta tienen la misma varianza en sus errores, en cada nivel predictor. Este supuesto funciona bien cuando la variable de respuesta y la variable predictora son conjuntamente normales . Como veremos más adelante, la función de varianza en el contexto Normal es constante; sin embargo, debemos encontrar una manera de cuantificar la heterocedasticidad (varianza no constante) en ausencia de Normalidad conjunta.
Las funciones de varianza desempeñan un papel muy importante en la estimación e inferencia de parámetros. En general, la estimación de máxima verosimilitud requiere que se defina una función de verosimilitud. Este requisito implica que primero se debe especificar la distribución de las variables de respuesta observadas. Sin embargo, para definir una cuasi-verosimilitud, solo se necesita especificar una relación entre la media y la varianza de las observaciones para luego poder utilizar la función de cuasi-verosimilitud para la estimación. [3] La estimación de cuasi-verosimilitud es particularmente útil cuando hay sobredispersión . La sobredispersión ocurre cuando hay más variabilidad en los datos de la que debería esperarse de acuerdo con la distribución asumida de los datos.
En resumen, para garantizar una inferencia eficiente de los parámetros de regresión y de la función de regresión, se debe tener en cuenta la heterocedasticidad. Las funciones de varianza cuantifican la relación entre la varianza y la media de los datos observados y, por lo tanto, desempeñan un papel importante en la estimación y la inferencia de la regresión.
Cuando se ha especificado un miembro de la familia exponencial , la función de varianza se puede derivar fácilmente. [4] : 29 Se presenta la forma general de la función de varianza en el contexto de la familia exponencial, así como formas específicas para Normal, Bernoulli, Poisson y Gamma. Además, describimos las aplicaciones y el uso de las funciones de varianza en la estimación de máxima verosimilitud y la estimación de cuasi-verosimilitud.
Derivación
El modelo lineal generalizado (MLG) es una generalización del análisis de regresión ordinaria que se extiende a cualquier miembro de la familia exponencial . Es particularmente útil cuando la variable de respuesta es categórica, binaria o está sujeta a una restricción (por ejemplo, solo las respuestas positivas tienen sentido). En esta página se incluye un resumen rápido de los componentes de un MLG, pero para obtener más detalles e información, consulte la página sobre modelos lineales generalizados .
Un GLM consta de tres ingredientes principales:
1. Componente aleatorio: una distribución de y de la familia exponencial,
2. Predictor lineal:
3. Función de enlace:
Primero es importante derivar un par de propiedades clave de la familia exponencial.
Cualquier variable aleatoria de la familia exponencial tiene una función de densidad de probabilidad de la forma,
con log-verosimilitud,
Aquí, es el parámetro canónico y el parámetro de interés, y es un parámetro molesto que desempeña un papel en la varianza. Utilizamos las identidades de Bartlett para derivar una expresión general para la función de varianza . El primer y segundo resultado de Bartlett aseguran que, en condiciones adecuadas (véase la regla integral de Leibniz ), para una función de densidad dependiente de ,
Estas identidades conducen a cálculos simples del valor esperado y la varianza de cualquier variable aleatoria en la familia exponencial .
Valor esperado de Y :
Tomando la primera derivada con respecto al logaritmo de la densidad en la forma de familia exponencial descrita anteriormente, tenemos
Luego, tomar el valor esperado y establecerlo igual a cero conduce a:
Varianza de Y:
Para calcular la varianza utilizamos la segunda identidad de Bartlett,
Ahora tenemos una relación entre y , es decir
y , lo que permite una relación entre y la varianza,
Tenga en cuenta que, dado que , entonces es invertible. Derivamos la función de varianza para algunas distribuciones comunes.
Ejemplo – normal
La distribución normal es un caso especial en el que la función de varianza es constante. Pongamos entonces la función de densidad de y en la forma de la familia exponencial descrita anteriormente:
dónde
Para calcular la función de varianza , primero la expresamos como una función de . Luego la transformamos en una función de
Por lo tanto, la función de varianza es constante.
Ejemplo – Bernoulli
Sea , entonces expresamos la densidad de la distribución de Bernoulli en forma de familia exponencial,
Sea , entonces expresamos la densidad de la distribución de Poisson en forma de familia exponencial,
lo que nos da
y
Esto nos da
Aquí vemos la propiedad central de los datos de Poisson, que la varianza es igual a la media.
Ejemplo – Gamma
La distribución gamma y la función de densidad se pueden expresar bajo diferentes parametrizaciones. Utilizaremos la forma de la gamma con parámetros
Luego, en forma de familia exponencial tenemos
Y tenemos
Aplicación: mínimos cuadrados ponderados
Una aplicación muy importante de la función de varianza es su uso en la estimación e inferencia de parámetros cuando la variable de respuesta tiene la forma de familia exponencial requerida, así como en algunos casos en los que no lo tiene (lo que analizaremos en el apartado de cuasibiverosimilitud ). Los mínimos cuadrados ponderados (WLS) son un caso especial de mínimos cuadrados generalizados. Cada término del criterio WLS incluye un peso que determina la influencia que tiene cada observación en las estimaciones finales de los parámetros. Al igual que en los mínimos cuadrados regulares, el objetivo es estimar los parámetros desconocidos en la función de regresión encontrando valores para las estimaciones de los parámetros que minimicen la suma de las desviaciones al cuadrado entre las respuestas observadas y la parte funcional del modelo.
Si bien el WLS supone la independencia de las observaciones, no supone la igualdad de varianzas y, por lo tanto, es una solución para la estimación de parámetros en presencia de heterocedasticidad. El teorema de Gauss-Markov y Aitken demuestran que el mejor estimador lineal insesgado (BLUE), el estimador insesgado con mínima varianza, tiene cada ponderación igual al recíproco de la varianza de la medición.
En el marco GLM, nuestro objetivo es estimar los parámetros , donde . Por lo tanto, nos gustaría minimizar y si definimos la matriz de ponderación W como
Además, es importante tener en cuenta que cuando la matriz de ponderación tiene la forma descrita aquí, al minimizar la expresión también se minimiza la distancia de Pearson. Consulte Correlación de distancias para obtener más información.
La matriz W queda fuera de las ecuaciones de estimación para la estimación de . La estimación de máxima verosimilitud para cada parámetro , requiere
, donde es la verosimilitud logarítmica.
Mirando una sola observación tenemos,
Esto nos da
, y observando que
tenemos eso
La matriz hessiana se determina de manera similar y se puede demostrar que es,
Observando que la Información de Fisher (FI),
, permite una aproximación asintótica de
, y por lo tanto se puede realizar la inferencia.
Aplicación – cuasibillicidad
Dado que la mayoría de las características de los GLM dependen únicamente de los dos primeros momentos de la distribución, en lugar de la distribución completa, la cuasivreverosimilitud se puede desarrollar simplemente especificando una función de enlace y una función de varianza. Es decir, necesitamos especificar
Observando que, para una observación, la puntuación es
Las dos primeras ecuaciones de Bartlett se satisfacen para la cuasi-puntuación, es decir
y
Además, la cuasipuntuación es lineal en y .
En última instancia, el objetivo es encontrar información sobre los parámetros de interés . Tanto el QS como el QL son en realidad funciones de . Recordemos, , y , por lo tanto,
El QL, QS y QI proporcionan los componentes básicos para la inferencia sobre los parámetros de interés y, por lo tanto, es importante expresar el QL, QS y QI como funciones de .
Recordando nuevamente que , derivamos las expresiones para QL, QS y QI parametrizadas bajo .
Cuasi-verosimilitud en ,
El QS en función de es por lo tanto
Dónde,
La matriz de cuasiinformación en es,
La obtención de la función de puntuación y la información de permite la estimación y la inferencia de parámetros de manera similar a la descrita en Aplicación: mínimos cuadrados ponderados.
Análisis de regresión no paramétrica
La estimación no paramétrica de la función de varianza y su importancia se ha discutido ampliamente en la literatura [5] [6] [7]
En el análisis de regresión no paramétrica , el objetivo es expresar el valor esperado de su variable de respuesta ( y ) como una función de sus predictores ( X ). Es decir, buscamos estimar una función media , sin asumir una forma paramétrica. Hay muchas formas de métodos de suavizado no paramétrico para ayudar a estimar la función . Un enfoque interesante es mirar también una función de varianza no paramétrica , . Una función de varianza no paramétrica permite mirar la función media en relación con la función de varianza y notar patrones en los datos.
En las imágenes de la derecha se detalla un ejemplo. El objetivo del proyecto era determinar (entre otras cosas) si el predictor, número de años en las ligas mayores (béisbol), tenía o no un efecto en la respuesta, salario , que ganaba un jugador. Un diagrama de dispersión inicial de los datos indica que hay heterocedasticidad en los datos, ya que la varianza no es constante en cada nivel del predictor. Debido a que podemos detectar visualmente la varianza no constante, ahora resulta útil trazar y observar si la forma es indicativa de alguna distribución conocida. Se puede estimar y utilizando un método de suavizado general . El gráfico de la función de varianza suavizada no paramétrica puede dar al investigador una idea de la relación entre la varianza y la media. La imagen de la derecha indica una relación cuadrática entre la media y la varianza. Como vimos anteriormente, la función de varianza Gamma es cuadrática en la media.
Notas
^ ab Muller y Zhao (1995). "Sobre un modelo de función de varianza semiparamétrica y una prueba de heterocedasticidad". Anales de Estadística . 23 (3): 946–967. doi : 10.1214/aos/1176324630 . JSTOR 2242430.
^ Muller, Stadtmuller y Yao (2006). "Procesos de varianza funcional". Revista de la Asociación Estadounidense de Estadística . 101 (475): 1007–1018. doi :10.1198/016214506000000186. JSTOR 27590778. S2CID 13712496.
^ Wedderburn, RWM (1974). "Funciones de cuasibillicidad, modelos lineales generalizados y el método de Gauss-Newton". Biometrika . 61 (3): 439–447. doi :10.1093/biomet/61.3.439. JSTOR 2334725.
^ McCullagh, Peter; Nelder, John (1989). Modelos lineales generalizados (segunda edición). Londres: Chapman and Hall. ISBN0-412-31760-5.
^ Muller y StadtMuller (1987). "Estimación de heteroscedasticidad en análisis de regresión". Anales de estadística . 15 (2): 610–625. doi : 10.1214/aos/1176350364 . JSTOR 2241329.
^ Cai y Wang, T.; Wang, Lie (2008). "Estimación de la función de varianza adaptativa en regresión no paramétrica heterocedástica". Anales de estadística . 36 (5): 2025–2054. arXiv : 0810.4780 . Código Bibliográfico :2008arXiv0810.4780C. doi :10.1214/07-AOS509. JSTOR 2546470. S2CID 9184727.
^ Rice y Silverman (1991). "Estimación de la estructura de media y covarianza de forma no paramétrica cuando los datos son curvas". Journal of the Royal Statistical Society . 53 (1): 233–243. JSTOR 2345738.