stringtranslate.com

Función de varianza

En estadística , la función de varianza es una función suave que representa la varianza de una cantidad aleatoria en función de su media . La función de varianza es una medida de heterocedasticidad y desempeña un papel importante en muchos entornos de modelado estadístico. Es un ingrediente principal en el marco del modelo lineal generalizado y una herramienta utilizada en regresión no paramétrica , [1] regresión semiparamétrica [1] y análisis de datos funcionales . [2] En el modelado paramétrico, las funciones de varianza toman una forma paramétrica y describen explícitamente la relación entre la varianza y la media de una cantidad aleatoria. En un entorno no paramétrico, se supone que la función de varianza es una función suave .

Intuición

En un contexto de modelo de regresión, el objetivo es establecer si existe o no una relación entre una variable de respuesta y un conjunto de variables predictoras. Además, si existe una relación, el objetivo es poder describir esta relación lo mejor posible. Un supuesto principal en la regresión lineal es la varianza constante u (homocedasticidad), lo que significa que diferentes variables de respuesta tienen la misma varianza en sus errores, en cada nivel predictor. Este supuesto funciona bien cuando la variable de respuesta y la variable predictora son conjuntamente normales . Como veremos más adelante, la función de varianza en el contexto Normal es constante; sin embargo, debemos encontrar una manera de cuantificar la heterocedasticidad (varianza no constante) en ausencia de Normalidad conjunta.

Cuando es probable que la respuesta siga una distribución que sea miembro de la familia exponencial, puede ser más apropiado utilizar un modelo lineal generalizado y, además, cuando no deseamos imponer un modelo paramétrico a nuestros datos, puede resultar útil un enfoque de regresión no paramétrica . La importancia de poder modelar la varianza como una función de la media radica en una mejor inferencia (en un entorno paramétrico) y una estimación de la función de regresión en general, para cualquier entorno.

Las funciones de varianza desempeñan un papel muy importante en la estimación e inferencia de parámetros. En general, la estimación de máxima verosimilitud requiere que se defina una función de verosimilitud. Este requisito implica que primero se debe especificar la distribución de las variables de respuesta observadas. Sin embargo, para definir una cuasi-verosimilitud, solo se necesita especificar una relación entre la media y la varianza de las observaciones para luego poder utilizar la función de cuasi-verosimilitud para la estimación. [3] La estimación de cuasi-verosimilitud es particularmente útil cuando hay sobredispersión . La sobredispersión ocurre cuando hay más variabilidad en los datos de la que debería esperarse de acuerdo con la distribución asumida de los datos.

En resumen, para garantizar una inferencia eficiente de los parámetros de regresión y de la función de regresión, se debe tener en cuenta la heterocedasticidad. Las funciones de varianza cuantifican la relación entre la varianza y la media de los datos observados y, por lo tanto, desempeñan un papel importante en la estimación y la inferencia de la regresión.

Tipos

La función de varianza y sus aplicaciones aparecen en muchas áreas del análisis estadístico. Un uso muy importante de esta función es en el marco de los modelos lineales generalizados y la regresión no paramétrica .

Modelo lineal generalizado

Cuando se ha especificado un miembro de la familia exponencial , la función de varianza se puede derivar fácilmente. [4] : 29  Se presenta la forma general de la función de varianza en el contexto de la familia exponencial, así como formas específicas para Normal, Bernoulli, Poisson y Gamma. Además, describimos las aplicaciones y el uso de las funciones de varianza en la estimación de máxima verosimilitud y la estimación de cuasi-verosimilitud.

Derivación

El modelo lineal generalizado (MLG) es una generalización del análisis de regresión ordinaria que se extiende a cualquier miembro de la familia exponencial . Es particularmente útil cuando la variable de respuesta es categórica, binaria o está sujeta a una restricción (por ejemplo, solo las respuestas positivas tienen sentido). En esta página se incluye un resumen rápido de los componentes de un MLG, pero para obtener más detalles e información, consulte la página sobre modelos lineales generalizados .

Un GLM consta de tres ingredientes principales:

1. Componente aleatorio: una distribución de y de la familia exponencial,
2. Predictor lineal:
3. Función de enlace:

Primero es importante derivar un par de propiedades clave de la familia exponencial.

Cualquier variable aleatoria de la familia exponencial tiene una función de densidad de probabilidad de la forma,

con log-verosimilitud,

Aquí, es el parámetro canónico y el parámetro de interés, y es un parámetro molesto que desempeña un papel en la varianza. Utilizamos las identidades de Bartlett para derivar una expresión general para la función de varianza . El primer y segundo resultado de Bartlett aseguran que, en condiciones adecuadas (véase la regla integral de Leibniz ), para una función de densidad dependiente de ,

Estas identidades conducen a cálculos simples del valor esperado y la varianza de cualquier variable aleatoria en la familia exponencial .

Valor esperado de Y : Tomando la primera derivada con respecto al logaritmo de la densidad en la forma de familia exponencial descrita anteriormente, tenemos

Luego, tomar el valor esperado y establecerlo igual a cero conduce a:

Varianza de Y: Para calcular la varianza utilizamos la segunda identidad de Bartlett,

Ahora tenemos una relación entre y , es decir

y , lo que permite una relación entre y la varianza,

Tenga en cuenta que, dado que , entonces es invertible. Derivamos la función de varianza para algunas distribuciones comunes.

Ejemplo – normal

La distribución normal es un caso especial en el que la función de varianza es constante. Pongamos entonces la función de densidad de y en la forma de la familia exponencial descrita anteriormente:

dónde

Para calcular la función de varianza , primero la expresamos como una función de . Luego la transformamos en una función de

Por lo tanto, la función de varianza es constante.

Ejemplo – Bernoulli

Sea , entonces expresamos la densidad de la distribución de Bernoulli en forma de familia exponencial,

logit (p), lo que nos da expit
y
expirar

Esto nos da

Ejemplo – Poisson

Sea , entonces expresamos la densidad de la distribución de Poisson en forma de familia exponencial,

lo que nos da
y

Esto nos da

Aquí vemos la propiedad central de los datos de Poisson, que la varianza es igual a la media.

Ejemplo – Gamma

La distribución gamma y la función de densidad se pueden expresar bajo diferentes parametrizaciones. Utilizaremos la forma de la gamma con parámetros

Luego, en forma de familia exponencial tenemos

Y tenemos

Aplicación: mínimos cuadrados ponderados

Una aplicación muy importante de la función de varianza es su uso en la estimación e inferencia de parámetros cuando la variable de respuesta tiene la forma de familia exponencial requerida, así como en algunos casos en los que no lo tiene (lo que analizaremos en el apartado de cuasibiverosimilitud ). Los mínimos cuadrados ponderados (WLS) son un caso especial de mínimos cuadrados generalizados. Cada término del criterio WLS incluye un peso que determina la influencia que tiene cada observación en las estimaciones finales de los parámetros. Al igual que en los mínimos cuadrados regulares, el objetivo es estimar los parámetros desconocidos en la función de regresión encontrando valores para las estimaciones de los parámetros que minimicen la suma de las desviaciones al cuadrado entre las respuestas observadas y la parte funcional del modelo.

Si bien el WLS supone la independencia de las observaciones, no supone la igualdad de varianzas y, por lo tanto, es una solución para la estimación de parámetros en presencia de heterocedasticidad. El teorema de Gauss-Markov y Aitken demuestran que el mejor estimador lineal insesgado (BLUE), el estimador insesgado con mínima varianza, tiene cada ponderación igual al recíproco de la varianza de la medición.

En el marco GLM, nuestro objetivo es estimar los parámetros , donde . Por lo tanto, nos gustaría minimizar y si definimos la matriz de ponderación W como

donde se definen en la sección anterior, permite la estimación iterativamente reponderada por mínimos cuadrados (IRLS) de los parámetros. Consulte la sección sobre mínimos cuadrados reponderados iterativamente para obtener más información y derivaciones.

Además, es importante tener en cuenta que cuando la matriz de ponderación tiene la forma descrita aquí, al minimizar la expresión también se minimiza la distancia de Pearson. Consulte Correlación de distancias para obtener más información.

La matriz W queda fuera de las ecuaciones de estimación para la estimación de . La estimación de máxima verosimilitud para cada parámetro , requiere

, donde es la verosimilitud logarítmica.

Mirando una sola observación tenemos,

Esto nos da

, y observando que
tenemos eso

La matriz hessiana se determina de manera similar y se puede demostrar que es,

Observando que la Información de Fisher (FI),

, permite una aproximación asintótica de
, y por lo tanto se puede realizar la inferencia.

Aplicación – cuasibillicidad

Dado que la mayoría de las características de los GLM dependen únicamente de los dos primeros momentos de la distribución, en lugar de la distribución completa, la cuasivreverosimilitud se puede desarrollar simplemente especificando una función de enlace y una función de varianza. Es decir, necesitamos especificar

Con una función de varianza y una función de enlace especificadas, podemos desarrollar, como alternativas a la función de log-verosimilitud , la función de puntuación y la información de Fisher , una cuasi-verosimilitud , una cuasi-puntuación y la cuasi-información . Esto permite la inferencia completa de .

Cuasi-verosimilitud (QL)

Aunque se denomina cuasialogabilidad , en realidad es una cuasilogabilidad . La LC para una observación es

Y por lo tanto el QL para todas las n observaciones es

Del QL tenemos el quasi-score

Cuasi-puntuación (QS)

Recordemos que la función de puntuación , U , para datos con log-verosimilitud es

Obtenemos el quasi-score de manera idéntica,

Observando que, para una observación, la puntuación es

Las dos primeras ecuaciones de Bartlett se satisfacen para la cuasi-puntuación, es decir

y

Además, la cuasipuntuación es lineal en y .

En última instancia, el objetivo es encontrar información sobre los parámetros de interés . Tanto el QS como el QL son en realidad funciones de . Recordemos, , y , por lo tanto,

Cuasi-información (QI)

La cuasiinformación es similar a la información de Fisher .

QL, QS, QI como funciones de

El QL, QS y QI proporcionan los componentes básicos para la inferencia sobre los parámetros de interés y, por lo tanto, es importante expresar el QL, QS y QI como funciones de .

Recordando nuevamente que , derivamos las expresiones para QL, QS y QI parametrizadas bajo .

Cuasi-verosimilitud en ,

El QS en función de es por lo tanto

Dónde,

La matriz de cuasiinformación en es,

La obtención de la función de puntuación y la información de permite la estimación y la inferencia de parámetros de manera similar a la descrita en Aplicación: mínimos cuadrados ponderados.

Análisis de regresión no paramétrica

Diagrama de dispersión de los años en las grandes ligas en función del salario (x$1000). La línea es la tendencia en la media. El gráfico demuestra que la varianza no es constante.
Varianza condicional suavizada frente a la media condicional suavizada. La forma cuadrática es indicativa de la distribución gamma. La función de varianza de una gamma es V( ) =

La estimación no paramétrica de la función de varianza y su importancia se ha discutido ampliamente en la literatura [5] [6] [7] En el análisis de regresión no paramétrica , el objetivo es expresar el valor esperado de su variable de respuesta ( y ) como una función de sus predictores ( X ). Es decir, buscamos estimar una función media , sin asumir una forma paramétrica. Hay muchas formas de métodos de suavizado no paramétrico para ayudar a estimar la función . Un enfoque interesante es mirar también una función de varianza no paramétrica , . Una función de varianza no paramétrica permite mirar la función media en relación con la función de varianza y notar patrones en los datos.

En las imágenes de la derecha se detalla un ejemplo. El objetivo del proyecto era determinar (entre otras cosas) si el predictor, número de años en las ligas mayores (béisbol), tenía o no un efecto en la respuesta, salario , que ganaba un jugador. Un diagrama de dispersión inicial de los datos indica que hay heterocedasticidad en los datos, ya que la varianza no es constante en cada nivel del predictor. Debido a que podemos detectar visualmente la varianza no constante, ahora resulta útil trazar y observar si la forma es indicativa de alguna distribución conocida. Se puede estimar y utilizando un método de suavizado general . El gráfico de la función de varianza suavizada no paramétrica puede dar al investigador una idea de la relación entre la varianza y la media. La imagen de la derecha indica una relación cuadrática entre la media y la varianza. Como vimos anteriormente, la función de varianza Gamma es cuadrática en la media.

Notas

  1. ^ ab Muller y Zhao (1995). "Sobre un modelo de función de varianza semiparamétrica y una prueba de heterocedasticidad". Anales de Estadística . 23 (3): 946–967. doi : 10.1214/aos/1176324630 . JSTOR  2242430.
  2. ^ Muller, Stadtmuller y Yao (2006). "Procesos de varianza funcional". Revista de la Asociación Estadounidense de Estadística . 101 (475): 1007–1018. doi :10.1198/016214506000000186. JSTOR  27590778. S2CID  13712496.
  3. ^ Wedderburn, RWM (1974). "Funciones de cuasibillicidad, modelos lineales generalizados y el método de Gauss-Newton". Biometrika . 61 (3): 439–447. doi :10.1093/biomet/61.3.439. JSTOR  2334725.
  4. ^ McCullagh, Peter; Nelder, John (1989). Modelos lineales generalizados (segunda edición). Londres: Chapman and Hall. ISBN 0-412-31760-5.
  5. ^ Muller y StadtMuller (1987). "Estimación de heteroscedasticidad en análisis de regresión". Anales de estadística . 15 (2): 610–625. doi : 10.1214/aos/1176350364 . JSTOR  2241329.
  6. ^ Cai y Wang, T.; Wang, Lie (2008). "Estimación de la función de varianza adaptativa en regresión no paramétrica heterocedástica". Anales de estadística . 36 (5): 2025–2054. arXiv : 0810.4780 . Código Bibliográfico :2008arXiv0810.4780C. doi :10.1214/07-AOS509. JSTOR  2546470. S2CID  9184727.
  7. ^ Rice y Silverman (1991). "Estimación de la estructura de media y covarianza de forma no paramétrica cuando los datos son curvas". Journal of the Royal Statistical Society . 53 (1): 233–243. JSTOR  2345738.

Referencias

Enlaces externos