stringtranslate.com

Regresión lineal simple

La ley de Okun en macroeconomía es un ejemplo de regresión lineal simple. Aquí se supone que la variable dependiente (crecimiento del PIB) está en una relación lineal con los cambios en la tasa de desempleo.

En estadística , la regresión lineal simple ( SLR ) es un modelo de regresión lineal con una única variable explicativa . [1] [2] [3] [4] [ 5] Es decir, se trata de puntos de muestra bidimensionales con una variable independiente y una variable dependiente ( convencionalmente, las coordenadas xey en un sistema de coordenadas cartesiano ) y encuentra una Función lineal (una línea recta no vertical ) que, con la mayor precisión posible, predice los valores de la variable dependiente en función de la variable independiente. El adjetivo simple se refiere al hecho de que la variable de resultado está relacionada con un único predictor.

Es común hacer la estipulación adicional de que se debe utilizar el método de mínimos cuadrados ordinarios (MCO): la precisión de cada valor predicho se mide por su residual al cuadrado (distancia vertical entre el punto del conjunto de datos y la línea ajustada), y el objetivo es hacer que la suma de estas desviaciones al cuadrado sea lo más pequeña posible. En este caso, la pendiente de la línea ajustada es igual a la correlación entre y y x corregida por la relación de desviaciones estándar de estas variables. La intersección de la línea ajustada es tal que la línea pasa por el centro de masa ( x , y ) de los puntos de datos.

Formulación y cálculo.

Considere la función del modelo .

que describe una línea con pendiente β e intersección con el eje α . En general, tal relación puede no ser válida exactamente para la población de valores de las variables independientes y dependientes, en gran parte no observada; A las desviaciones no observadas de la ecuación anterior las llamamos errores . Supongamos que observamos n pares de datos y los llamamos {( x i , y i ), i = 1, ..., n }. Podemos describir la relación subyacente entre y i y x i que involucra este término de error ε i mediante

Esta relación entre los parámetros subyacentes verdaderos (pero no observados) α y β y los puntos de datos se denomina modelo de regresión lineal.

El objetivo es encontrar valores estimados para los parámetros α y β que proporcionarían el "mejor" ajuste en algún sentido para los puntos de datos. Como se mencionó en la introducción, en este artículo el "mejor" ajuste se entenderá como el método de mínimos cuadrados : una línea que minimiza la suma de los residuos al cuadrado (ver también Errores y residuos ) (diferencias entre los valores reales y predichos de la variable dependiente y ), cada una de las cuales está dada por, para cualquier valor de parámetro candidato y ,

En otras palabras, resuelva el siguiente problema de minimización :

donde la función objetivo Q es:

Al expandir para obtener una expresión cuadrática en y podemos derivar valores minimizadores de los argumentos de la función, denotados y : [6]

Aquí hemos introducido

Fórmulas ampliadas

Las ecuaciones anteriores son eficientes si se conoce la media de las variables xey ( ). Si no se conocen las medias en el momento del cálculo, puede ser más eficiente utilizar la versión ampliada de las ecuaciones. Estas ecuaciones ampliadas pueden derivarse de las ecuaciones de regresión polinómica más generales [7] [8] definiendo el polinomio de regresión como de orden 1, como sigue.

El sistema de ecuaciones lineales anterior se puede resolver directamente o se pueden derivar ecuaciones independientes expandiendo las ecuaciones matriciales anteriores. Las ecuaciones resultantes son algebraicamente equivalentes a las que se muestran en el párrafo anterior y se muestran a continuación sin demostración. [9] [7]

Interpretación

Relación con la matriz de covarianza muestral

La solución se puede reformular utilizando elementos de la matriz de covarianza :

dónde

Sustituyendo las expresiones anteriores por y en la solución original se obtiene

Esto muestra que r xy es la pendiente de la línea de regresión de los puntos de datos estandarizados (y que esta línea pasa por el origen). Desde entonces obtenemos que si x es alguna medida e y es una medida de seguimiento del mismo elemento, entonces esperamos que y (en promedio) esté más cerca de la medida media que del valor original de x. Este fenómeno se conoce como regresiones hacia la media .

Generalizando la notación, podemos escribir una barra horizontal sobre una expresión para indicar el valor promedio de esa expresión sobre el conjunto de muestras. Por ejemplo:

Esta notación nos permite una fórmula concisa para r xy :

El coeficiente de determinación ("R cuadrado") es igual a cuando el modelo es lineal con una única variable independiente. Consulte el coeficiente de correlación de muestra para obtener detalles adicionales.

Interpretación sobre la pendiente.

Multiplicando todos los miembros de la suma en el numerador por : (sin cambiarlo):

Podemos ver que la pendiente (tangente del ángulo) de la recta de regresión es el promedio ponderado de esa es la pendiente (tangente del ángulo) de la recta que conecta el i-ésimo punto con el promedio de todos los puntos, ponderada por porque el Cuanto más lejos esté el punto, más "importante" será, ya que pequeños errores en su posición afectarán más a la pendiente que lo conecta con el punto central.

Interpretación sobre la intercepción.

Dado el ángulo que forma la línea con el eje x positivo, tenemos

Interpretación sobre la correlación.

En la formulación anterior, observe que cada uno es un valor constante ("conocido de antemano"), mientras que son variables aleatorias que dependen de la función lineal de y del término aleatorio . Esta suposición se utiliza al derivar el error estándar de la pendiente y demostrar que es insesgado .

En este marco, cuando en realidad no es una variable aleatoria , ¿qué tipo de parámetro estima la correlación empírica ? El problema es que para cada valor i tendremos: y . Una posible interpretación de es imaginar que define una variable aleatoria extraída de la distribución empírica de los valores de x en nuestra muestra. Por ejemplo, si x tuviera 10 valores de los números naturales : [1,2,3...,10], entonces podemos imaginar que x es una distribución uniforme discreta . Según esta interpretación, todos tienen la misma expectativa y alguna variación positiva. Con esta interpretación podemos pensar en el estimador de la correlación de Pearson entre la variable aleatoria y y la variable aleatoria x (como la acabamos de definir).

Propiedades numéricas

  1. La línea de regresión pasa por el punto del centro de masa , , si el modelo incluye un término de intersección (es decir, no forzado a través del origen).
  2. La suma de los residuos es cero si el modelo incluye un término de intercepto:
  3. Los residuos y los valores de x no están correlacionados (exista o no un término de intersección en el modelo), lo que significa:
  4. La relación entre (el coeficiente de correlación para la población ) y las varianzas de la población de ( ) y el término de error de ( ) es: [10] : 401 
    Para valores extremos esto es evidente. Desde cuando entonces . Y cuando entonces .

Propiedades estadísticas

La descripción de las propiedades estadísticas de los estimadores a partir de estimaciones de regresión lineal simple requiere el uso de un modelo estadístico . Lo siguiente se basa en asumir la validez de un modelo bajo el cual las estimaciones son óptimas. También es posible evaluar las propiedades bajo otros supuestos, como la falta de homogeneidad , pero esto se analiza en otra parte. [ se necesita aclaración ]

Imparcialidad

Los estimadores y son insesgados .

Para formalizar esta afirmación debemos definir un marco en el que estos estimadores sean variables aleatorias. Consideramos los residuos ε i como variables aleatorias extraídas independientemente de alguna distribución con media cero. En otras palabras, para cada valor de x , el valor correspondiente de y se genera como una respuesta media α + βx más una variable aleatoria adicional ε llamada término de error , igual a cero en promedio. Bajo tal interpretación, los estimadores de mínimos cuadrados y serán ellos mismos variables aleatorias cuyas medias serán iguales a los "valores verdaderos" α y β . Ésta es la definición de estimador insesgado.

Intervalos de confianza

Las fórmulas dadas en la sección anterior permiten calcular las estimaciones puntuales de α y β , es decir, los coeficientes de la línea de regresión para el conjunto de datos dado. Sin embargo, esas fórmulas no nos dicen qué tan precisas son las estimaciones, es decir, cuánto varían los estimadores de una muestra a otra para el tamaño de muestra especificado. Se idearon intervalos de confianza para dar un conjunto plausible de valores a las estimaciones que uno podría tener si repitiera el experimento un gran número de veces.

El método estándar para construir intervalos de confianza para coeficientes de regresión lineal se basa en el supuesto de normalidad, que se justifica si:

  1. los errores en la regresión se distribuyen normalmente (el llamado supuesto de regresión clásica ), o
  2. el número de observaciones n es suficientemente grande, en cuyo caso el estimador tiene una distribución aproximadamente normal.

Este último caso está justificado por el teorema del límite central .

Supuesto de normalidad

Bajo el primer supuesto anterior, el de la normalidad de los términos de error, el estimador del coeficiente de pendiente estará normalmente distribuido con media β y varianza donde σ 2 es la varianza de los términos de error (ver Pruebas que involucran mínimos cuadrados ordinarios ). Al mismo tiempo, la suma de los residuos al cuadrado Q se distribuye proporcionalmente a χ 2 con n − 2 grados de libertad e independientemente de . Esto nos permite construir un valor t

dónde

es el estimador del error estándar insesgado del estimador .

Este valor t tiene una distribución t de Student con n − 2 grados de libertad. Usándolo podemos construir un intervalo de confianza para β :

en el nivel de confianza (1 − γ ) , donde es el cuantil de la distribución t n −2 . Por ejemplo, si γ = 0,05 entonces el nivel de confianza es del 95%.

De manera similar, el intervalo de confianza para el coeficiente de intersección α viene dado por

en el nivel de confianza (1 − γ ), donde

La regresión de los "cambios en el desempleo - crecimiento del PIB" de EE.UU. con las bandas de confianza del 95%.

Los intervalos de confianza para α y β nos dan una idea general de dónde es más probable que se encuentren estos coeficientes de regresión. Por ejemplo, en la regresión de la ley de Okun que se muestra aquí, las estimaciones puntuales son

Los intervalos de confianza del 95% para estas estimaciones son

Para representar gráficamente esta información, en forma de bandas de confianza alrededor de la línea de regresión, hay que proceder con cuidado y tener en cuenta la distribución conjunta de los estimadores. Se puede demostrar [11] que en el nivel de confianza (1 −  γ ) la banda de confianza tiene forma hiperbólica dada por la ecuación

Cuando el modelo asume que la intersección es fija e igual a 0 ( ), el error estándar de la pendiente se convierte en:

Con:

Supuesto asintótico

El segundo supuesto alternativo establece que cuando el número de puntos en el conjunto de datos es "suficientemente grande", la ley de los números grandes y el teorema del límite central se vuelven aplicables, y entonces la distribución de los estimadores es aproximadamente normal. Bajo este supuesto, todas las fórmulas derivadas en la sección anterior siguen siendo válidas, con la única excepción de que el cuantil t* n −2 de la distribución t de Student se reemplaza por el cuantil q* de la distribución normal estándar . En ocasiones la fracción1/norte −2se reemplaza con1/norte. Cuando n es grande, tal cambio no altera apreciablemente los resultados.

Ejemplo numérico

Este conjunto de datos proporciona masas promedio para mujeres en función de su altura en una muestra de mujeres estadounidenses de 30 a 39 años. Aunque el artículo de MCO sostiene que sería más apropiado ejecutar una regresión cuadrática para estos datos, aquí se aplica el modelo de regresión lineal simple.

Hay n = 15 puntos en este conjunto de datos. Los cálculos manuales comenzarían encontrando las siguientes cinco sumas:

Estas cantidades se utilizarían para calcular las estimaciones de los coeficientes de regresión y sus errores estándar.

Gráfica de puntos y líneas de mínimos cuadrados lineales en el ejemplo numérico de regresión lineal simple

El cuantil 0,975 de la distribución t de Student con 13 grados de libertad es t * 13 = 2,1604 y, por tanto, los intervalos de confianza del 95% para α y β son

También se podría calcular el coeficiente de correlación momento-producto :

Alternativas

Calcular los parámetros de un modelo lineal minimizando el error al cuadrado.

En SLR, existe el supuesto subyacente de que sólo la variable dependiente contiene error de medición; Si la variable explicativa también se mide con error, entonces la regresión simple no es apropiada para estimar la relación subyacente porque estará sesgada debido a la dilución de la regresión .

Otros métodos de estimación que se pueden utilizar en lugar de los mínimos cuadrados ordinarios incluyen las desviaciones mínimas absolutas (que minimizan la suma de los valores absolutos de los residuos) y el estimador de Theil-Sen (que elige una recta cuya pendiente es la mediana de las pendientes determinadas por pares de puntos de muestra).

La regresión de Deming (mínimos cuadrados totales) también encuentra una línea que se ajusta a un conjunto de puntos muestrales bidimensionales, pero (a diferencia de los mínimos cuadrados ordinarios, las desviaciones mínimas absolutas y la regresión de pendiente mediana) en realidad no es un ejemplo de regresión lineal simple, porque no separa las coordenadas en una variable dependiente y otra independiente y potencialmente podría devolver una línea vertical como ajuste. puede conducir a un modelo que intenta ajustarse a los valores atípicos más que a los datos.

Ajuste de línea

El ajuste de línea es el proceso de construir una línea recta que se ajuste mejor a una serie de puntos de datos.

Existen varios métodos, considerando:

Regresión lineal simple sin término de intersección (regresor único)

A veces es apropiado forzar que la recta de regresión pase por el origen, porque se supone que xey son proporcionales. Para el modelo sin el término de intersección, y = βx , el estimador MCO para β se simplifica a

Sustituyendo ( xh , yk ) en lugar de ( x , y ) se obtiene la regresión mediante ( h , k ) :

donde Cov y Var se refieren a la covarianza y la varianza de los datos de la muestra (sin corregir el sesgo). El último formulario anterior demuestra cómo alejar la línea del centro de masa de los puntos de datos afecta la pendiente.

Ver también

Referencias

  1. ^ Seltman, Howard J. (8 de septiembre de 2008). Diseño y análisis experimental (PDF) . pag. 227.
  2. ^ "Muestreo estadístico y regresión: regresión lineal simple". Universidad de Colombia . Consultado el 17 de octubre de 2016 . Cuando se utiliza una variable independiente en una regresión, se llama regresión simple;(...)
  3. ^ Lane, David M. Introducción a la estadística (PDF) . pag. 462.
  4. ^ Zou KH; Tuncali K; Silverman SG (2003). "Correlación y regresión lineal simple". Radiología . 227 (3): 617–22. doi :10.1148/radiol.2273011499. ISSN  0033-8419. OCLC  110941167. PMID  12773666.
  5. ^ Altman, Naomi; Krzywinski, Martín (2015). "Regresión lineal simple". Métodos de la naturaleza . 12 (11): 999–1000. doi : 10.1038/nmeth.3627 . ISSN  1548-7091. OCLC  5912005539. PMID  26824102. S2CID  261269711.
  6. ^ Kenney, JF y Keeping, ES (1962) "Regresión lineal y correlación". Cap. 15 en Matemáticas de Estadística , pt. 1, 3ª ed. Princeton, Nueva Jersey: Van Nostrand, págs. 252–285
  7. ^ ab Muthukrishnan, Gowri (17 de junio de 2018). "Matemáticas detrás de la regresión polinómica, Muthukrishnan". Matemáticas detrás de la regresión polinómica . Consultado el 30 de enero de 2024 .
  8. ^ "Matemáticas de la regresión polinómica". Regresión polinómica, una clase de regresión PHP .
  9. ^ "Aritmética, matemáticas y estadística: kit de habilidades académicas, Universidad de Newcastle". Regresión lineal simple . Consultado el 30 de enero de 2024 .
  10. ^ Valliant, Richard, Jill A. Dever y Frauke Kreuter. Herramientas prácticas para diseñar y ponderar muestras de encuestas. Nueva York: Springer, 2013.
  11. ^ Casella, G. y Berger, RL (2002), "Inferencia estadística" (segunda edición), Cengage, ISBN 978-0-534-24312-8 , págs. 

enlaces externos