Regresión lineal

En estadística , la regresión lineal es un modelo que estima la relación lineal entre una respuesta escalar ( variable dependiente ) y una o más variables explicativas ( regresor o variable independiente ). Un modelo con exactamente una variable explicativa es una regresión lineal simple ; un modelo con dos o más variables explicativas es una regresión lineal múltiple . ^[1] Este término es distinto de la regresión lineal multivariante , que predice múltiples variables dependientes correlacionadas en lugar de una sola variable dependiente. ^[2]

En la regresión lineal, las relaciones se modelan utilizando funciones predictoras lineales cuyos parámetros de modelo desconocidos se estiman a partir de los datos . Lo más común es suponer que la media condicional de la respuesta, dados los valores de las variables explicativas (o predictores), es una función afín de esos valores; con menos frecuencia, se utiliza la mediana condicional o algún otro cuantil . Como todas las formas de análisis de regresión , la regresión lineal se centra en la distribución de probabilidad condicional de la respuesta, dados los valores de los predictores, en lugar de en la distribución de probabilidad conjunta de todas estas variables, que es el dominio del análisis multivariante .

La regresión lineal también es un tipo de algoritmo de aprendizaje automático , más específicamente un algoritmo supervisado , que aprende de los conjuntos de datos etiquetados y asigna los puntos de datos a las funciones lineales más optimizadas que se pueden usar para la predicción en nuevos conjuntos de datos. ^[3]

La regresión lineal fue el primer tipo de análisis de regresión que se estudió rigurosamente y se utilizó ampliamente en aplicaciones prácticas. ^[4] Esto se debe a que los modelos que dependen linealmente de sus parámetros desconocidos son más fáciles de ajustar que los modelos que están relacionados de forma no lineal con sus parámetros y porque las propiedades estadísticas de los estimadores resultantes son más fáciles de determinar.

La regresión lineal tiene muchos usos prácticos. La mayoría de las aplicaciones se enmarcan en una de las dos categorías siguientes:

Si el objetivo es el error, es decir, la reducción de la varianza en la predicción o el pronóstico , se puede utilizar la regresión lineal para ajustar un modelo predictivo a un conjunto de datos observados de valores de las variables explicativas y de respuesta. Después de desarrollar dicho modelo, si se recopilan valores adicionales de las variables explicativas sin un valor de respuesta que los acompañe, el modelo ajustado se puede utilizar para hacer una predicción de la respuesta.
Si el objetivo es explicar la variación en la variable de respuesta que puede atribuirse a la variación en las variables explicativas, se puede aplicar el análisis de regresión lineal para cuantificar la fuerza de la relación entre la respuesta y las variables explicativas y, en particular, para determinar si algunas variables explicativas pueden no tener ninguna relación lineal con la respuesta, o para identificar qué subconjuntos de variables explicativas pueden contener información redundante sobre la respuesta.

Los modelos de regresión lineal se ajustan a menudo utilizando el enfoque de mínimos cuadrados , pero también se pueden ajustar de otras maneras, como minimizando la " falta de ajuste " en alguna otra norma (como con la regresión de desviaciones absolutas mínimas ), o minimizando una versión penalizada de la función de costo de mínimos cuadrados como en la regresión de cresta ( penalización de norma L ² ) y lasso ( penalización de norma L ¹ ). El uso del error cuadrático medio (MSE) como el costo en un conjunto de datos que tiene muchos valores atípicos grandes, puede dar como resultado un modelo que se ajuste a los valores atípicos más que a los datos reales debido a la mayor importancia asignada por MSE a los errores grandes. Por lo tanto, se deben utilizar funciones de costo que sean robustas a los valores atípicos si el conjunto de datos tiene muchos valores atípicos grandes . Por el contrario, el enfoque de mínimos cuadrados se puede utilizar para ajustar modelos que no son modelos lineales. Por lo tanto, aunque los términos "mínimos cuadrados" y "modelo lineal" están estrechamente relacionados, no son sinónimos.

Formulación

Dado un conjunto de datos de n unidades estadísticas , un modelo de regresión lineal supone que la relación entre la variable dependiente y y el vector de regresores x es lineal . Esta relación se modela a través de un término de perturbación o variable de error ε —una variable aleatoria no observada que añade "ruido" a la relación lineal entre la variable dependiente y los regresores. Así, el modelo toma la forma donde ^T denota la transpuesta , de modo que x _i^Tβ es el producto interno entre los vectores x _i y β . $\{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}$ $y_{i}=\beta _{0}+\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\ldots ,n,$

A menudo, estas n ecuaciones se agrupan y se escriben en notación matricial como

\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\,

dónde

\mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}},\quad

\mathbf {X} ={\begin{bmatrix}\mathbf {x} _{1}^{\mathsf {T}}\\\mathbf {x} _{2}^{\mathsf {T}}\\\vdots \\\mathbf {x} _{n}^{\mathsf {T}}\end{bmatrix}}={\begin{bmatrix}1&x_{11}&\cdots &x_{1p}\\1&x_{21}&\cdots &x_{2p}\\\vdots &\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{np}\end{bmatrix}},

{\boldsymbol {\beta }}={\begin{bmatrix}\beta _{0}\\\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{bmatrix}},\quad {\boldsymbol {\varepsilon }}={\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{bmatrix}}.

Notación y terminología

$\mathbf {y}$ es un vector de valores observados de la variable llamada regresando , variable endógena , variable de respuesta , variable objetivo , variable medida , variable de criterio o variable dependiente . Esta variable también se conoce a veces como variable predicha , pero no debe confundirse con los valores predichos , que se denotan como . La decisión sobre qué variable en un conjunto de datos se modela como la variable dependiente y cuáles se modelan como las variables independientes puede basarse en la presunción de que el valor de una de las variables es causado por, o directamente influenciado por las otras variables. Alternativamente, puede haber una razón operativa para modelar una de las variables en términos de las otras, en cuyo caso no es necesario presumir causalidad. $y_{i}\ (i=1,\ldots ,n)$ ${\hat {y}}$
$\mathbf {X}$ puede verse como una matriz de vectores fila o de vectores columna n -dimensionales , que se conocen como regresores , variables exógenas , variables explicativas , covariables , variables de entrada , variables predictoras o variables independientes (que no deben confundirse con el concepto de variables aleatorias independientes ). La matriz a veces se denomina matriz de diseño . $\mathbf {x} _{i\cdot }$ $\mathbf {x} _{\cdot j}$ $\mathbf {X}$
- Generalmente se incluye una constante como uno de los regresores. En particular, para . El elemento correspondiente de β se denomina intersección . Muchos procedimientos de inferencia estadística para modelos lineales requieren que esté presente una intersección, por lo que a menudo se incluye incluso si las consideraciones teóricas sugieren que su valor debería ser cero. $x_{i0}=1$ $i=1,\ldots ,n$
- A veces, uno de los regresores puede ser una función no lineal de otro regresor o de los valores de los datos, como en la regresión polinómica y la regresión segmentada . El modelo sigue siendo lineal mientras sea lineal en el vector de parámetros β .
- Los valores x _ij pueden considerarse como valores observados de variables aleatorias X _j o como valores fijos elegidos antes de observar la variable dependiente. Ambas interpretaciones pueden ser apropiadas en diferentes casos y generalmente conducen a los mismos procedimientos de estimación; sin embargo, en estas dos situaciones se utilizan diferentes enfoques de análisis asintótico.
${\boldsymbol {\beta }}$ es un vector de parámetros de dimensión , donde es el término de intersección (si se incluye uno en el modelo; de lo contrario, es p -dimensional). Sus elementos se conocen como efectos o coeficientes de regresión (aunque el último término a veces se reserva para los efectos estimados ). En la regresión lineal simple , p = 1, y el coeficiente se conoce como pendiente de regresión. $(p+1)$ $\beta _{0}$ ${\boldsymbol {\beta }}$ La estimación y la inferencia estadística en la regresión lineal se centran en β . Los elementos de este vector de parámetros se interpretan como las derivadas parciales de la variable dependiente con respecto a las distintas variables independientes.
${\boldsymbol {\varepsilon }}$ es un vector de valores . Esta parte del modelo se denomina término de error , término de perturbación o, a veces, ruido (en contraste con la "señal" proporcionada por el resto del modelo). Esta variable captura todos los demás factores que influyen en la variable dependiente y, excepto los regresores x . La relación entre el término de error y los regresores, por ejemplo, su correlación , es una consideración crucial al formular un modelo de regresión lineal, ya que determinará el método de estimación adecuado. $\varepsilon _{i}$

Para ajustar un modelo lineal a un conjunto de datos determinado, normalmente es necesario estimar los coeficientes de regresión de modo que se minimice el término de error. Por ejemplo, es habitual utilizar la suma de los errores al cuadrado como medida de minimización. ${\boldsymbol {\beta }}$ ${\boldsymbol {\varepsilon }}=\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}$ $\|{\boldsymbol {\varepsilon }}\|_{2}^{2}$ ${\boldsymbol {\varepsilon }}$

Ejemplo

Consideremos una situación en la que se lanza una pelota pequeña al aire y luego medimos sus alturas de ascenso h _i en varios momentos del tiempo t _i . La física nos dice que, ignorando la resistencia , la relación se puede modelar como

h_{i}=\beta _{1}t_{i}+\beta _{2}t_{i}^{2}+\varepsilon _{i},

donde β ₁ determina la velocidad inicial de la pelota, β ₂ es proporcional a la gravedad estándar y ε _i se debe a errores de medición. La regresión lineal se puede utilizar para estimar los valores de β ₁ y β ₂ a partir de los datos medidos. Este modelo no es lineal en la variable tiempo, pero es lineal en los parámetros β ₁ y β ₂ ; si tomamos los regresores x _i = ( x _{i 1} , x _{i 2} ) = ( t _i , t _i² ), el modelo adopta la forma estándar

h_{i}=\mathbf {x} _{i}^{\mathsf {T}}{\boldsymbol {\beta }}+\varepsilon _{i}.

Supuestos

Los modelos de regresión lineal estándar con técnicas de estimación estándar hacen una serie de suposiciones sobre las variables predictoras, la variable de respuesta y su relación. Se han desarrollado numerosas extensiones que permiten relajar cada una de estas suposiciones (es decir, reducirlas a una forma más débil) y, en algunos casos, eliminarlas por completo. Generalmente, estas extensiones hacen que el procedimiento de estimación sea más complejo y lleve más tiempo, y también pueden requerir más datos para producir un modelo igualmente preciso. ^{[ cita requerida ]}

Los siguientes son los principales supuestos realizados por los modelos de regresión lineal estándar con técnicas de estimación estándar (por ejemplo, mínimos cuadrados ordinarios ):

Exogeneidad débil . Esto significa, en esencia, que las variables predictoras x pueden tratarse como valores fijos, en lugar de variables aleatorias . Esto significa, por ejemplo, que se supone que las variables predictoras están libres de errores, es decir, no están contaminadas con errores de medición. Aunque esta suposición no es realista en muchos entornos, descartarla conduce a modelos de errores en las variables significativamente más difíciles .
Linealidad . Esto significa que la media de la variable de respuesta es una combinación lineal de los parámetros (coeficientes de regresión) y las variables predictoras. Nótese que esta suposición es mucho menos restrictiva de lo que puede parecer a primera vista. Debido a que las variables predictoras se tratan como valores fijos (ver arriba), la linealidad es realmente solo una restricción de los parámetros. Las variables predictoras en sí mismas pueden transformarse arbitrariamente y, de hecho, se pueden agregar múltiples copias de la misma variable predictora subyacente, cada una transformada de manera diferente. Esta técnica se utiliza, por ejemplo, en la regresión polinómica , que utiliza la regresión lineal para ajustar la variable de respuesta como una función polinómica arbitraria (hasta un grado dado) de una variable predictora. Con tanta flexibilidad, los modelos como la regresión polinómica a menudo tienen "demasiado poder", en el sentido de que tienden a sobreajustar los datos. Como resultado, normalmente se debe utilizar algún tipo de regularización para evitar que surjan soluciones irrazonables del proceso de estimación. Ejemplos comunes son la regresión de cresta y la regresión de lazo . También se puede utilizar la regresión lineal bayesiana , que por su naturaleza es más o menos inmune al problema del sobreajuste. (De hecho, la regresión de cresta y la regresión lasso pueden considerarse casos especiales de regresión lineal bayesiana, con tipos particulares de distribuciones previas colocadas en los coeficientes de regresión).
Visualización de la heterocedasticidad en un diagrama de dispersión frente a 100 valores ajustados aleatoriamente utilizando Matlab
Varianza constante (también conocida como homocedasticidad ). Esto significa que la varianza de los errores no depende de los valores de las variables predictoras. Por lo tanto, la variabilidad de las respuestas para valores fijos dados de los predictores es la misma independientemente de cuán grandes o pequeñas sean las respuestas. Este no suele ser el caso, ya que una variable cuya media es grande normalmente tendrá una varianza mayor que una cuya media es pequeña. Por ejemplo, una persona cuyos ingresos se predice que serán de $100,000 puede tener fácilmente un ingreso real de $80,000 o $120,000, es decir, una desviación estándar de alrededor de $20,000, mientras que otra persona con un ingreso previsto de $10,000 es poco probable que tenga la misma desviación estándar de $20,000, ya que eso implicaría que su ingreso real podría variar en cualquier lugar entre -$10,000 y $30,000. (De hecho, como esto muestra, en muchos casos -a menudo los mismos casos donde falla el supuesto de errores distribuidos normalmente- la varianza o desviación estándar debería predecirse como proporcional a la media, en lugar de constante.) La ausencia de homocedasticidad se llama heterocedasticidad . Para comprobar este supuesto, se puede examinar un gráfico de residuos versus valores predichos (o los valores de cada predictor individual) para ver si hay un "efecto de abanico" (es decir, una dispersión vertical creciente o decreciente a medida que uno se mueve de izquierda a derecha en el gráfico). También se puede examinar un gráfico de los residuos absolutos o cuadrados versus los valores predichos (o cada predictor) para ver si hay una tendencia o curvatura. También se pueden utilizar pruebas formales; consulte Heteroscedasticidad . La presencia de heterocedasticidad dará como resultado que se utilice una estimación "promedio" general de la varianza en lugar de una que tenga en cuenta la estructura de varianza real. Esto conduce a estimaciones de parámetros menos precisas (pero en el caso de los mínimos cuadrados ordinarios , no sesgadas) y errores estándar sesgados, lo que da como resultado pruebas y estimaciones de intervalo engañosas. El error cuadrático medio del modelo también será incorrecto. Varias técnicas de estimación, incluidos los mínimos cuadrados ponderados y el uso de errores estándar consistentes con la heterocedasticidad, pueden manejar la heterocedasticidad de una manera bastante general. También se pueden utilizar técnicas de regresión lineal bayesiana cuando se supone que la varianza es una función de la media. También es posible en algunos casos solucionar el problema aplicando una transformación a la variable de respuesta (por ejemplo, ajustando el logaritmo de la variable de respuesta utilizando un modelo de regresión lineal, lo que implica que la variable de respuesta en sí tiene una distribución log-normal en lugar de una distribución normal ).

Independencia de errores . Esto supone que los errores de las variables de respuesta no están correlacionados entre sí. ( La independencia estadística real es una condición más fuerte que la mera falta de correlación y a menudo no es necesaria, aunque se puede explotar si se sabe que se cumple). Algunos métodos, como los mínimos cuadrados generalizados , son capaces de manejar errores correlacionados, aunque normalmente requieren significativamente más datos a menos que se utilice algún tipo de regularización para sesgar el modelo y asumir errores no correlacionados. La regresión lineal bayesiana es una forma general de manejar esta cuestión.
Falta de multicolinealidad perfecta en los predictores. Para los métodos de estimación de mínimos cuadrados estándar , la matriz de diseño X debe tener rango de columna completo p ; de lo contrario, existe multicolinealidad perfecta en las variables predictoras, lo que significa que existe una relación lineal entre dos o más variables predictoras. Esto puede deberse a la duplicación accidental de una variable en los datos, al uso de una transformación lineal de una variable junto con la original (por ejemplo, las mismas mediciones de temperatura expresadas en Fahrenheit y Celsius) o a la inclusión de una combinación lineal de múltiples variables en el modelo, como su media. También puede suceder si hay muy pocos datos disponibles en comparación con el número de parámetros a estimar (por ejemplo, menos puntos de datos que coeficientes de regresión). Las violaciones cercanas a este supuesto, donde los predictores están altamente correlacionados pero no perfectamente, pueden reducir la precisión de las estimaciones de los parámetros (consulte Factor de inflación de la varianza ). En el caso de multicolinealidad perfecta, el vector de parámetros β no será identificable : no tiene una solución única. En tal caso, solo se pueden identificar algunos de los parámetros (es decir, sus valores solo se pueden estimar dentro de algún subespacio lineal del espacio de parámetros completo R ^p ). Véase regresión de mínimos cuadrados parciales . Se han desarrollado métodos para ajustar modelos lineales con multicolinealidad, ^[5]^[6]^[7]^[8] algunos de los cuales requieren suposiciones adicionales como la "escasez de efectos", es decir, que una gran fracción de los efectos son exactamente cero. Obsérvese que los algoritmos iterados más costosos desde el punto de vista computacional para la estimación de parámetros, como los utilizados en modelos lineales generalizados , no sufren este problema.
Supuesto de media cero de los residuos : en el análisis de regresión, otro supuesto crítico es que la media de los residuos es cero o cercana a cero. Este supuesto es fundamental para la validez de cualquier conclusión extraída de las estimaciones de los parámetros por mínimos cuadrados. Los residuos son las diferencias entre los valores observados y los valores predichos por el modelo. Si la media de estos residuos no es cero, implica que el modelo sobreestima o subestima sistemáticamente los valores observados, lo que indica un sesgo potencial en la estimación del modelo. Asegurarse de que la media de los residuos sea cero permite que el modelo se considere imparcial en términos de su error, lo que es crucial para la interpretación precisa de los coeficientes de regresión.

El incumplimiento de estos supuestos puede dar lugar a estimaciones sesgadas de β , errores estándar sesgados, intervalos de confianza y pruebas de significación poco fiables. Más allá de estos supuestos, varias otras propiedades estadísticas de los datos influyen fuertemente en el rendimiento de los diferentes métodos de estimación:

La relación estadística entre los términos de error y los regresores juega un papel importante a la hora de determinar si un procedimiento de estimación tiene propiedades de muestreo deseables, como ser imparcial y consistente.
La disposición o distribución de probabilidad de las variables predictoras x tiene una influencia importante en la precisión de las estimaciones de β . El muestreo y el diseño de experimentos son subcampos de la estadística altamente desarrollados que brindan orientación para recopilar datos de tal manera que se logre una estimación precisa de β .

Interpretación

Un modelo de regresión lineal ajustado se puede utilizar para identificar la relación entre una única variable predictora x _j y la variable de respuesta y cuando todas las demás variables predictoras del modelo se "mantienen fijas". Específicamente, la interpretación de β _j es el cambio esperado en y para un cambio de una unidad en x _j cuando las otras covariables se mantienen fijas, es decir, el valor esperado de la derivada parcial de y con respecto a x _j . Esto a veces se denomina el efecto único de x _j sobre y . En contraste, el efecto marginal de x _j sobre y se puede evaluar utilizando un coeficiente de correlación o un modelo de regresión lineal simple que relacione solo x _j con y ; este efecto es la derivada total de y con respecto a x _j .

Se debe tener cuidado al interpretar los resultados de la regresión, ya que algunos de los regresores pueden no permitir cambios marginales (como las variables ficticias o el término de intersección), mientras que otros no pueden mantenerse fijos (recuerde el ejemplo de la introducción: sería imposible "mantener t _i fijo" y al mismo tiempo cambiar el valor de t _i² ).

Es posible que el efecto único sea casi cero incluso cuando el efecto marginal es grande. Esto puede implicar que alguna otra covariable captura toda la información en x _j , de modo que una vez que esa variable está en el modelo, no hay contribución de x _j a la variación en y . Por el contrario, el efecto único de x _j puede ser grande mientras que su efecto marginal es casi cero. Esto sucedería si las otras covariables explicaran gran parte de la variación de y , pero explican principalmente la variación de una manera que es complementaria a lo que es capturado por x _j . En este caso, incluir las otras variables en el modelo reduce la parte de la variabilidad de y que no está relacionada con x _j , fortaleciendo así la aparente relación con x _j .

El significado de la expresión "mantener fijo" puede depender de cómo surjan los valores de las variables predictoras. Si el experimentador establece directamente los valores de las variables predictoras según un diseño de estudio, las comparaciones de interés pueden corresponder literalmente a comparaciones entre unidades cuyas variables predictoras han sido "mantenidas fijas" por el experimentador. Alternativamente, la expresión "mantener fijo" puede referirse a una selección que tiene lugar en el contexto del análisis de datos. En este caso, "mantenemos una variable fija" al restringir nuestra atención a los subconjuntos de los datos que tienen un valor común para la variable predictora dada. Esta es la única interpretación de "mantener fijo" que se puede utilizar en un estudio observacional .

La noción de un "efecto único" resulta atractiva cuando se estudia un sistema complejo en el que múltiples componentes interrelacionados influyen en la variable de respuesta. En algunos casos, puede interpretarse literalmente como el efecto causal de una intervención que está vinculado al valor de una variable predictora. Sin embargo, se ha argumentado que en muchos casos el análisis de regresión múltiple no logra aclarar las relaciones entre las variables predictoras y la variable de respuesta cuando los predictores están correlacionados entre sí y no se asignan siguiendo un diseño de estudio. ^[9]

Extensiones

Se han desarrollado numerosas extensiones de la regresión lineal que permiten relajar algunos o todos los supuestos que subyacen al modelo básico.

Regresión lineal simple y múltiple

El caso más simple de una única variable predictora escalar x y una única variable de respuesta escalar y se conoce como regresión lineal simple . La extensión a variables predictoras de valores múltiples y/o vectoriales (indicadas con una X mayúscula ) se conoce como regresión lineal múltiple , también conocida como regresión lineal multivariable (que no debe confundirse con regresión lineal multivariable ). ^[10]

La regresión lineal múltiple es una generalización de la regresión lineal simple al caso de más de una variable independiente y un caso especial de los modelos lineales generales, restringido a una variable dependiente. El modelo básico de la regresión lineal múltiple es

Y_{i}=\beta _{0}+\beta _{1}X_{i1}+\beta _{2}X_{i2}+\ldots +\beta _{p}X_{ip}+\epsilon _{i}

para cada observación . ${\textstyle i=1,\ldots ,n}$

En la fórmula anterior, consideramos n observaciones de una variable dependiente y p variables independientes. Por lo tanto, Y _i es la i- ^ésima observación de la variable dependiente, X _ij es la i- ^ésima observación de la j ^-ésima variable independiente, j = 1, 2, ..., p . Los valores β _j representan los parámetros que se van a estimar y ε _i es el i ^-ésimo error normal independiente distribuido de forma idéntica.

En la regresión lineal multivariada más general, hay una ecuación de la forma anterior para cada una de m > 1 variables dependientes que comparten el mismo conjunto de variables explicativas y, por lo tanto, se estiman simultáneamente entre sí:

Y_{ij}=\beta _{0j}+\beta _{1j}X_{i1}+\beta _{2j}X_{i2}+\ldots +\beta _{pj}X_{ip}+\epsilon _{ij}

para todas las observaciones indexadas como i = 1, ..., n y para todas las variables dependientes indexadas como j = 1, ..., m .

Casi todos los modelos de regresión del mundo real involucran múltiples predictores, y las descripciones básicas de la regresión lineal a menudo se formulan en términos del modelo de regresión múltiple. Sin embargo, tenga en cuenta que en estos casos la variable de respuesta y sigue siendo un escalar. Otro término, regresión lineal multivariante , se refiere a los casos en los que y es un vector, es decir, lo mismo que la regresión lineal general .

Modelos lineales generales

El modelo lineal general considera la situación en la que la variable de respuesta no es un escalar (para cada observación) sino un vector, y _i . Se sigue suponiendo la linealidad condicional de , con una matriz B que reemplaza al vector β del modelo de regresión lineal clásico. Se han desarrollado análogos multivariados de los mínimos cuadrados ordinarios (MCO) y los mínimos cuadrados generalizados (MGL). Los "modelos lineales generales" también se denominan "modelos lineales multivariados". Estos no son lo mismo que los modelos lineales multivariados (también llamados "modelos lineales múltiples"). $E(\mathbf {y} \mid \mathbf {x} _{i})=\mathbf {x} _{i}^{\mathsf {T}}B$

Modelos heterocedásticos

Se han creado varios modelos que permiten la heterocedasticidad , es decir, los errores para diferentes variables de respuesta pueden tener diferentes varianzas . Por ejemplo, los mínimos cuadrados ponderados son un método para estimar modelos de regresión lineal cuando las variables de respuesta pueden tener diferentes varianzas de error, posiblemente con errores correlacionados. (Véase también Mínimos cuadrados lineales ponderados y Mínimos cuadrados generalizados ). Los errores estándar consistentes con la heterocedasticidad son un método mejorado para su uso con errores no correlacionados pero potencialmente heterocedásticos.

Modelos lineales generalizados

El modelo lineal generalizado (MLG) es un marco para modelar variables de respuesta acotadas o discretas. Se utiliza, por ejemplo:

al modelar cantidades positivas (por ejemplo, precios o poblaciones) que varían en una gran escala, que se describen mejor utilizando una distribución sesgada como la distribución log-normal o la distribución de Poisson (aunque los GLM no se utilizan para datos log-normales, en su lugar la variable de respuesta simplemente se transforma utilizando la función logaritmo);
al modelar datos categóricos , como la elección de un candidato determinado en una elección (que se describe mejor utilizando una distribución de Bernoulli / distribución binomial para elecciones binarias, o una distribución categórica / distribución multinomial para elecciones de múltiples vías), donde hay un número fijo de opciones que no se pueden ordenar de manera significativa;
al modelar datos ordinales , por ejemplo, calificaciones en una escala de 0 a 5, donde los diferentes resultados se pueden ordenar pero donde la cantidad en sí puede no tener ningún significado absoluto (por ejemplo, una calificación de 4 puede no ser "el doble de buena" en ningún sentido objetivo que una calificación de 2, sino que simplemente indica que es mejor que 2 o 3, pero no tan buena como 5).

Los modelos lineales generalizados permiten una función de enlace arbitraria , g , que relaciona la media de la(s) variable(s) de respuesta con los predictores: . La función de enlace suele estar relacionada con la distribución de la respuesta y, en particular, suele tener el efecto de transformar entre el rango del predictor lineal y el rango de la variable de respuesta. $E(Y)=g^{-1}(XB)$ $(-\infty ,\infty )$

Algunos ejemplos comunes de GLM son:

Regresión de Poisson para datos de recuento.
Regresión logística y regresión probit para datos binarios.
Regresión logística multinomial y regresión probit multinomial para datos categóricos.
Regresión logit ordenada y probit ordenada para datos ordinales.

Los modelos de índice único ^{[ aclaración necesaria ]} permiten cierto grado de no linealidad en la relación entre x e y , al tiempo que preservan el papel central del predictor lineal β ′ x como en el modelo de regresión lineal clásico. Bajo ciertas condiciones, simplemente aplicando MCO a los datos de un modelo de índice único se estimará β de manera consistente hasta una constante de proporcionalidad. ^[11]

Modelos lineales jerárquicos

Los modelos lineales jerárquicos (o regresión multinivel ) organizan los datos en una jerarquía de regresiones, por ejemplo, donde A se regresiona sobre B y B se regresiona sobre C. Se utiliza a menudo cuando las variables de interés tienen una estructura jerárquica natural, como en las estadísticas educativas, donde los estudiantes están anidados en aulas, las aulas están anidadas en escuelas y las escuelas están anidadas en alguna agrupación administrativa, como un distrito escolar. La variable de respuesta puede ser una medida del rendimiento del estudiante, como una puntuación de una prueba, y se recopilarían diferentes covariables a nivel de aula, escuela y distrito escolar.

Errores en las variables

Los modelos de errores en las variables (o "modelos de error de medición") amplían el modelo de regresión lineal tradicional para permitir que las variables predictoras X se observen con error. Este error hace que los estimadores estándar de β se vuelvan sesgados. Generalmente, la forma del sesgo es una atenuación, lo que significa que los efectos están sesgados hacia cero.

Efectos grupales

En un modelo de regresión lineal múltiple

y=\beta _{0}+\beta _{1}x_{1}+\cdots +\beta _{p}x_{p}+\varepsilon ,

El parámetro de la variable predictora representa el efecto individual de . Tiene una interpretación como el cambio esperado en la variable de respuesta cuando aumenta en una unidad con otras variables predictoras constantes. Cuando está fuertemente correlacionada con otras variables predictoras, es improbable que pueda aumentar en una unidad con otras variables constantes. En este caso, la interpretación de se vuelve problemática ya que se basa en una condición improbable y el efecto de no se puede evaluar de forma aislada. $\beta _{j}$ $x_{j}$ $x_{j}$ $y$ $x_{j}$ $x_{j}$ $x_{j}$ $\beta _{j}$ $x_{j}$

Para un grupo de variables predictoras, digamos, un efecto de grupo se define como una combinación lineal de sus parámetros. $\{x_{1},x_{2},\dots ,x_{q}\}$ $\xi (\mathbf {w} )$

\xi (\mathbf {w} )=w_{1}\beta _{1}+w_{2}\beta _{2}+\dots +w_{q}\beta _{q},

donde es un vector de peso que satisface . Debido a la restricción en , también se conoce como un efecto de grupo normalizado. Un efecto de grupo tiene una interpretación como el cambio esperado en cuando las variables en el grupo cambian en la cantidad , respectivamente, al mismo tiempo con otras variables (no en el grupo) mantenidas constantes. Generaliza el efecto individual de una variable a un grupo de variables en que ( ) si , entonces el efecto de grupo se reduce a un efecto individual, y ( ) si y para , entonces el efecto de grupo también se reduce a un efecto individual. Se dice que un efecto de grupo es significativo si los cambios simultáneos subyacentes de las variables son probables. $\mathbf {w} =(w_{1},w_{2},\dots ,w_{q})^{\intercal }$ ${\textstyle \sum _{j=1}^{q}|w_{j}|=1}$ ${w_{j}}$ $\xi (\mathbf {w} )$ $\xi (\mathbf {w} )$ $y$ $x_{1},x_{2},\dots ,x_{q}$ $w_{1},w_{2},\dots ,w_{q}$ $i$ $q=1$ $ii$ $w_{i}=1$ $w_{j}=0$ $j\neq i$ $\xi (\mathbf {w} )$ $q$ $(x_{1},x_{2},\dots ,x_{q})^{\intercal }$

Los efectos de grupo proporcionan un medio para estudiar el impacto colectivo de las variables predictoras fuertemente correlacionadas en los modelos de regresión lineal. Los efectos individuales de dichas variables no están bien definidos ya que sus parámetros no tienen buenas interpretaciones. Además, cuando el tamaño de la muestra no es grande, ninguno de sus parámetros puede estimarse con precisión mediante la regresión de mínimos cuadrados debido al problema de multicolinealidad . Sin embargo, hay efectos de grupo significativos que tienen buenas interpretaciones y pueden estimarse con precisión mediante la regresión de mínimos cuadrados. Una forma sencilla de identificar estos efectos de grupo significativos es utilizar una disposición de correlaciones positivas (APC) de las variables fuertemente correlacionadas bajo la cual las correlaciones por pares entre estas variables sean todas positivas, y estandarizar todas las variables predictoras en el modelo de modo que todas tengan media cero y longitud uno. Para ilustrar esto, supongamos que es un grupo de variables fuertemente correlacionadas en una disposición APC y que no están fuertemente correlacionadas con variables predictoras fuera del grupo. Sea centrado y estandarizado . Entonces, el modelo de regresión lineal estandarizado es $p$ $\{x_{1},x_{2},\dots ,x_{q}\}$ $y'$ $y$ $x_{j}'$ $x_{j}$

y'=\beta _{1}'x_{1}'+\cdots +\beta _{p}'x_{p}'+\varepsilon .

Los parámetros del modelo original, incluidos , son funciones simples de en el modelo estandarizado. La estandarización de las variables no cambia sus correlaciones, por lo que es un grupo de variables fuertemente correlacionadas en una disposición APC y no están fuertemente correlacionadas con otras variables predictoras en el modelo estandarizado. Un efecto de grupo de es $\beta _{j}$ $\beta _{0}$ $\beta _{j}'$ $\{x_{1}',x_{2}',\dots ,x_{q}'\}$ $\{x_{1}',x_{2}',\dots ,x_{q}'\}$

\xi '(\mathbf {w} )=w_{1}\beta _{1}'+w_{2}\beta _{2}'+\dots +w_{q}\beta _{q}',

y su estimador lineal imparcial de varianza mínima es

{\hat {\xi }}'(\mathbf {w} )=w_{1}{\hat {\beta }}_{1}'+w_{2}{\hat {\beta }}_{2}'+\dots +w_{q}{\hat {\beta }}_{q}',

donde es el estimador de mínimos cuadrados de . En particular, el efecto de grupo promedio de las variables estandarizadas es ${\hat {\beta }}_{j}'$ $\beta _{j}'$ $q$

\xi _{A}={\frac {1}{q}}(\beta _{1}'+\beta _{2}'+\dots +\beta _{q}'),

que tiene una interpretación como el cambio esperado en cuando todos en el grupo fuertemente correlacionado aumentan en th de una unidad al mismo tiempo con variables fuera del grupo mantenidas constantes. Con fuertes correlaciones positivas y en unidades estandarizadas, las variables en el grupo son aproximadamente iguales, por lo que es probable que aumenten al mismo tiempo y en una cantidad similar. Por lo tanto, el efecto promedio del grupo es un efecto significativo. Puede estimarse con precisión mediante su estimador lineal insesgado de varianza mínima , incluso cuando individualmente ninguno de los puede estimarse con precisión mediante . $y'$ $x_{j}'$ $(1/q)$ $\xi _{A}$ ${\textstyle {\hat {\xi }}_{A}={\frac {1}{q}}({\hat {\beta }}_{1}'+{\hat {\beta }}_{2}'+\dots +{\hat {\beta }}_{q}')}$ $\beta _{j}'$ ${\hat {\beta }}_{j}'$

No todos los efectos de grupo son significativos o pueden estimarse con precisión. Por ejemplo, es un efecto de grupo especial con pesos y para , pero no puede estimarse con precisión mediante . Tampoco es un efecto significativo. En general, para un grupo de variables predictoras fuertemente correlacionadas en un arreglo APC en el modelo estandarizado, los efectos de grupo cuyos vectores de peso están en o cerca del centro del símplex ( ) son significativos y pueden estimarse con precisión mediante sus estimadores lineales insesgados de varianza mínima. Los efectos con vectores de peso alejados del centro no son significativos ya que dichos vectores de peso representan cambios simultáneos de las variables que violan las fuertes correlaciones positivas de las variables estandarizadas en un arreglo APC. Como tales, no son probables. Estos efectos tampoco pueden estimarse con precisión. $\beta _{1}'$ $w_{1}=1$ $w_{j}=0$ $j\neq 1$ ${\hat {\beta }}'_{1}$ $q$ $\mathbf {w}$ ${\textstyle \sum _{j=1}^{q}w_{j}=1}$ $w_{j}\geq 0$

Las aplicaciones de los efectos de grupo incluyen (1) la estimación e inferencia de efectos de grupo significativos sobre la variable de respuesta, (2) la prueba de "significación de grupo" de las variables mediante la prueba versus , y (3) la caracterización de la región del espacio de la variable predictora sobre la cual las predicciones del modelo estimado por mínimos cuadrados son precisas. $q$ $H_{0}:\xi _{A}=0$ $H_{1}:\xi _{A}\neq 0$

Un efecto de grupo de las variables originales se puede expresar como una constante multiplicada por un efecto de grupo de las variables estandarizadas . El primero es significativo cuando lo es el segundo. Por lo tanto, los efectos de grupo significativos de las variables originales se pueden encontrar a través de los efectos de grupo significativos de las variables estandarizadas. ^[12] $\{x_{1},x_{2},\dots ,x_{q}\}$ $\{x_{1}',x_{2}',\dots ,x_{q}'\}$

Otros

En la teoría de Dempster-Shafer , o en particular en una función de creencia lineal , un modelo de regresión lineal puede representarse como una matriz parcialmente barrida, que puede combinarse con matrices similares que representan observaciones y otras distribuciones normales y ecuaciones de estado supuestas. La combinación de matrices barridas o no barridas proporciona un método alternativo para estimar modelos de regresión lineal.

Métodos de estimación

Se ha desarrollado una gran cantidad de procedimientos para la estimación e inferencia de parámetros en la regresión lineal. Estos métodos difieren en la simplicidad computacional de los algoritmos, la presencia de una solución de forma cerrada , la robustez con respecto a las distribuciones de cola pesada y los supuestos teóricos necesarios para validar propiedades estadísticas deseables, como la consistencia y la eficiencia asintótica .

A continuación se resumen algunas de las técnicas de estimación más comunes para la regresión lineal.

Estimación de mínimos cuadrados y técnicas relacionadas

Suponiendo que las variables independientes son y los parámetros del modelo son , entonces la predicción del modelo sería ${\vec {x_{i}}}=\left[x_{1}^{i},x_{2}^{i},\ldots ,x_{m}^{i}\right]$ ${\vec {\beta }}=\left[\beta _{0},\beta _{1},\ldots ,\beta _{m}\right]$

y_{i}\approx \beta _{0}+\sum _{j=1}^{m}\beta _{j}\times x_{j}^{i}

Si se extiende a entonces se convertiría en un producto escalar del parámetro y los vectores independientes, es decir ${\vec {x_{i}}}$ ${\vec {x_{i}}}=\left[1,x_{1}^{i},x_{2}^{i},\ldots ,x_{m}^{i}\right]$ $y_{i}$

y_{i}\approx \sum _{j=0}^{m}\beta _{j}\times x_{j}^{i}={\vec {\beta }}\cdot {\vec {x_{i}}}

En la configuración de mínimos cuadrados, el vector de parámetros óptimo se define como aquel que minimiza la suma de la pérdida cuadrática media:

{\vec {\hat {\beta }}}={\underset {\vec {\beta }}{\mbox{arg min}}}\,L\left(D,{\vec {\beta }}\right)={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}\left({\vec {\beta }}\cdot {\vec {x_{i}}}-y_{i}\right)^{2}

Ahora, al colocar las variables independientes y dependientes en matrices y respectivamente, la función de pérdida se puede reescribir como: $X$ $Y$

{\begin{aligned}L\left(D,{\vec {\beta }}\right)&=\|X{\vec {\beta }}-Y\|^{2}\\&=\left(X{\vec {\beta }}-Y\right)^{\textsf {T}}\left(X{\vec {\beta }}-Y\right)\\&=Y^{\textsf {T}}Y-Y^{\textsf {T}}X{\vec {\beta }}-{\vec {\beta }}^{\textsf {T}}X^{\textsf {T}}Y+{\vec {\beta }}^{\textsf {T}}X^{\textsf {T}}X{\vec {\beta }}\end{aligned}}

Como la función de pérdida es convexa , la solución óptima se encuentra en el gradiente cero. El gradiente de la función de pérdida es (usando la convención de diseño del denominador ):

{\begin{aligned}{\frac {\partial L\left(D,{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}&={\frac {\partial \left(Y^{\textsf {T}}Y-Y^{\textsf {T}}X{\vec {\beta }}-{\vec {\beta }}^{\textsf {T}}X^{\textsf {T}}Y+{\vec {\beta }}^{\textsf {T}}X^{\textsf {T}}X{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}\\&=-2X^{\textsf {T}}Y+2X^{\textsf {T}}X{\vec {\beta }}\end{aligned}}

Establecer el gradiente en cero produce el parámetro óptimo:

{\begin{aligned}-2X^{\textsf {T}}Y+2X^{\textsf {T}}X{\vec {\beta }}&=0\\\Rightarrow X^{\textsf {T}}X{\vec {\beta }}&=X^{\textsf {T}}Y\\\Rightarrow {\vec {\hat {\beta }}}&=\left(X^{\textsf {T}}X\right)^{-1}X^{\textsf {T}}Y\end{aligned}}

Nota: El resultado obtenido puede ser, de hecho, el mínimo local, pero es necesario derivar una vez más para obtener la matriz hessiana y demostrar que es definida positiva. Esto lo proporciona el teorema de Gauss-Markov . ${\hat {\beta }}$

Los métodos de mínimos cuadrados lineales incluyen principalmente:

Estimación de máxima verosimilitud y técnicas relacionadas

Estimación de máxima verosimilitud

La estimación de máxima verosimilitud se puede realizar cuando se sabe que la distribución de los términos de error pertenece a una determinada familia paramétrica ƒ _θ de distribuciones de probabilidad . ^[15] Cuando f _{θ es una distribución normal con}media cero y varianza θ, la estimación resultante es idéntica a la estimación MCO. Las estimaciones GLS son estimaciones de máxima verosimilitud cuando ε sigue una distribución normal multivariante con una matriz de covarianza conocida . Denotemos cada punto de datos por y los parámetros de regresión como , y el conjunto de todos los datos por y la función de costo por . $({\vec {x_{i}}},y_{i})$ ${\vec {\beta }}$ $D$ $L(D,{\vec {\beta }})=\sum _{i}({\vec {x_{i}}}-{\vec {\beta }})^{2}$

Como se muestra a continuación, el mismo parámetro óptimo que minimiza también logra la máxima verosimilitud. ^[16] Aquí se supone que la variable dependiente es una variable aleatoria que sigue una distribución gaussiana , donde la desviación estándar es fija y la media es una combinación lineal de : $L(D,{\vec {\beta }})$ $y$ ${\vec {x}}$ ${\begin{aligned}H(D,{\vec {\beta }})&=\prod _{i=1}^{n}Pr(y_{i}|{\vec {x_{i}}}\,\,;{\vec {\beta }},\sigma )\\&=\prod _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}}{2\sigma ^{2}}}\right)\end{aligned}}$

Ahora, necesitamos buscar un parámetro que maximice esta función de verosimilitud. Dado que la función logarítmica es estrictamente creciente, en lugar de maximizar esta función, también podemos maximizar su logaritmo y encontrar el parámetro óptimo de esa manera. ^[16]

${\begin{aligned}I(D,{\vec {\beta }})&=\log \prod _{i=1}^{n}Pr(y_{i}|{\vec {x_{i}}}\,\,;{\vec {\beta }},\sigma )\\&=\log \prod _{i=1}^{n}{\frac {1}{{\sqrt {2\pi }}\sigma }}\exp \left(-{\frac {\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}}{2\sigma ^{2}}}\right)\\&=n\log {\frac {1}{{\sqrt {2\pi }}\sigma }}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}\end{aligned}}$

El parámetro óptimo es entonces igual a: ^[16]

${\begin{aligned}{\underset {\vec {\beta }}{\mbox{arg max}}}\,I(D,{\vec {\beta }})&={\underset {\vec {\beta }}{\mbox{arg max}}}\left(n\log {\frac {1}{{\sqrt {2\pi }}\sigma }}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}\right)\\&={\underset {\vec {\beta }}{\mbox{arg min}}}\sum _{i=1}^{n}\left(y_{i}-{\vec {\beta }}\,.\,{\vec {x_{i}}}\right)^{2}\\&={\underset {\vec {\beta }}{\mbox{arg min}}}\,L(D,{\vec {\beta }})\\&={\vec {\hat {\beta }}}\end{aligned}}$

De esta manera, el parámetro que maximiza es el mismo que el que minimiza . Esto significa que en la regresión lineal, el resultado del método de mínimos cuadrados es el mismo que el resultado del método de estimación de máxima verosimilitud. ^[16] $H(D,{\vec {\beta }})$ $L(D,{\vec {\beta }})$

Regresión regularizada

La regresión de cresta ^[17]^[18]^[19] y otras formas de estimación penalizada, como la regresión Lasso ^[5] , introducen deliberadamente sesgo en la estimación de β para reducir la variabilidad de la estimación. Las estimaciones resultantes generalmente tienen un error cuadrático medio menor que las estimaciones MCO, en particular cuando hay multicolinealidad o cuando el sobreajuste es un problema. Generalmente se utilizan cuando el objetivo es predecir el valor de la variable de respuesta y para valores de los predictores x que aún no se han observado. Estos métodos no se utilizan tan comúnmente cuando el objetivo es la inferencia, ya que es difícil tener en cuenta el sesgo.

Desviación mínima absoluta

La regresión de desviación mínima absoluta (LAD) es una técnica de estimación robusta , ya que es menos sensible a la presencia de valores atípicos que la regresión de desviación mínima absoluta (MCO) (pero es menos eficiente que la regresión de desviación mínima absoluta cuando no hay valores atípicos). Es equivalente a la estimación de máxima verosimilitud bajo un modelo de distribución de Laplace para ε . ^[20]

Estimación adaptativa

Si asumimos que los términos de error son independientes de los regresores , entonces el estimador óptimo es el MLE de 2 pasos, donde el primer paso se utiliza para estimar de forma no paramétrica la distribución del término de error. ^[21] $\varepsilon _{i}\perp \mathbf {x} _{i}$

Otras técnicas de estimación

La regresión lineal bayesiana aplica el marco de las estadísticas bayesianas a la regresión lineal. (Véase también regresión lineal multivariante bayesiana .) En particular, se supone que los coeficientes de regresión β son variables aleatorias con una distribución previa especificada . La distribución previa puede sesgar las soluciones para los coeficientes de regresión, de una manera similar a (pero más general que) la regresión de cresta o la regresión lasso . Además, el proceso de estimación bayesiana no produce una única estimación puntual para los "mejores" valores de los coeficientes de regresión, sino una distribución posterior completa , que describe por completo la incertidumbre que rodea a la cantidad. Esto se puede utilizar para estimar los "mejores" coeficientes utilizando la media, la moda, la mediana, cualquier cuartil (véase regresión cuantil ), o cualquier otra función de la distribución posterior.
La regresión cuantil se centra en los cuantiles condicionales de y dado X en lugar de en la media condicional de y dado X. La regresión cuantil lineal modela un cuantil condicional particular, por ejemplo la mediana condicional, como una función lineal β^Tx de los predictores.
Los modelos mixtos se utilizan ampliamente para analizar relaciones de regresión lineal que involucran datos dependientes cuando las dependencias tienen una estructura conocida. Las aplicaciones comunes de los modelos mixtos incluyen el análisis de datos que involucran mediciones repetidas, como datos longitudinales o datos obtenidos a partir de un muestreo por conglomerados. Por lo general, se ajustan como modelos paramétricos , utilizando la máxima verosimilitud o la estimación bayesiana. En el caso en que los errores se modelan como variables aleatorias normales , existe una estrecha conexión entre los modelos mixtos y los mínimos cuadrados generalizados.^[22] La estimación de efectos fijos es un enfoque alternativo para analizar este tipo de datos.
La regresión de componentes principales (PCR)^[7]^[8] se utiliza cuando el número de variables predictoras es grande o cuando existen correlaciones fuertes entre las variables predictoras. Este procedimiento de dos etapas primero reduce las variables predictoras mediante el análisis de componentes principales y luego utiliza las variables reducidas en un ajuste de regresión MCO. Si bien a menudo funciona bien en la práctica, no existe una razón teórica general para que la función lineal más informativa de las variables predictoras deba encontrarse entre los componentes principales dominantes de la distribución multivariada de las variables predictoras. La regresión de mínimos cuadrados parciales es la extensión del método PCR que no sufre la deficiencia mencionada.
La regresión de ángulo mínimo^[6] es un procedimiento de estimación para modelos de regresión lineal que se desarrolló para manejar vectores de covariables de alta dimensión, potencialmente con más covariables que observaciones.
El estimador de Theil-Sen es una técnica de estimación robusta y simple que elige la pendiente de la línea de ajuste como la mediana de las pendientes de las líneas a través de pares de puntos de muestra. Tiene propiedades de eficiencia estadística similares a la regresión lineal simple, pero es mucho menos sensible a los valores atípicos . ^[23]
Se han introducido otras técnicas de estimación robustas, incluido el enfoque de media recortada α y los estimadores L, M, S y R.

Aplicaciones

La regresión lineal se utiliza ampliamente en las ciencias biológicas, sociales y del comportamiento para describir posibles relaciones entre variables. Se considera una de las herramientas más importantes que se utilizan en estas disciplinas.

Línea de tendencia

Una línea de tendencia representa una tendencia, el movimiento a largo plazo en los datos de series temporales después de que se hayan tenido en cuenta otros componentes. Indica si un conjunto de datos en particular (por ejemplo, el PIB, los precios del petróleo o los precios de las acciones) ha aumentado o disminuido a lo largo del tiempo. Una línea de tendencia se puede dibujar simplemente a simple vista a través de un conjunto de puntos de datos, pero su posición y pendiente se calculan de manera más adecuada utilizando técnicas estadísticas como la regresión lineal. Las líneas de tendencia suelen ser líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado según el grado de curvatura deseado en la línea.

Las líneas de tendencia se utilizan a veces en el análisis empresarial para mostrar cambios en los datos a lo largo del tiempo. Esto tiene la ventaja de ser simple. Las líneas de tendencia se utilizan a menudo para argumentar que una acción o un evento en particular (como una capacitación o una campaña publicitaria) causó cambios observados en un momento determinado. Esta es una técnica simple y no requiere un grupo de control, un diseño experimental ni una técnica de análisis sofisticada. Sin embargo, carece de validez científica en los casos en que otros cambios potenciales pueden afectar los datos.

Epidemiología

Las primeras evidencias que relacionan el tabaquismo con la mortalidad y la morbilidad provienen de estudios observacionales que emplean análisis de regresión. Para reducir las correlaciones espurias al analizar datos observacionales, los investigadores suelen incluir varias variables en sus modelos de regresión además de la variable de interés principal. Por ejemplo, en un modelo de regresión en el que el tabaquismo es la variable independiente de interés principal y la variable dependiente es la esperanza de vida medida en años, los investigadores pueden incluir la educación y los ingresos como variables independientes adicionales, para asegurar que cualquier efecto observado del tabaquismo en la esperanza de vida no se deba a esos otros factores socioeconómicos . Sin embargo, nunca es posible incluir todas las posibles variables de confusión en un análisis empírico. Por ejemplo, un gen hipotético podría aumentar la mortalidad y también hacer que las personas fumen más. Por esta razón, los ensayos controlados aleatorios a menudo pueden generar evidencia más convincente de relaciones causales que las que se pueden obtener utilizando análisis de regresión de datos observacionales. Cuando los experimentos controlados no son factibles, se pueden utilizar variantes del análisis de regresión, como la regresión de variables instrumentales , para intentar estimar las relaciones causales a partir de datos observacionales.

Finanzas

El modelo de valoración de activos de capital utiliza la regresión lineal, así como el concepto de beta, para analizar y cuantificar el riesgo sistemático de una inversión. Esto proviene directamente del coeficiente beta del modelo de regresión lineal que relaciona el rendimiento de la inversión con el rendimiento de todos los activos de riesgo.

Ciencias económicas

La regresión lineal es la herramienta empírica predominante en economía . Por ejemplo, se utiliza para predecir el gasto de consumo , ^{[24] el gasto} en inversión fija , la inversión en inventarios , las compras de exportaciones de un país , ^[25] el gasto en importaciones , ^[25] la demanda de activos líquidos , ^[26] la demanda de mano de obra , ^[27] y la oferta de mano de obra . ^[27]

Ciencia ambiental

La regresión lineal se utiliza en una amplia gama de aplicaciones de las ciencias ambientales, como el uso de la tierra , ^[28] las enfermedades infecciosas , ^[29] y la contaminación del aire . ^[30] Por ejemplo, la regresión lineal se puede utilizar para predecir los efectos cambiantes de la contaminación de los automóviles. ^[31]

Ciencia de la construcción

La regresión lineal se utiliza habitualmente en los estudios de campo de la ciencia de la construcción para derivar las características de los ocupantes de los edificios. En un estudio de campo de confort térmico , los científicos de la construcción suelen pedir a los ocupantes sus votos sobre la sensación térmica, que van desde -3 (sensación de frío) a 0 (neutral) a +3 (sensación de calor), y miden los datos de temperatura circundante de los ocupantes. Se puede calcular una temperatura neutra o de confort basándose en una regresión lineal entre el voto sobre la sensación térmica y la temperatura interior, y estableciendo el voto sobre la sensación térmica como cero. Sin embargo, ha habido un debate sobre la dirección de la regresión: regresión de los votos sobre la sensación térmica (eje y) frente a la temperatura interior (eje x) o lo contrario: regresión de la temperatura interior (eje y) frente a los votos sobre la sensación térmica (eje x). ^[32]

Aprendizaje automático

La regresión lineal desempeña un papel importante en el subcampo de la inteligencia artificial conocido como aprendizaje automático . El algoritmo de regresión lineal es uno de los algoritmos fundamentales de aprendizaje automático supervisado debido a su relativa simplicidad y sus propiedades bien conocidas. ^[33]

Historia

Legendre (1805) y Gauss (1809) utilizaron la regresión lineal de mínimos cuadrados como medio para encontrar un buen ajuste lineal aproximado a un conjunto de puntos para predecir el movimiento planetario. Quetelet fue el responsable de dar a conocer el procedimiento y de utilizarlo ampliamente en las ciencias sociales. ^[34]

Véase también

Referencias

Citas

^ Freedman, David A. (2009). Modelos estadísticos: teoría y práctica . Cambridge University Press . pág. 26. Una ecuación de regresión simple tiene en el lado derecho una intersección y una variable explicativa con un coeficiente de pendiente. Una regresión múltiple tiene en el lado derecho, cada una con su propio coeficiente de pendiente.
^ Rencher, Alvin C.; Christensen, William F. (2012), "Capítulo 10, Regresión multivariante – Sección 10.1, Introducción", Métodos de análisis multivariante, Wiley Series in Probability and Statistics, vol. 709 (3.ª ed.), John Wiley & Sons, pág. 19, ISBN 9781118391679, archivado desde el original el 4 de octubre de 2024 , consultado el 7 de febrero de 2015.
^ "Regresión lineal en el aprendizaje automático". GeeksforGeeks . 2018-09-13. Archivado desde el original el 2024-10-04 . Consultado el 2024-08-25 .
^ Yan, Xin (2009), Análisis de regresión lineal: teoría y computación, World Scientific, págs. 1–2, ISBN 9789812834119, archivado desde el original el 2024-10-04 , consultado el 2015-02-07 , Análisis de regresión ... es probablemente uno de los temas más antiguos de la estadística matemática que se remonta a hace unos doscientos años. La primera forma de la regresión lineal fue el método de mínimos cuadrados, que fue publicado por Legendre en 1805 y por Gauss en 1809 ... Legendre y Gauss aplicaron el método al problema de determinar, a partir de observaciones astronómicas, las órbitas de los cuerpos alrededor del sol.
^ ab Tibshirani, Robert (1996). "Contracción de la regresión y selección mediante el método Lasso". Revista de la Royal Statistical Society, Serie B. 58 ( 1): 267–288. doi :10.1111/j.2517-6161.1996.tb02080.x. JSTOR 2346178.
^ ab Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Regresión de ángulo mínimo". Anales de estadística . 32 (2): 407–451. arXiv : math/0406456 . doi :10.1214/009053604000000067. JSTOR 3448465. S2CID 204004121.
^ ab Hawkins, Douglas M. (1973). "Sobre la investigación de regresiones alternativas mediante análisis de componentes principales". Revista de la Royal Statistical Society, Serie C. 22 ( 3): 275–286. doi :10.2307/2346776. JSTOR 2346776.
^ ab Jolliffe, Ian T. (1982). "Una nota sobre el uso de componentes principales en regresión". Journal of the Royal Statistical Society, Serie C . 31 (3): 300–303. doi :10.2307/2348005. JSTOR 2348005.
^ Berk, Richard A. (2007). "Análisis de regresión: una crítica constructiva". Revista de Justicia Penal . 32 (3): 301–302. doi :10.1177/0734016807304871. S2CID 145389362.
^ Hidalgo, Bertha; Goodman, Melody (15 de noviembre de 2012). "¿Regresión multivariable o multivariable?". American Journal of Public Health . 103 (1): 39–40. doi :10.2105/AJPH.2012.300897. ISSN 0090-0036. PMC 3518362 . PMID 23153131.
^ Brillinger, David R. (1977). "La identificación de un sistema particular de series temporales no lineales". Biometrika . 64 (3): 509–515. doi :10.1093/biomet/64.3.509. JSTOR 2345326.
^ Tsao, Min (2022). "Regresión de mínimos cuadrados grupales para modelos lineales con variables predictoras fuertemente correlacionadas". Anales del Instituto de Matemática Estadística . 75 (2): 233–250. arXiv : 1804.02499 . doi :10.1007/s10463-022-00841-7. S2CID 237396158.
^ Galton, Francis (1886). "Regresión hacia la mediocridad en la estatura hereditaria". Revista del Instituto Antropológico de Gran Bretaña e Irlanda . 15 : 246–263. doi :10.2307/2841583. ISSN 0959-5295. JSTOR 2841583.
^ Britzger, Daniel (2022). "El ajuste lineal de la plantilla". Eur. Phys. J. C . 82 (8): 731. arXiv : 2112.01548 . Código Bibliográfico :2022EPJC...82..731B. doi :10.1140/epjc/s10052-022-10581-w. S2CID 244896511.
^ Lange, Kenneth L.; Little, Roderick JA; Taylor, Jeremy MG (1989). "Modelado estadístico robusto utilizando la distribución t" (PDF) . Revista de la Asociación Estadounidense de Estadística . 84 (408): 881–896. doi :10.2307/2290063. JSTOR 2290063. Archivado (PDF) desde el original el 2024-10-04 . Consultado el 2019-09-02 .
^ abcd Aprendizaje automático: una perspectiva probabilística Archivado el 4 de noviembre de 2018 en Wayback Machine , Kevin P Murphy, 2012, pág. 217, Cambridge, MA
^ Swindel, Benee F. (1981). "Geometría de la regresión de cresta ilustrada". The American Statistician . 35 (1): 12–15. doi :10.2307/2683577. JSTOR 2683577.
^ Draper, Norman R.; van Nostrand; R. Craig (1979). "Regresión de Ridge y estimación de James-Stein: revisión y comentarios". Technometrics . 21 (4): 451–466. doi :10.2307/1268284. JSTOR 1268284.
^ Hoerl, Arthur E.; Kennard, Robert W.; Hoerl, Roger W. (1985). "Uso práctico de la regresión de cresta: un desafío superado". Revista de la Royal Statistical Society, Serie C . 34 (2): 114–120. JSTOR 2347363.
^ Narula, Subhash C.; Wellington, John F. (1982). "La regresión de la suma mínima de errores absolutos: un estudio de vanguardia". Revista estadística internacional . 50 (3): 317–326. doi :10.2307/1402501. JSTOR 1402501.
^ Stone, CJ (1975). "Estimadores adaptativos de máxima verosimilitud de un parámetro de ubicación". Anales de estadística . 3 (2): 267–284. doi : 10.1214/aos/1176343056 . JSTOR 2958945.
^ Goldstein, H. (1986). "Análisis de modelos lineales mixtos multinivel mediante mínimos cuadrados generalizados iterativos". Biometrika . 73 (1): 43–56. doi :10.1093/biomet/73.1.43. JSTOR 2336270.
^ Theil, H. (1950). "Un método de análisis de regresión lineal y polinomial invariante en cuanto a rango. I, II, III". Nederl. Akad. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. MR 0036489.; Sen, Pranab Kumar (1968). "Estimaciones del coeficiente de regresión basadas en la tau de Kendall". Revista de la Asociación Estadounidense de Estadística . 63 (324): 1379–1389. doi :10.2307/2285891. JSTOR 2285891. MR 0258201..
^ Deaton, Angus (1992). Entender el consumo . Oxford University Press. ISBN 978-0-19-828824-4.
^ ab Krugman, Paul R. ; Obstfeld, M. ; Melitz, Marc J. (2012). Economía internacional: teoría y política (novena edición global). Harlow: Pearson. ISBN 9780273754091.
^ Laidler, David EW (1993). La demanda de dinero: teorías, evidencias y problemas (4.ª ed.). Nueva York: Harper Collins. ISBN 978-0065010985.
^ ab Ehrenberg; Smith (2008). Modern Labor Economics (10.ª edición internacional). Londres: Addison-Wesley. ISBN 9780321538963.
^ Hoek, Gerard; Beelen, Rob; de Hoogh, Kees; Vienneau, Danielle; Gulliver, John; Fischer, Paul; Briggs, David (1 de octubre de 2008). "Una revisión de los modelos de regresión del uso del suelo para evaluar la variación espacial de la contaminación del aire exterior". Atmospheric Environment . 42 (33): 7561–7578. Bibcode :2008AtmEn..42.7561H. doi :10.1016/j.atmosenv.2008.05.057. ISSN 1352-2310.
^ Imai, Chisato; Hashizume, Masahiro (2015). "Una revisión sistemática de la metodología: análisis de regresión de series temporales para factores ambientales y enfermedades infecciosas". Medicina Tropical y Salud . 43 (1): 1–9. doi :10.2149/tmh.2014-21. hdl : 10069/35301 . PMC 4361341 . PMID 25859149. Archivado desde el original el 2024-10-04 . Consultado el 2024-02-03 .
^ Milionis, AE; Davies, TD (1994-09-01). "Modelos de regresión y estocásticos para la contaminación del aire—I. Revisión, comentarios y sugerencias". Atmospheric Environment . 28 (17): 2801–2810. Bibcode :1994AtmEn..28.2801M. doi :10.1016/1352-2310(94)90083-3. ISSN 1352-2310. Archivado desde el original el 2024-10-04 . Consultado el 2024-05-07 .
^ Hoffman, Szymon; Filak, Mariusz; Jasiński, Rafal (8 de diciembre de 2024). "Modelado de la calidad del aire con el uso de redes neuronales de regresión". Int J Environ Res Public Health . 19 (24): 16494. doi : 10.3390/ijerph192416494 . PMC 9779138 . PMID 36554373.
^ Sun, Ruiji; Schiavon, Stefano; Brager, Gail; Arens, Edward; Zhang, Hui; Parkinson, Thomas; Zhang, Chenlu (2024). "Pensamiento causal: Descubrimiento de suposiciones e interpretaciones ocultas del análisis estadístico en la ciencia de la construcción". Construcción y medio ambiente . 259 . doi : 10.1016/j.buildenv.2024.111530 .
^ "Regresión lineal (aprendizaje automático)" (PDF) . Universidad de Pittsburgh . Archivado (PDF) desde el original el 2017-02-02 . Consultado el 2018-06-21 .
^ Stigler, Stephen M. (1986). Historia de la estadística: la medición de la incertidumbre antes de 1900. Cambridge: Harvard. ISBN 0-674-40340-1.

Fuentes

Cohen, J., Cohen P., West, SG y Aiken, LS (2003). Análisis de correlación/regresión múltiple aplicado a las ciencias del comportamiento Archivado el 4 de octubre de 2024 en Wayback Machine . (2.ª ed.) Hillsdale, Nueva Jersey: Lawrence Erlbaum Associates
Charles Darwin . La variación de los animales y las plantas bajo domesticación . (1868) (El capítulo XIII describe lo que se sabía sobre la reversión en la época de Galton. Darwin utiliza el término "reversión").
Draper, NR; Smith, H. (1998). Análisis de regresión aplicada (3.ª ed.). John Wiley. ISBN 978-0-471-17082-2.
Francis Galton. "Regresión hacia la mediocridad en la estatura hereditaria", Journal of the Anthropological Institute , 15:246–263 (1886). (Facsímil en: [1] Archivado el 10 de marzo de 2016 en Wayback Machine )
Robert S. Pindyck y Daniel L. Rubinfeld (1998, 4ª ed.). Modelos econométricos y pronósticos económicos , cap. 1 (Introducción, incluidos apéndices sobre operadores Σ y derivación de estimaciones de parámetros) y Apéndice 4.3 (regresión múltiple en forma de matriz).

Lectura adicional

Pedhazur, Elazar J (1982). Regresión múltiple en la investigación del comportamiento: explicación y predicción (2.ª ed.). Nueva York: Holt, Rinehart y Winston. ISBN 978-0-03-041760-3.
Mathieu Rouaud, 2013: Probabilidad, estadística y estimación Capítulo 2: Regresión lineal, regresión lineal con barras de error y regresión no lineal.
Laboratorio Nacional de Física (1961). "Capítulo 1: Ecuaciones lineales y matrices: métodos directos". Métodos de computación modernos . Notas sobre ciencia aplicada. Vol. 16 (2.ª ed.). Her Majesty's Stationery Office .

Enlaces externos

Wikiversidad tiene recursos de aprendizaje sobre regresión lineal

El Wikilibro Programación R tiene una página sobre el tema: Modelos lineales

Wikimedia Commons tiene medios relacionados con Regresión lineal .

Regresión de mínimos cuadrados, simulaciones interactivas de PhET , Universidad de Colorado en Boulder
Ajuste lineal DIY