stringtranslate.com

Regresión lineal

En estadística , la regresión lineal es un modelo estadístico que estima la relación lineal entre una respuesta escalar y una o más variables explicativas (también conocidas como variables dependientes e independientes ). El caso de una variable explicativa se denomina regresión lineal simple ; para más de uno, el proceso se llama regresión lineal múltiple . [1] Este término es distinto de la regresión lineal multivariada , donde se predicen múltiples variables dependientes correlacionadas , en lugar de una única variable escalar. [2] Si las variables explicativas se miden con error, entonces se requieren modelos de errores en las variables , también conocidos como modelos de error de medición.

En la regresión lineal, las relaciones se modelan utilizando funciones predictoras lineales cuyos parámetros desconocidos del modelo se estiman a partir de los datos . Estos modelos se denominan modelos lineales . [3] Más comúnmente, se supone que la media condicional de la respuesta dados los valores de las variables explicativas (o predictores) es una función afín de esos valores; con menor frecuencia se utiliza la mediana condicional o algún otro cuantil . Como todas las formas de análisis de regresión , la regresión lineal se centra en la distribución de probabilidad condicional de la respuesta dados los valores de los predictores, en lugar de en la distribución de probabilidad conjunta de todas estas variables, que es el dominio del análisis multivariado .

La regresión lineal fue el primer tipo de análisis de regresión que se estudió rigurosamente y se utilizó ampliamente en aplicaciones prácticas. [4] Esto se debe a que los modelos que dependen linealmente de sus parámetros desconocidos son más fáciles de ajustar que los modelos que no están relacionados linealmente con sus parámetros y porque las propiedades estadísticas de los estimadores resultantes son más fáciles de determinar.

La regresión lineal tiene muchos usos prácticos. La mayoría de las aplicaciones se clasifican en una de las dos categorías amplias siguientes:

Los modelos de regresión lineal a menudo se ajustan utilizando el enfoque de mínimos cuadrados , pero también se pueden ajustar de otras maneras, como minimizando la " falta de ajuste " en alguna otra norma (como ocurre con la regresión de mínimas desviaciones absolutas ), o minimizando una penalización. versión de la función de costo de mínimos cuadrados como en la regresión de cresta ( penalización normal L 2 ) y lazo ( penalización normal L 1 ). El uso del error cuadrático medio (MSE) como costo en un conjunto de datos que tiene muchos valores atípicos grandes puede dar como resultado un modelo que se ajuste a los valores atípicos más que a los datos verdaderos debido a la mayor importancia asignada por el MSE a los errores grandes. Por lo tanto, se deben utilizar funciones de costos que sean resistentes a los valores atípicos si el conjunto de datos tiene muchos valores atípicos grandes . Por el contrario, el enfoque de mínimos cuadrados se puede utilizar para ajustar modelos que no son lineales. Por tanto, aunque los términos "mínimos cuadrados" y "modelo lineal" están estrechamente relacionados, no son sinónimos.

Formulación

En la regresión lineal, se supone que las observaciones ( rojo ) son el resultado de desviaciones aleatorias ( verde ) de una relación subyacente ( azul ) entre una variable dependiente ( y ) y una variable independiente ( x ).

Dado un conjunto de datos de n unidades estadísticas , un modelo de regresión lineal supone que la relación entre la variable dependiente y y el vector de regresores x es lineal . Esta relación se modela mediante un término de perturbación o variable de error ε , una variable aleatoria no observada que añade "ruido" a la relación lineal entre la variable dependiente y los regresores. Así el modelo toma la forma

Ttranspuestax i T βproducto internolos vectores x iβ

A menudo, estas n ecuaciones se apilan juntas y se escriben en notación matricial como

dónde

Notación y terminología

Ajustar un modelo lineal a un conjunto de datos dado generalmente requiere estimar los coeficientes de regresión de manera que se minimice el término de error . Por ejemplo, es común utilizar la suma de errores al cuadrado como medida de minimización.

Ejemplo

Considere una situación en la que se lanza una pequeña pelota al aire y luego medimos sus alturas de ascenso h i en varios momentos en el tiempo ti . La física nos dice que, ignorando el arrastre, la relación se puede modelar como

donde β 1 determina la velocidad inicial de la pelota, β 2 es proporcional a la gravedad estándar y ε i se debe a errores de medición. Se puede utilizar la regresión lineal para estimar los valores de β 1 y β 2 a partir de los datos medidos. Este modelo es no lineal en la variable tiempo, pero sí lineal en los parámetros β 1 y β 2 ; si tomamos regresores x i  = ( x i 1 , x i 2 ) = ( t i , t i 2 ), el modelo toma la forma estándar

Suposiciones

Los modelos de regresión lineal estándar con técnicas de estimación estándar hacen una serie de supuestos sobre las variables predictoras, las variables de respuesta y su relación. Se han desarrollado numerosas extensiones que permiten relajar cada uno de estos supuestos (es decir, reducirlos a una forma más débil) y, en algunos casos, eliminarlos por completo. Generalmente estas extensiones hacen que el procedimiento de estimación sea más complejo y requiere más tiempo, y también pueden requerir más datos para producir un modelo igualmente preciso. [ cita necesaria ]

Ejemplo de regresión polinómica cúbica, que es un tipo de regresión lineal. Aunque la regresión polinómica ajusta un modelo no lineal a los datos, como problema de estimación estadística es lineal, en el sentido de que la función de regresión E( y | x ) es lineal en los parámetros desconocidos que se estiman a partir de los datos . Por este motivo, la regresión polinomial se considera un caso especial de regresión lineal múltiple .

Los siguientes son los principales supuestos hechos por los modelos de regresión lineal estándar con técnicas de estimación estándar (por ejemplo, mínimos cuadrados ordinarios ):

Para comprobar si hay violaciones de los supuestos de linealidad, varianza constante e independencia de errores dentro de un modelo de regresión lineal, los residuos generalmente se trazan frente a los valores predichos (o cada uno de los predictores individuales). Una dispersión aparentemente aleatoria de puntos alrededor de la línea media horizontal en 0 es ideal, pero no puede descartar ciertos tipos de violaciones como la autocorrelación en los errores o su correlación con una o más covariables.

Las violaciones de estos supuestos pueden dar como resultado estimaciones sesgadas de β , errores estándar sesgados, intervalos de confianza no confiables y pruebas de significancia. [9] Más allá de estos supuestos, varias otras propiedades estadísticas de los datos influyen fuertemente en el rendimiento de diferentes métodos de estimación:

Interpretación

Los conjuntos de datos del cuarteto de Anscombe están diseñados para tener aproximadamente la misma línea de regresión lineal (así como medias, desviaciones estándar y correlaciones casi idénticas), pero gráficamente son muy diferentes. Esto ilustra los peligros de confiar únicamente en un modelo ajustado para comprender la relación entre variables.

Se puede utilizar un modelo de regresión lineal ajustado para identificar la relación entre una única variable predictora xj y la variable de respuesta y cuando todas las demás variables predictoras del modelo se "mantienen fijas". Específicamente, la interpretación de β j es el cambio esperado en y para un cambio de una unidad en x j cuando las otras covariables se mantienen fijas, es decir, el valor esperado de la derivada parcial de y con respecto a x j . A esto a veces se le llama efecto único de xj sobre y . Por el contrario, el efecto marginal de x j sobre y se puede evaluar utilizando un coeficiente de correlación o un modelo de regresión lineal simple que relacione sólo x j con y ; este efecto es la derivada total de y con respecto a x j .

Se debe tener cuidado al interpretar los resultados de la regresión, ya que algunos de los regresores pueden no permitir cambios marginales (como variables ficticias o el término del intercepto), mientras que otros no pueden mantenerse fijos (recuerde el ejemplo de la introducción: sería imposible para "mantener t i fijo" y al mismo tiempo cambiar el valor de t i 2 ).

Es posible que el efecto único sea casi nulo incluso cuando el efecto marginal sea grande. Esto puede implicar que alguna otra covariable capture toda la información en x j , de modo que una vez que esa variable esté en el modelo, no hay contribución de x j a la variación en y . Por el contrario, el efecto único de x j puede ser grande mientras que su efecto marginal es casi nulo. Esto sucedería si las otras covariables explicaran gran parte de la variación de y , pero explicaran principalmente la variación de una manera complementaria a la capturada por x j . En este caso, incluir las otras variables en el modelo reduce la parte de la variabilidad de y que no está relacionada con x j , fortaleciendo así la aparente relación con x j .

El significado de la expresión "mantenido fijo" puede depender de cómo surgen los valores de las variables predictoras. Si el experimentador establece directamente los valores de las variables predictoras de acuerdo con el diseño de un estudio, las comparaciones de interés pueden corresponder literalmente a comparaciones entre unidades cuyas variables predictoras han sido "mantenidas fijas" por el experimentador. Alternativamente, la expresión "mantenido fijo" puede referirse a una selección que tiene lugar en el contexto del análisis de datos. En este caso, "mantenemos fija una variable" restringiendo nuestra atención a los subconjuntos de datos que tienen un valor común para la variable predictiva dada. Ésta es la única interpretación de "mantenido fijo" que se puede utilizar en un estudio observacional.

La noción de "efecto único" resulta atractiva cuando se estudia un sistema complejo donde múltiples componentes interrelacionados influyen en la variable de respuesta. En algunos casos, puede interpretarse literalmente como el efecto causal de una intervención vinculado al valor de una variable predictiva. Sin embargo, se ha argumentado que en muchos casos el análisis de regresión múltiple no logra aclarar las relaciones entre las variables predictoras y la variable respuesta cuando los predictores están correlacionados entre sí y no se asignan siguiendo un diseño de estudio. [10]

Extensiones

Se han desarrollado numerosas extensiones de la regresión lineal, que permiten relajar algunos o todos los supuestos subyacentes al modelo básico.

Regresión lineal simple y múltiple

Ejemplo de regresión lineal simple , que tiene una variable independiente

El caso más simple de una única variable predictora escalar x y una única variable de respuesta escalar y se conoce como regresión lineal simple . La extensión a variables predictivas múltiples y/o con valores vectoriales (indicadas con una X mayúscula ) se conoce como regresión lineal múltiple , también conocida como regresión lineal multivariable (no debe confundirse con regresión lineal multivariada [11] ).

La regresión lineal múltiple es una generalización de la regresión lineal simple al caso de más de una variable independiente y un caso especial de modelos lineales generales, restringidos a una variable dependiente. El modelo básico para la regresión lineal múltiple es

para cada observación .

En la fórmula anterior consideramos n observaciones de una variable dependiente y p variables independientes. Por lo tanto, Y i es la i- ésima observación de la variable dependiente, X ij es la i -ésima observación de la j - ésima variable independiente, j = 1, 2, ..., p . Los valores β j representan parámetros a estimar, y ε i es el i -ésimo error normal independiente distribuido idénticamente.

En la regresión lineal multivariada más general, hay una ecuación de la forma anterior para cada una de m > 1 variables dependientes que comparten el mismo conjunto de variables explicativas y, por lo tanto, se estiman simultáneamente entre sí:

para todas las observaciones indexadas como i = 1, ... , n y para todas las variables dependientes indexadas como j = 1, ... , m .

Casi todos los modelos de regresión del mundo real implican múltiples predictores, y las descripciones básicas de la regresión lineal a menudo se expresan en términos del modelo de regresión múltiple. Sin embargo, tenga en cuenta que en estos casos la variable de respuesta y sigue siendo un escalar. Otro término, regresión lineal multivariada , se refiere a los casos en los que y es un vector, es decir, lo mismo que la regresión lineal general .

Modelos lineales generales

El modelo lineal general considera la situación en la que la variable de respuesta no es un escalar (para cada observación) sino un vector, y i . Todavía se supone la linealidad condicional de , con una matriz B que reemplaza el vector β del modelo de regresión lineal clásico. Se han desarrollado análogos multivariados de mínimos cuadrados ordinarios (OLS) y mínimos cuadrados generalizados (GLS). Los "modelos lineales generales" también se denominan "modelos lineales multivariados". Estos no son lo mismo que los modelos lineales multivariables (también llamados "modelos lineales múltiples").

Modelos heterocedásticos

Se han creado varios modelos que permiten la heterocedasticidad , es decir, los errores de diferentes variables de respuesta pueden tener diferentes varianzas . Por ejemplo, los mínimos cuadrados ponderados son un método para estimar modelos de regresión lineal cuando las variables de respuesta pueden tener diferentes varianzas de error, posiblemente con errores correlacionados. (Consulte también Mínimos cuadrados lineales ponderados y Mínimos cuadrados generalizados ). Los errores estándar consistentes con heteroscedasticidad son un método mejorado para su uso con errores no correlacionados pero potencialmente heteroscedásticos.

Modelos lineales generalizados

Los modelos lineales generalizados (GLM) son un marco para modelar variables de respuesta que son acotadas o discretas. Esto se utiliza, por ejemplo:

Los modelos lineales generalizados permiten una función de enlace arbitraria , g , que relaciona la media de las variables de respuesta con los predictores :. La función de enlace a menudo está relacionada con la distribución de la respuesta y, en particular, normalmente tiene el efecto de transformar entre el rango del predictor lineal y el rango de la variable de respuesta.

Algunos ejemplos comunes de GLM son:

Los modelos de índice único [ se necesita aclaración ] permiten cierto grado de no linealidad en la relación entre x e y , al tiempo que preservan el papel central del predictor lineal βx como en el modelo de regresión lineal clásico. Bajo ciertas condiciones, simplemente aplicar MCO a datos de un modelo de índice único estimará consistentemente β hasta una constante de proporcionalidad. [12]

Modelos lineales jerárquicos

Los modelos lineales jerárquicos (o regresión multinivel ) organizan los datos en una jerarquía de regresiones, por ejemplo, donde A retrocede en B y B retrocede en C. A menudo se utiliza cuando las variables de interés tienen una estructura jerárquica natural, como en las estadísticas educativas, donde los estudiantes están anidados en las aulas, las aulas están anidadas en las escuelas y las escuelas están anidadas en algún grupo administrativo, como un distrito escolar. La variable de respuesta podría ser una medida del rendimiento estudiantil, como la puntuación de un examen, y se recopilarían diferentes covariables a nivel de aula, escuela y distrito escolar.

Errores en variables

Los modelos de errores en variables (o "modelos de errores de medición") amplían el modelo de regresión lineal tradicional para permitir que las variables predictoras X se observen con error. Este error hace que los estimadores estándar de β estén sesgados. Generalmente, la forma de sesgo es una atenuación, lo que significa que los efectos están sesgados hacia cero.

efectos de grupo

En un modelo de regresión lineal múltiple

El parámetro de la variable predictora representa el efecto individual de . Tiene una interpretación como el cambio esperado en la variable de respuesta cuando aumenta en una unidad con otras variables predictoras mantenidas constantes. Cuando está fuertemente correlacionado con otras variables predictoras, es improbable que pueda aumentar en una unidad si otras variables se mantienen constantes. En este caso, la interpretación de se vuelve problemática ya que se basa en una condición improbable y el efecto de no puede evaluarse de forma aislada.

Para un grupo de variables predictoras, digamos, un efecto de grupo se define como una combinación lineal de sus parámetros.

¿Dónde es un vector de peso que satisface ? Debido a la restricción de , también se le conoce como efecto de grupo normalizado. Un efecto de grupo se interpreta como el cambio esperado cuando las variables en el grupo cambian en la cantidad , respectivamente, al mismo tiempo que las variables que no están en el grupo se mantienen constantes. Generaliza el efecto individual de una variable a un grupo de variables en el sentido de que ( ) si , entonces el efecto de grupo se reduce a un efecto individual, y ( ) si y para , entonces el efecto de grupo también se reduce a un efecto individual. Se dice que un efecto de grupo es significativo si los cambios simultáneos subyacentes de las variables son probables.

Los efectos de grupo proporcionan un medio para estudiar el impacto colectivo de variables predictivas fuertemente correlacionadas en modelos de regresión lineal. Los efectos individuales de dichas variables no están bien definidos ya que sus parámetros no tienen buenas interpretaciones. Además, cuando el tamaño de la muestra no es grande, ninguno de sus parámetros puede estimarse con precisión mediante la regresión de mínimos cuadrados debido al problema de multicolinealidad . Sin embargo, existen efectos de grupo significativos que tienen buenas interpretaciones y pueden estimarse con precisión mediante la regresión de mínimos cuadrados. Una forma sencilla de identificar estos efectos de grupo significativos es utilizar un arreglo de correlaciones todas positivas (APC) de las variables fuertemente correlacionadas bajo el cual las correlaciones por pares entre estas variables sean todas positivas, y estandarizar todas las variables predictoras en el modelo para que todas tengan medias. cero y longitud uno. Para ilustrar esto, supongamos que hay un grupo de variables fuertemente correlacionadas en un arreglo APC y que no están fuertemente correlacionadas con variables predictoras fuera del grupo. Sea el centrado y el estandarizado . Entonces, el modelo de regresión lineal estandarizado es

Los parámetros del modelo original, incluido , son funciones simples del modelo estandarizado. La estandarización de variables no cambia sus correlaciones, por lo que es un grupo de variables fuertemente correlacionadas en un arreglo APC y no están fuertemente correlacionadas con otras variables predictoras en el modelo estandarizado. Un efecto de grupo de es

y su estimador lineal insesgado de varianza mínima es

donde está el estimador de mínimos cuadrados de . En particular, el efecto de grupo promedio de las variables estandarizadas es

que tiene una interpretación como el cambio esperado cuando todos en el grupo fuertemente correlacionado aumentan en th de una unidad al mismo tiempo con las variables fuera del grupo mantenidas constantes. Con correlaciones positivas fuertes y en unidades estandarizadas, las variables del grupo son aproximadamente iguales, por lo que es probable que aumenten al mismo tiempo y en cantidades similares. Por tanto, el efecto de grupo promedio es un efecto significativo. Puede estimarse con precisión mediante su estimador lineal insesgado de varianza mínima , incluso cuando individualmente ninguno de ellos puede estimarse con precisión mediante .

No todos los efectos de grupo son significativos o pueden estimarse con precisión. Por ejemplo, es un efecto de grupo especial con ponderaciones y para , pero no puede estimarse con precisión mediante . Tampoco es un efecto significativo. En general, para un grupo de variables predictivas fuertemente correlacionadas en una disposición APC en el modelo estandarizado, los efectos de grupo cuyos vectores de peso están en o cerca del centro del simplex ( ) son significativos y pueden estimarse con precisión mediante su varianza mínima lineal insesgada. estimadores. Los efectos con vectores de peso alejados del centro no son significativos ya que dichos vectores de peso representan cambios simultáneos de las variables que violan las fuertes correlaciones positivas de las variables estandarizadas en una disposición APC. Como tales, no son probables. Estos efectos tampoco pueden estimarse con precisión.

Las aplicaciones de los efectos de grupo incluyen (1) estimación e inferencia de efectos de grupo significativos en la variable de respuesta, (2) probar la "importancia del grupo" de las variables mediante pruebas versus y (3) caracterizar la región del espacio de la variable predictora sobre qué predicciones mediante el modelo estimado de mínimos cuadrados son precisas.

Un efecto de grupo de las variables originales se puede expresar como una constante multiplicada por un efecto de grupo de las variables estandarizadas . Lo primero es significativo cuando lo segundo lo es. Por lo tanto, se pueden encontrar efectos de grupo significativos de las variables originales a través de efectos de grupo significativos de las variables estandarizadas. [13]

Otros

En la teoría de Dempster-Shafer , o en una función de creencia lineal en particular, un modelo de regresión lineal puede representarse como una matriz parcialmente barrida, que puede combinarse con matrices similares que representan observaciones y otras distribuciones normales y ecuaciones de estado supuestas. La combinación de matrices barridas o no barridas proporciona un método alternativo para estimar modelos de regresión lineal.

Métodos de estimación

Se han desarrollado una gran cantidad de procedimientos para la estimación e inferencia de parámetros en regresión lineal. Estos métodos difieren en la simplicidad computacional de los algoritmos, la presencia de una solución de forma cerrada, la robustez con respecto a las distribuciones de cola pesada y los supuestos teóricos necesarios para validar propiedades estadísticas deseables como la consistencia y la eficiencia asintótica .

A continuación se resumen algunas de las técnicas de estimación más comunes para la regresión lineal.

Estimación de mínimos cuadrados y técnicas relacionadas.

Ilustración de Francis Galton de 1886 [14] sobre la correlación entre la altura de los adultos y la de sus padres. La observación de que la altura de los hijos adultos tendía a desviarse menos de la altura media que la de sus padres sugirió el concepto de " regresión hacia la media ", de ahí el nombre de regresión. El "lugar de los puntos tangenciales horizontales" que pasa por los puntos más a la izquierda y más a la derecha de la elipse (que es una curva de nivel de la distribución normal bivariada estimada a partir de los datos) es la estimación MCO de la regresión de las alturas de los padres sobre las alturas de los niños, mientras que el "lugar de los puntos tangenciales verticales" es la estimación MCO de la regresión de las alturas de los niños sobre las alturas de los padres. El eje mayor de la elipse es la estimación de TLS .

Suponiendo que la variable independiente es y los parámetros del modelo son , entonces la predicción del modelo sería

.

Si se extiende hasta entonces se convertiría en un producto escalar del parámetro y la variable independiente, es decir

.

En la configuración de mínimos cuadrados, el parámetro óptimo se define como tal que minimiza la suma de la pérdida cuadrática media:

Ahora, poniendo las variables independientes y dependientes en matrices y respectivamente, la función de pérdida se puede reescribir como:

Como la pérdida es convexa, la solución óptima se encuentra en el gradiente cero. El gradiente de la función de pérdida es (usando la convención de diseño del denominador ):

Establecer el gradiente en cero produce el parámetro óptimo:

Nota: Para demostrar que lo obtenido es efectivamente el mínimo local, es necesario derivar una vez más para obtener la matriz de Hesse y demostrar que es definida positiva. Esto lo proporciona el teorema de Gauss-Markov .

Los métodos de mínimos cuadrados lineales incluyen principalmente:

Estimación de máxima verosimilitud y técnicas relacionadas.

Otras técnicas de estimación

Comparación del estimador de Theil-Sen (negro) y la regresión lineal simple (azul) para un conjunto de puntos con valores atípicos

Aplicaciones

La regresión lineal se utiliza ampliamente en las ciencias biológicas, del comportamiento y sociales para describir posibles relaciones entre variables. Se ubica como una de las herramientas más importantes utilizadas en estas disciplinas.

Línea de tendencia

Una línea de tendencia representa una tendencia, el movimiento a largo plazo en los datos de series de tiempo después de que se han tenido en cuenta otros componentes. Indica si un conjunto de datos en particular (por ejemplo, el PIB, los precios del petróleo o los precios de las acciones) ha aumentado o disminuido durante un período de tiempo. Una línea de tendencia podría simplemente dibujarse a simple vista a través de un conjunto de puntos de datos, pero más correctamente su posición y pendiente se calculan mediante técnicas estadísticas como la regresión lineal. Las líneas de tendencia suelen ser líneas rectas, aunque algunas variaciones utilizan polinomios de mayor grado según el grado de curvatura deseado en la línea.

A veces, las líneas de tendencia se utilizan en análisis de negocios para mostrar cambios en los datos a lo largo del tiempo. Esto tiene la ventaja de ser sencillo. Las líneas de tendencia se utilizan a menudo para argumentar que una acción o evento particular (como una capacitación o una campaña publicitaria) causó cambios observados en un momento determinado. Se trata de una técnica sencilla y no requiere un grupo de control, un diseño experimental ni una técnica de análisis sofisticada. Sin embargo, adolece de una falta de validez científica en los casos en que otros cambios potenciales pueden afectar los datos.

Epidemiología

Las primeras pruebas que relacionaban el tabaquismo con la mortalidad y la morbilidad provinieron de estudios observacionales que emplearon análisis de regresión. Para reducir las correlaciones espurias al analizar datos observacionales, los investigadores suelen incluir varias variables en sus modelos de regresión además de la variable de interés principal. Por ejemplo, en un modelo de regresión en el que el tabaquismo es la variable independiente de interés principal y la variable dependiente es la esperanza de vida medida en años, los investigadores podrían incluir la educación y los ingresos como variables independientes adicionales, para garantizar que cualquier efecto observado del tabaquismo en la esperanza de vida sea no debido a esos otros factores socioeconómicos . Sin embargo, nunca es posible incluir todas las posibles variables de confusión en un análisis empírico. Por ejemplo, un gen hipotético podría aumentar la mortalidad y también hacer que las personas fumen más. Por esta razón, los ensayos controlados aleatorios a menudo pueden generar pruebas más convincentes de relaciones causales que las que se pueden obtener mediante análisis de regresión de datos observacionales. Cuando los experimentos controlados no son factibles, se pueden utilizar variantes del análisis de regresión, como la regresión de variables instrumentales, para intentar estimar relaciones causales a partir de datos de observación.

Finanzas

El modelo de valoración de activos de capital utiliza la regresión lineal, así como el concepto de beta , para analizar y cuantificar el riesgo sistemático de una inversión. Esto proviene directamente del coeficiente beta del modelo de regresión lineal que relaciona el rendimiento de la inversión con el rendimiento de todos los activos de riesgo.

Ciencias económicas

La regresión lineal es la herramienta empírica predominante en economía . Por ejemplo, se utiliza para predecir el gasto de consumo , [24] el gasto en inversión fija , la inversión en inventarios , las compras de las exportaciones de un país , [25] el gasto en importaciones , [25] la demanda de mantener activos líquidos , [26] la demanda laboral , [27] y oferta de mano de obra . [27]

Ciencia medioambiental

La regresión lineal encuentra aplicación en una amplia gama de aplicaciones de las ciencias ambientales, como el uso de la tierra, [28] enfermedades infecciosas y [29] la contaminación del aire. [30]

Aprendizaje automático

La regresión lineal juega un papel importante en el subcampo de la inteligencia artificial conocido como aprendizaje automático . El algoritmo de regresión lineal es uno de los algoritmos fundamentales de aprendizaje automático supervisado debido a su relativa simplicidad y propiedades bien conocidas. [31]

Historia

Legendre (1805) y Gauss (1809) realizaron la regresión lineal de mínimos cuadrados, como medio para encontrar un buen ajuste lineal aproximado a un conjunto de puntos, para la predicción del movimiento planetario. Quetelet fue el responsable de dar a conocer el procedimiento y de utilizarlo ampliamente en las ciencias sociales. [32]

Ver también

Referencias

Citas

  1. ^ David A. Freedman (2009). Modelos estadísticos: teoría y práctica . Prensa de la Universidad de Cambridge . pag. 26. Una ecuación de regresión simple tiene en el lado derecho una ordenada en el origen y una variable explicativa con un coeficiente de pendiente. Una regresión múltiple en el lado derecho, cada una con su propio coeficiente de pendiente
  2. ^ Rencher, Alvin C.; Christensen, William F. (2012), "Capítulo 10, Regresión multivariada - Sección 10.1, Introducción", Métodos de análisis multivariado, Serie Wiley en probabilidad y estadística, vol. 709 (3ª ed.), John Wiley & Sons, pág. 19, ISBN 9781118391679.
  3. ^ Hilary L. Sello (1967). "El desarrollo histórico del modelo lineal de Gauss". Biometrika . 54 (1/2): 1–24. doi :10.1093/biomet/54.1-2.1. JSTOR  2333849.
  4. ^ Yan, Xin (2009), Análisis de regresión lineal: teoría y computación, World Scientific, págs. 1–2, ISBN 9789812834119, El análisis de regresión... es probablemente uno de los temas más antiguos de la estadística matemática, que se remonta a hace unos doscientos años. La forma más antigua de regresión lineal fue el método de mínimos cuadrados, publicado por Legendre en 1805 y por Gauss en 1809... Tanto Legendre como Gauss aplicaron el método al problema de determinar, a partir de observaciones astronómicas, las órbitas de los cuerpos. sobre el sol.
  5. ^ ab Tibshirani, Robert (1996). "Regresión, contracción y selección mediante el lazo". Revista de la Royal Statistical Society, Serie B. 58 (1): 267–288. JSTOR  2346178.
  6. ^ ab Efron, Bradley; Hastie, Trevor; Johnstone, Iain; Tibshirani, Robert (2004). "Regresión de ángulo mínimo". Los anales de la estadística . 32 (2): 407–451. arXiv : matemáticas/0406456 . doi :10.1214/009053604000000067. JSTOR  3448465. S2CID  204004121.
  7. ^ ab Hawkins, Douglas M. (1973). "Sobre la investigación de regresiones alternativas mediante análisis de componentes principales". Revista de la Royal Statistical Society, Serie C. 22 (3): 275–286. doi :10.2307/2346776. JSTOR  2346776.
  8. ^ ab Jolliffe, Ian T. (1982). "Una nota sobre el uso de componentes principales en la regresión". Revista de la Royal Statistical Society, Serie C. 31 (3): 300–303. doi :10.2307/2348005. JSTOR  2348005.
  9. ^ Williams, Matt; Grajales, Carlos; Kurkiewicz, Dason (25 de noviembre de 2019). "Supuestos de regresión múltiple: corregir dos conceptos erróneos". Valoración, investigación y evaluación prácticas . 18 (1). doi : 10.7275/55hn-wk47. ISSN  1531-7714.
  10. ^ Berk, Richard A. (2007). "Análisis de regresión: una crítica constructiva". Revisión de justicia penal . 32 (3): 301–302. doi :10.1177/0734016807304871. S2CID  145389362.
  11. ^ Hidalgo, Bertha; Goodman, Melodía (15 de noviembre de 2012). "¿Regresión multivariada o multivariable?". Revista Estadounidense de Salud Pública . 103 (1): 39–40. doi :10.2105/AJPH.2012.300897. ISSN  0090-0036. PMC 3518362 . PMID  23153131. 
  12. ^ Brillinger, David R. (1977). "La identificación de un sistema particular de series temporales no lineales". Biometrika . 64 (3): 509–515. doi :10.1093/biomet/64.3.509. JSTOR  2345326.
  13. ^ Tsao, Min (2022). "Regresión de mínimos cuadrados grupales para modelos lineales con variables predictoras fuertemente correlacionadas". Anales del Instituto de Matemática Estadística . 75 (2): 233–250. arXiv : 1804.02499 . doi :10.1007/s10463-022-00841-7. S2CID  237396158.
  14. ^ Galton, Francisco (1886). "Regresión hacia la mediocridad en la estatura hereditaria". La Revista del Instituto Antropológico de Gran Bretaña e Irlanda . 15 : 246–263. doi :10.2307/2841583. ISSN  0959-5295. JSTOR  2841583.
  15. ^ Britzger, Daniel (2022). "El ajuste de plantilla lineal". EUR. Física. J.C.82 (8): 731. arXiv : 2112.01548 . Código Bib : 2022EPJC...82..731B. doi :10.1140/epjc/s10052-022-10581-w. S2CID  244896511.
  16. ^ Lange, Kenneth L.; Pequeño, Roderick JA; Taylor, Jeremy MG (1989). "Modelado estadístico robusto utilizando la distribución t" (PDF) . Revista de la Asociación Estadounidense de Estadística . 84 (408): 881–896. doi :10.2307/2290063. JSTOR  2290063.
  17. ^ Estafa, Benee F. (1981). "Geometría de la regresión de crestas ilustrada". El estadístico estadounidense . 35 (1): 12-15. doi :10.2307/2683577. JSTOR  2683577.
  18. ^ Draper, Norman R.; van Nostrand; R. Craig (1979). "Regresión de crestas y estimación de James-Stein: revisión y comentarios". Tecnometría . 21 (4): 451–466. doi :10.2307/1268284. JSTOR  1268284.
  19. ^ Hoerl, Arthur E.; Kennard, Robert W.; Hoerl, Roger W. (1985). "Uso práctico de la regresión de crestas: un desafío cumplido". Revista de la Royal Statistical Society, Serie C. 34 (2): 114-120. JSTOR  2347363.
  20. ^ Narula, Subhash C.; Wellington, John F. (1982). "La regresión de la suma mínima de errores absolutos: una encuesta sobre el estado del arte". Revista estadística internacional . 50 (3): 317–326. doi :10.2307/1402501. JSTOR  1402501.
  21. ^ Piedra, CJ (1975). "Estimadores adaptativos de máxima verosimilitud de un parámetro de ubicación". Los anales de la estadística . 3 (2): 267–284. doi : 10.1214/aos/1176343056 . JSTOR  2958945.
  22. ^ Goldstein, H. (1986). "Análisis de modelo lineal mixto multinivel utilizando mínimos cuadrados iterativos generalizados". Biometrika . 73 (1): 43–56. doi :10.1093/biomet/73.1.43. JSTOR  2336270.
  23. ^ Theil, H. (1950). "Un método de análisis de regresión lineal y polinomial de rango invariante. I, II, III". Nederl. Akád. Wetensch., Proc . 53 : 386–392, 521–525, 1397–1412. SEÑOR  0036489.; Sen, Pranab Kumar (1968). "Estimaciones del coeficiente de regresión basadas en la tau de Kendall". Revista de la Asociación Estadounidense de Estadística . 63 (324): 1379–1389. doi :10.2307/2285891. JSTOR  2285891. SEÑOR  0258201..
  24. ^ Deaton, Angus (1992). Entendiendo el consumo . Prensa de la Universidad de Oxford. ISBN 978-0-19-828824-4.
  25. ^ ab Krugman, Paul R .; Obstfeld, M .; Melitz, Marc J. (2012). Economía internacional: teoría y política (novena edición global). Harlow: Pearson. ISBN 9780273754091.
  26. ^ Laidler, David EW (1993). La demanda de dinero: teorías, evidencia y problemas (4ª ed.). Nueva York: Harper Collins. ISBN 978-0065010985.
  27. ^ ab Ehrenberg; Herrero (2008). Economía laboral moderna (décima edición internacional). Londres: Addison-Wesley. ISBN 9780321538963.
  28. ^ Hoek, Gerard; Beelen, Rob; de Hoogh, Kees; Vienneau, Danielle; Gulliver, Juan; Fischer, Pablo; Briggs, David (1 de octubre de 2008). "Una revisión de modelos de regresión del uso de la tierra para evaluar la variación espacial de la contaminación del aire exterior". Ambiente Atmosférico . 42 (33): 7561–7578. doi :10.1016/j.atmosenv.2008.05.057. ISSN  1352-2310.
  29. ^ Imai, Chisato; Hashizume, Masahiro (2015). "Una revisión sistemática de la metodología: análisis de regresión de series temporales para factores ambientales y enfermedades infecciosas". Medicina Tropical y Salud . 43 (1): 1–9. doi :10.2149/tmh.2014-21. hdl : 10069/35301 .
  30. ^ Milionis, AE; Davies, TD (1 de septiembre de 1994). "Modelos de regresión y estocásticos para la contaminación del aire. I. Revisión, comentarios y sugerencias". Ambiente Atmosférico . 28 (17): 2801–2810. doi :10.1016/1352-2310(94)90083-3. ISSN  1352-2310.
  31. ^ "Regresión lineal (aprendizaje automático)" (PDF) . Universidad de Pittsburgh .
  32. ^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge: Harvard. ISBN 0-674-40340-1.

Fuentes

Otras lecturas

enlaces externos