Análisis de la regresión

La línea se ajusta a los puntos de datos para mostrar la tendencia general entre las dos variables.Por ejemplo, si la edad y el salario están relacionados, la línea de regresión mostrará cómo el salario aumenta a medida que la edad de una persona aumenta.La regresión es una herramienta valiosa porque permite a los científicos de datos entender cómo dos variables están relacionadas y predecir valores futuros.En circunstancias limitadas, el análisis de regresión puede utilizarse para inferir relaciones causales entre las variables independientes y dependientes.Sin embargo, esto puede llevar a ilusiones o relaciones falsas, por lo que se recomienda precaución,[1]​ por ejemplo, la correlación no implica causalidad.Muchas técnicas han sido desarrolladas para llevar a cabo el análisis de regresión.Estos supuestos son a veces comprobables si una cantidad suficiente de datos está disponible.Los modelos de regresión para la predicción son frecuentemente útiles aunque los supuestos sean violados moderadamente, aunque no pueden funcionar de manera óptima.El término "regresión" fue acuñado por Francis Galton en el siglo XIX para describir un fenómeno biológico.[7]​[8]​ Para Galton, la regresión sólo tenía este significado biológico,[9]​[10]​ pero su trabajo fue extendido más tarde por Udny Yule y Karl Pearson a un contexto estadístico más general.[11]​[12]​ En la obra de Yule y Pearson, la distribución conjunta de la variable respuesta y las variables explicativas se supone que es Gaussiana.Esta suposición fue debilitada por Ronald Fisher en sus obras de 1922 y 1925.En la práctica, los investigadores seleccionan primero un modelo que les gustaría estimar y, a continuación, utilizan el método elegido (por ejemplo, mínimos cuadrados ordinarios) para estimar los parámetros de dicho modelo.o ruido estadístico aleatorio: El objetivo de los investigadores es estimar la funciónA veces, la forma de esta función se basa en un conocimiento sobre la relación entrees una aproximación razonable para el proceso estadístico que genera los datos.A partir de esta estimación, el investigador puede utilizar el "valor ajustado"para predecir o evaluar la precisión del modelo a la hora de explicar los datos.[5]​ Sin embargo, las variantes alternativas (por ejemplo, mínimas desviaciones absolutas o regresión cuantílica) son útiles cuando los investigadores quieren modelar otras funcionesEs importante señalar que debe haber datos suficientes para estimar un modelo de regresión.filas de datos con una variable dependiente y dos independientes:Supongamos además que el investigador desea estimar un modelo lineal bivariante mediante mínimos cuadrados:puntos de datos, entonces podría encontrar infinitas combinaciones, todas las cuales conducen a y por tanto son soluciones válidas que minimizan la suma de residuos al cuadrado.Alternativamente, se pueden visualizar infinitos planos tridimensionales que pasan por, generalmente no existe un conjunto de parámetros que se ajuste perfectamente a los datos.Además, para estimar un modelo de mínimos cuadrados, las variables independientesComo se discute en mínimos cuadrados ordinarios, esta condición asegura quees una matriz invertible y, por tanto, que existe una solución únicaEste modelo está conformado por dos variables estadísticas llamadas