Medida estadística de la discrepancia entre los datos y un modelo de estimación
En estadística , la suma de cuadrados de los residuos ( RSS ), también conocida como suma de residuos al cuadrado ( SSR ) o suma de errores al cuadrado de la estimación ( SSE ), es la suma de los cuadrados de los residuos (desviaciones predichas a partir de los valores empíricos reales de los datos). Es una medida de la discrepancia entre los datos y un modelo de estimación, como una regresión lineal . Un RSS pequeño indica un ajuste ajustado del modelo a los datos. Se utiliza como criterio de optimalidad en la selección de parámetros y la selección del modelo .
En general, suma total de cuadrados = suma explicada de cuadrados + suma residual de cuadrados. Para una prueba de esto en el caso de mínimos cuadrados ordinarios (MCO) multivariante, consulte la partición en el modelo MCO general .
Una variable explicativa
En un modelo con una única variable explicativa, la RSS viene dada por: [1]
donde y i es el i ésimo valor de la variable a predecir, x i es el i ésimo valor de la variable explicativa y es el valor predicho de y i (también denominado ). En un modelo de regresión lineal simple estándar , , donde y son coeficientes , y y x son el regresado y el regresor , respectivamente, y ε es el término de error . La suma de los cuadrados de los residuos es la suma de los cuadrados de ; es decir
donde es el valor estimado del término constante y es el valor estimado del coeficiente de pendiente .
Expresión matricial para la suma de cuadrados de los residuos de MCO
El modelo de regresión general con n observaciones y k explicadores, el primero de los cuales es un vector unitario constante cuyo coeficiente es la intersección de la regresión, es
donde y es un vector n × 1 de observaciones de la variable dependiente, cada columna de la matriz n × k X es un vector de observaciones de uno de los k explicadores, es un vector k × 1 de coeficientes verdaderos y e es un vector n × 1 de los errores subyacentes verdaderos. El estimador de mínimos cuadrados ordinarios para es
El vector residual ; por lo tanto la suma residual de cuadrados es:
- ,
(equivalente al cuadrado de la norma de los residuos). En su forma completa:
- ,
donde H es la matriz de sombrero , o la matriz de proyección en regresión lineal.
Relación con la correlación producto-momento de Pearson
La línea de regresión de mínimos cuadrados está dada por
- ,
donde y , donde y
Por lo tanto,
dónde
La correlación producto-momento de Pearson viene dada por lo tanto,
Véase también
Referencias
- ^ Archdeacon, Thomas J. (1994). Análisis de correlación y regresión: una guía para historiadores . University of Wisconsin Press. págs. 161-162. ISBN 0-299-13650-7.OCLC 27266095 .
- Draper, NR; Smith, H. (1998). Análisis de regresión aplicada (3.ª ed.). John Wiley. ISBN 0-471-17082-8.