En estadística e inteligencia artificial, la suma residual de cuadrados (RSS), también conocida como suma de residuos cuadrados (SSR) o suma de cuadrados de estimación de errores (SSE), es la suma de los cuadrados de residuos (desviaciones predichas a partir de valores empíricos reales).
de datos).
Es una medida de la discrepancia entre los datos y un modelo de estimación, como una regresión lineal.
Un RSS pequeño indica un ajuste estrecho del modelo a los datos.
Se utiliza como criterio de optimización en la selección de parámetros y la selección de modelos .
En general, suma total de cuadrados = suma explicada de cuadrados + suma residual de cuadrados.
Para ver una prueba de esto en el caso de mínimos cuadrados ordinarios (OLS) multivariante, consulte partición en el modelo OLS general .
En un modelo con una sola variable explicativa (explanatory variable en inglés), RSS viene dado por:[1] donde y i es el i -ésimo valor de la variable a predecir, x i es el i -ésimo valor de la variable explicativa, y
{\displaystyle f(x_{i})}
es el valor pronosticado de y i (también denominado
En un modelo de regresión lineal simple estándar,
= α + β
son coeficientes, y y x son la regresora y la regresora, respectivamente, y ε es el término de error .
es el valor estimado del término constante
es el valor estimado del coeficiente de pendiente
El modelo de regresión general con n observaciones y k explicadores (explanators en inglés), el primero de los cuales es un vector unitario constante cuyo coeficiente es el intercepto de la regresión, es donde y es un vector n × 1 de observaciones de variables dependientes, cada columna de la matriz n × k , X es un vector de observaciones en uno de los k explicadores,
es un vector k × 1 de coeficientes verdaderos, y e es un vector n × 1 de los errores subyacentes verdaderos.
El estimador de mínimos cuadrados ordinarios para
es El vector residual
{\displaystyle y-X{\hat {\beta }}=y-X(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y}
; entonces la suma residual de los cuadrados es: (equivalente al cuadrado de la norma de residuos).
En su totalidad: donde H es la matriz sombrero, o la matriz de proyección en regresión lineal.
La línea de regresión de mínimos cuadrados está dada por donde
{\displaystyle b={\bar {y}}-a{\bar {x}}}
{\displaystyle S_{xy}=\sum _{i=1}^{n}({\bar {x}}-x_{i})({\bar {y}}-y_{i})}
{\displaystyle S_{xx}=\sum _{i=1}^{n}({\bar {x}}-x_{i})^{2}.}
{\displaystyle S_{yy}=\sum _{i=1}^{n}({\bar {y}}-y_{i})^{2}.}
La correlación producto-momento de Pearson está dada por
{\displaystyle r={\frac {S_{xy}}{\sqrt {S_{xx}S_{yy}}}};}
{\displaystyle \operatorname {RSS} =S_{yy}(1-r^{2}).}