Suma residual de cuadrados

En estadística e inteligencia artificial, la suma residual de cuadrados (RSS), también conocida como suma de residuos cuadrados (SSR) o suma de cuadrados de estimación de errores (SSE), es la suma de los cuadrados de residuos (desviaciones predichas a partir de valores empíricos reales).

de datos).

Es una medida de la discrepancia entre los datos y un modelo de estimación, como una regresión lineal.

Un RSS pequeño indica un ajuste estrecho del modelo a los datos.

Se utiliza como criterio de optimización en la selección de parámetros y la selección de modelos .

En general, suma total de cuadrados = suma explicada de cuadrados + suma residual de cuadrados.

Para ver una prueba de esto en el caso de mínimos cuadrados ordinarios (OLS) multivariante, consulte partición en el modelo OLS general .

En un modelo con una sola variable explicativa (explanatory variable en inglés), RSS viene dado por:[1]​ donde y i es el i -ésimo valor de la variable a predecir, x i es el i -ésimo valor de la variable explicativa, y

{\displaystyle f(x_{i})}

es el valor pronosticado de y i (también denominado

En un modelo de regresión lineal simple estándar,

= α + β

son coeficientes, y y x son la regresora y la regresora, respectivamente, y ε es el término de error .

es el valor estimado del término constante

es el valor estimado del coeficiente de pendiente

El modelo de regresión general con n observaciones y k explicadores (explanators en inglés), el primero de los cuales es un vector unitario constante cuyo coeficiente es el intercepto de la regresión, es donde y es un vector n × 1 de observaciones de variables dependientes, cada columna de la matriz n × k , X es un vector de observaciones en uno de los k explicadores,

es un vector k × 1 de coeficientes verdaderos, y e es un vector n × 1 de los errores subyacentes verdaderos.

El estimador de mínimos cuadrados ordinarios para

es El vector residual

{\displaystyle y-X{\hat {\beta }}=y-X(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y}

; entonces la suma residual de los cuadrados es: (equivalente al cuadrado de la norma de residuos).

En su totalidad: donde H es la matriz sombrero, o la matriz de proyección en regresión lineal.

La línea de regresión de mínimos cuadrados está dada por donde

{\displaystyle b={\bar {y}}-a{\bar {x}}}

{\displaystyle S_{xy}=\sum _{i=1}^{n}({\bar {x}}-x_{i})({\bar {y}}-y_{i})}

{\displaystyle S_{xx}=\sum _{i=1}^{n}({\bar {x}}-x_{i})^{2}.}

{\displaystyle S_{yy}=\sum _{i=1}^{n}({\bar {y}}-y_{i})^{2}.}

La correlación producto-momento de Pearson está dada por

{\displaystyle r={\frac {S_{xy}}{\sqrt {S_{xx}S_{yy}}}};}

{\displaystyle \operatorname {RSS} =S_{yy}(1-r^{2}).}