Medida estadística de la discrepancia entre datos y un modelo de estimación.
En estadística , la suma de cuadrados residuales ( RSS ), también conocida como suma de residuos al cuadrado ( SSR ) o suma de estimaciones de errores al cuadrado ( SSE ), es la suma de los cuadrados de los residuos (desviaciones predichas a partir de los valores empíricos reales). de datos). Es una medida de la discrepancia entre los datos y un modelo de estimación, como una regresión lineal . Un RSS pequeño indica un ajuste perfecto del modelo a los datos. Se utiliza como criterio de optimización en la selección de parámetros y selección de modelos .
En general, suma de cuadrados total = suma de cuadrados explicada + suma de cuadrados residual. Para ver una prueba de esto en el caso multivariado de mínimos cuadrados ordinarios (MCO), consulte partición en el modelo general MCO .
Una variable explicativa
En un modelo con una única variable explicativa, RSS viene dado por: [1]
![{\displaystyle \operatorname {RSS} =\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde y i es el i- ésimo valor de la variable a predecir, x i es el i -ésimo valor de la variable explicativa y es el valor predicho de y i (también denominado ). En un modelo de regresión lineal simple estándar , donde y son coeficientes , y y x son el regresor y el regresor , respectivamente, y ε es el término de error . La suma de los cuadrados de los residuos es la suma de los cuadrados de ; eso es![f(x_{i})](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\ sombrero {y_ {i}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}\,}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![\alfa](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![\beta](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\widehat {\varepsilon \,}}_{i}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \operatorname {RSS} =\sum _{i=1}^{n}({\widehat {\varepsilon \,}}_{i})^{2}=\sum _{i=1} ^{n}(y_{i}-({\widehat {\alpha \,}}+{\widehat {\beta \,}}x_{i}))^{2}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde es el valor estimado del término constante y es el valor estimado del coeficiente de pendiente .![{\displaystyle {\widehat {\alpha \,}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![\alfa](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\widehat {\beta \,}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![\beta](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Expresión matricial para la suma residual de cuadrados de MCO
El modelo de regresión general con n observaciones y k explicadores, el primero de los cuales es un vector unitario constante cuyo coeficiente es la intersección de la regresión, es
![y=X\beta +e](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
donde y es un vector n × 1 de observaciones de variables dependientes, cada columna de la matriz X n × k es un vector de observaciones en uno de los k explicadores, es un vector k × 1 de coeficientes verdaderos y e es un vector n × 1 vector de los verdaderos errores subyacentes. El estimador de mínimos cuadrados ordinarios para es![\beta](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![\beta](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X{\sombrero {\beta }}=y\iff }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle X^{\operatorname {T} }X{\hat {\beta }}=X^{\operatorname {T} }y\iff }](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle {\hat {\beta }}=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
El vector residual ; entonces la suma residual de cuadrados es:![{\displaystyle {\hat {e}}=yX{\hat {\beta }}=yX(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
,
(equivalente al cuadrado de la norma de los residuos). En su totalidad:
,
donde H es la matriz hat o la matriz de proyección en regresión lineal.
Relación con la correlación producto-momento de Pearson
La línea de regresión de mínimos cuadrados está dada por
,
dónde y , dónde y![{\displaystyle b={\bar {y}}-a{\bar {x}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle a={\frac {S_{xy}}{S_{xx}}}}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle S_{xy}=\sum _{i=1}^{n}({\bar {x}}-x_{i})({\bar {y}}-y_{i})}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle S_{xx}=\sum _{i=1}^{n}({\bar {x}}-x_{i})^{2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Por lo tanto,
![{\displaystyle {\begin{aligned}\operatorname {RSS} &=\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}=\sum _ {i=1}^{n}(y_{i}-(ax_{i}+b))^{2}=\sum _{i=1}^{n}(y_{i}-ax_{i) }-{\bar {y}}+a{\bar {x}})^{2}\\[5pt]&=\sum _{i=1}^{n}(a({\bar {x }}-x_{i})-({\bar {y}}-y_{i}))^{2}=a^{2}S_{xx}-2aS_{xy}+S_{yy}=S_ {yy}-aS_{xy}=S_{yy}\left(1-{\frac {S_{xy}^{2}}{S_{xx}S_{yy}}}\right)\end{aligned} }}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
dónde![{\displaystyle S_{yy}=\sum _{i=1}^{n}({\bar {y}}-y_{i})^{2}.}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
La correlación producto-momento de Pearson viene dada por , por tanto,![{\displaystyle r={\frac {S_{xy}}{\sqrt {S_{xx}S_{yy}}}};}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
![{\displaystyle \operatorname {RSS} =S_{yy}(1-r^{2}).}](data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7)
Ver también
Referencias
- ^ Archidiácono, Thomas J. (1994). Análisis de correlación y regresión: una guía para el historiador . Prensa de la Universidad de Wisconsin. págs. 161-162. ISBN 0-299-13650-7. OCLC 27266095.
- Draper, NR; Smith, H. (1998). Análisis de regresión aplicada (3ª ed.). Juan Wiley. ISBN 0-471-17082-8.