En estadística , la suma de cuadrados del error residual predicho ( PRESS ) es una forma de validación cruzada utilizada en el análisis de regresión para proporcionar una medida resumida del ajuste de un modelo a una muestra de observaciones que no se utilizaron para estimar el modelo. Se calcula como la suma de cuadrados de los residuos de predicción para esas observaciones. [1] [2] [3] Específicamente, la estadística PRESS es una forma exhaustiva de validación cruzada, ya que prueba todas las formas posibles en que los datos originales se pueden dividir en un conjunto de entrenamiento y uno de validación.
Una vez elaborado un modelo ajustado , se eliminan las observaciones una por una y se reajusta el modelo utilizando las observaciones restantes (de forma similar a la validación cruzada de dejar una fuera ). Se calcula el valor predicho fuera de la muestra para la observación omitida en cada caso, y la estadística PRESS se calcula como la suma de los cuadrados de todos los errores de predicción resultantes: [4]
Dado este procedimiento, la estadística PRESS se puede calcular para una serie de estructuras de modelo candidatas para el mismo conjunto de datos, donde los valores más bajos de PRESS indican las mejores estructuras. Los modelos que están sobreparametrizados ( sobreajustados ) tenderían a dar residuos pequeños para las observaciones incluidas en el ajuste del modelo, pero residuos grandes para las observaciones que se excluyen. La estadística PRESS se ha utilizado ampliamente en el aprendizaje perezoso y el aprendizaje lineal local para acelerar la evaluación y la selección del tamaño del vecindario. [5] [6]