En estadística , la ecuación de Mallows , [1] [2] llamada así por Colin Lingwood Mallows , se utiliza para evaluar el ajuste de un modelo de regresión que se ha estimado utilizando mínimos cuadrados ordinarios . Se aplica en el contexto de la selección de modelos , donde hay una serie de variables predictoras disponibles para predecir algún resultado, y el objetivo es encontrar el mejor modelo que involucre un subconjunto de estos predictores. Un valor pequeño de significa que el modelo es relativamente preciso.
Se ha demostrado que el C p de Mallows es equivalente al criterio de información de Akaike en el caso especial de la regresión lineal gaussiana . [3]
El C p de Mallows aborda el problema del sobreajuste , en el que las estadísticas de selección de modelos, como la suma de cuadrados residuales, siempre se hacen más pequeñas a medida que se agregan más variables a un modelo. Por lo tanto, si nuestro objetivo es seleccionar el modelo que proporcione la suma de cuadrados residuales más pequeña, siempre se seleccionará el modelo que incluya todas las variables. En cambio, la estadística C p calculada sobre una muestra de datos estima el error de predicción de la suma de cuadrados (SSPE) como su objetivo poblacional .
donde es el valor ajustado del modelo de regresión para el i- ésimo caso, E ( Y i | X i ) es el valor esperado para el i- ésimo caso, y σ 2 es la varianza del error (asumida constante en todos los casos). El error cuadrático medio de predicción (MSPE) no se reducirá automáticamente a medida que se agreguen más variables. El modelo óptimo bajo este criterio es un compromiso influenciado por el tamaño de la muestra, los tamaños del efecto de los diferentes predictores y el grado de colinealidad entre ellos.
Si se seleccionan regresores P de un conjunto de K > P , la estadística C p para ese conjunto particular de regresores se define como:
dónde
Dado un modelo lineal como:
dónde:
Una versión alternativa de C p también se puede definir como: [5]
dónde
Tenga en cuenta que esta versión de C p no da valores equivalentes a la versión anterior, pero el modelo con el C p más pequeño de esta definición también será el mismo modelo con el C p más pequeño de la definición anterior.
El criterio C p adolece de dos limitaciones principales [6]
La estadística C p se utiliza a menudo como regla de detención para varias formas de regresión por pasos . Mallows propuso la estadística como criterio para seleccionar entre muchas regresiones de subconjuntos alternativas. En un modelo que no sufre de una falta apreciable de ajuste (sesgo), C p tiene una expectativa casi igual a P ; de lo contrario, la expectativa es aproximadamente P más un término de sesgo positivo. Sin embargo, aunque tiene una expectativa mayor o igual a P , no hay nada que impida que C p < P o incluso C p < 0 en casos extremos. Se sugiere que uno debería elegir un subconjunto que tenga C p acercándose a P , [7] de arriba, para una lista de subconjuntos ordenados por P creciente . En la práctica, el sesgo positivo se puede ajustar seleccionando un modelo de la lista ordenada de subconjuntos, de modo que C p < 2 P .
Dado que la estadística C p basada en la muestra es una estimación del MSPE, el uso de C p para la selección del modelo no protege completamente contra el sobreajuste. Por ejemplo, es posible que el modelo seleccionado sea uno en el que el C p de la muestra haya sido una subestimación particularmente grave del MSPE.
Las estadísticas de selección de modelos como C p generalmente no se utilizan a ciegas, sino que en el proceso de selección del modelo se tienen en cuenta la información sobre el campo de aplicación, el uso previsto del modelo y cualquier sesgo conocido en los datos.