Modelos de regresión múltiple postulados y no postulados

Un modelo relaciona una o varias variables que hay que explicar Y a unas variables explicativas X, por una relación funcional Y = F (X) Disponemos de n de observaciones (i = 1,…, n ) de p variables.

donde El cálculo de los coeficientes a j y del error del modelo, a partir de las observaciones, es un problema bien dominado (ver Regresión lineal).

Más delicado es la elección de las variables que entran en este modelo.

Solo los coeficientes del modelo precedente de regresión son dirigidos por los datos, la estructura polinómica del modelo es impuesta por el utilizador (según su peritaje del problema), que postula a priori: Ejemplo de modelo polinómico con dos variables explicativas:

En este caso hay que eliminar los doblones.

El modelo no postulado es al contrario totalmente dirigido por los datos , tanto su estructura matemática como sus coeficientes.

La selección de las variables explicativas no pide conocimiento a priori sobre el modelo: se efectúa entre un conjunto muy grande de variables, comprendiendo:

La selección se produce antes del cálculo de los coeficientes de la regresión según el principio siguiente: La lista por orden de importancia decreciente encontrada y clasificada, no puede contar más términos que desconocidas (n).

Si se guarda sólo un término en el modelo, deberá ser la primera de la lista.

El número de términos conservados en el modelo puede ser, por ejemplo, el que minimiza el error estándar de predicción SEP (Standard error of Prediction), o el que maximiza el F de Fisher.

Este modelo « parsimonioso », es decir conteniendo pocos términos (aquí tres), contrata 5 variables, y estará pegado mejor a la realidad física que un modelo polinómico.

En efecto la conjunción « E y G » que significa « E y G fuertes simultáneamente » es encontrado más a menudo en la realidad física (ejemplo: la catálisis en química) que un término polinómico de tipo E.G.

Un modelo no postulado será también eficaz en la descomposición armónica de las series.

En efecto, el principio se aplica también bien en caso de muestreo irregular (donde los métodos de tipo media móvil, ARIMA o Box y Jenkins son hechos caer en falta) que en los casos no estacionarios (donde Análisis armónico no se aplica).

Permite descubrir y desenredar las interferencias de ciclos diversos y estacionalidad con roturas de tendencias en escalón, en V, roturas logísticas, motivos periódicos, y acontecimientos accidentales tales como picos aislados o pedazos de ondas.

[1] Lesty M. (1999) Une nouvelle approche dans le choix des régresseurs de la régression multiple en présence d’interactions et de colinéarités.

41-77 [2] Lesty M. (2002) La recherche des harmoniques, une nouvelle fonction du logiciel CORICO.