La paradoja de Freedman

En el análisis estadístico , la paradoja de Freedman , ^[1]^[2] que lleva el nombre de David Freedman , es un problema en la selección de modelos mediante el cual las variables predictivas sin relación con la variable dependiente pueden pasar pruebas de significancia, tanto individualmente mediante una prueba t como de forma conjunta. mediante una prueba F para la significancia de la regresión. Freedman demostró (mediante simulación y cálculo asintótico) que esto ocurre con frecuencia cuando el número de variables es similar al número de puntos de datos.

Específicamente, si la variable dependiente y los k regresores son variables normales independientes, y hay n observaciones, entonces como k y n juntos van al infinito en la relación k / n = ρ ,

el R ² va a ρ ,
el estadístico F para la regresión general va a 1,0, y
el número de regresores falsamente significativos llega a αk donde α es la probabilidad crítica elegida (probabilidad de error de Tipo I para un regresor). Este tercer resultado es intuitivo porque dice que el número de errores de Tipo I es igual a la probabilidad de un error de Tipo I en un parámetro individual multiplicada por el número de parámetros para los cuales se prueba la significancia.

Más recientemente, se han desarrollado nuevos estimadores teóricos de la información en un intento de reducir este problema, ^[3] además del problema acompañante del sesgo de selección del modelo, ^[4] por el cual los estimadores de variables predictivas que tienen una relación débil con la variable de respuesta son parciales.

Referencias

^ Freedman, David A. (1983). "Una nota sobre la detección de ecuaciones de regresión". El estadístico estadounidense . 37 (2): 152-155. doi :10.1080/00031305.1983.10482729. ISSN 0003-1305.
^ Liberto, Laurence S.; Pee, David (noviembre de 1989). "Volver a una nota sobre la detección de ecuaciones de regresión". El estadístico estadounidense . 43 (4): 279–282. doi :10.2307/2685389. JSTOR 2685389.
^ Lukacs, PM, Burnham, KP y Anderson, DR (2010) "Sesgo de selección de modelos y paradoja de Freedman". Anales del Instituto de Matemática Estadística , 62(1), 117–125 doi :10.1007/s10463-009-0234-4
^ Burnham, KP y Anderson, DR (2002). Selección de modelos e inferencia multimodelo: un enfoque teórico-práctico, 2ª ed. Springer-Verlag.