Paradoja estadística
En el análisis estadístico , la paradoja de Freedman , [1] [2] llamada así por David Freedman , es un problema en la selección de modelos por el cual las variables predictoras sin relación con la variable dependiente pueden pasar pruebas de significancia, tanto individualmente a través de una prueba t, como en conjunto a través de una prueba F para la significancia de la regresión. Freedman demostró (a través de simulación y cálculo asintótico) que esto es una ocurrencia común cuando el número de variables es similar al número de puntos de datos.
Específicamente, si la variable dependiente y k regresores son variables normales independientes, y hay n observaciones, entonces, como k y n tienden conjuntamente a infinito en la relación k / n = ρ ,
- el R 2 va a ρ ,
- La estadística F para la regresión general va a 1,0 y
- el número de regresores espuriamente significativos tiende a αk , donde α es la probabilidad crítica elegida (probabilidad de error de tipo I para un regresor). Este tercer resultado es intuitivo porque dice que el número de errores de tipo I es igual a la probabilidad de un error de tipo I en un parámetro individual multiplicado por el número de parámetros para los que se prueba la significancia.
Más recientemente, se han desarrollado nuevos estimadores basados en la teoría de la información en un intento de reducir este problema, [3] además del problema que lo acompaña, el sesgo de selección del modelo, [4] por el cual los estimadores de variables predictoras que tienen una relación débil con la variable de respuesta están sesgados.
Referencias
- ^ Freedman, David A. (1983). "Una nota sobre el cribado de ecuaciones de regresión". The American Statistician . 37 (2): 152–155. doi :10.1080/00031305.1983.10482729. ISSN 0003-1305.
- ^ Freedman, Laurence S.; Pee, David (noviembre de 1989). "Volver a una nota sobre el cribado de ecuaciones de regresión". The American Statistician . 43 (4): 279–282. doi :10.2307/2685389. JSTOR 2685389.
- ^ Lukacs, PM, Burnham, KP y Anderson, DR (2010) "Sesgo de selección de modelos y paradoja de Freedman". Anales del Instituto de Matemáticas Estadísticas , 62(1), 117–125 doi :10.1007/s10463-009-0234-4
- ^ Burnham, KP y Anderson, DR (2002). Selección de modelos e inferencia multimodelo: un enfoque práctico-teórico, 2.ª ed. Springer-Verlag.