stringtranslate.com

Regresión paso a paso

En estadística , la regresión por pasos es un método de ajuste de modelos de regresión en el que la elección de las variables predictivas se realiza mediante un procedimiento automático. [1] [2] [3] [4] En cada paso, se considera una variable para sumar o restar del conjunto de variables explicativas en función de algún criterio preespecificado. Por lo general, esto toma la forma de una secuencia directa, inversa o combinada de pruebas F o pruebas t .

La práctica frecuente de ajustar el modelo final seleccionado seguido de informes de estimaciones e intervalos de confianza sin ajustarlos para tener en cuenta el proceso de construcción del modelo ha llevado a llamados para dejar de usar la construcción de modelos paso a paso por completo [5] [6] o al menos asegurarse La incertidumbre del modelo se refleja correctamente mediante el uso de criterios automáticos preespecificados junto con estimaciones de error estándar más complejas que permanecen insesgadas [7] [8] .

En este ejemplo de ingeniería, la necesidad y la suficiencia suelen determinarse mediante pruebas F. Para una consideración adicional, al planificar un experimento , una simulación por computadora o una encuesta científica para recopilar datos para este modelo , se debe tener en cuenta la cantidad de parámetros , P , para estimar y ajustar el tamaño de la muestra en consecuencia. Para K variables , P  = 1 (Inicio)  +  K (Etapa I)  + ( K 2  −  K )/2 (Etapa II)  + 3 K (Etapa III) = 0,5 K 2  + 3,5 K  + 1. Para K  < 17 , existe un diseño eficiente de experimentos para este tipo de modelo, un diseño de Box-Behnken , [9] aumentado con puntos axiales positivos y negativos de longitud min(2, (int(1.5 +  K /4)) 1/2 ), punto(s) positivo(s) en el origen. Hay diseños más eficientes , que requieren menos tiradas, incluso para K  > 16.

Enfoques principales

Los principales enfoques para la regresión por pasos son:

Alternativas

Efroymson (1960) propuso por primera vez un algoritmo ampliamente utilizado. [10] Este es un procedimiento automático para la selección de modelos estadísticos en los casos en que hay una gran cantidad de variables explicativas potenciales y no hay una teoría subyacente en la cual basar la selección del modelo. El procedimiento se utiliza principalmente en análisis de regresión , aunque el enfoque básico es aplicable en muchas formas de selección de modelos. Esta es una variación de la selección directa. En cada etapa del proceso, después de agregar una nueva variable, se realiza una prueba para verificar si algunas variables se pueden eliminar sin aumentar apreciablemente la suma de cuadrados residual (RSS). El procedimiento termina cuando la medida se maximiza (localmente) o cuando la mejora disponible cae por debajo de algún valor crítico.

Uno de los principales problemas de la regresión por pasos es que busca en un gran espacio de modelos posibles. Por lo tanto, es propenso a sobreajustar los datos. En otras palabras, la regresión por pasos a menudo se ajustará mucho mejor a una muestra que a nuevos datos fuera de la muestra. Se han observado casos extremos en los que los modelos han alcanzado significación estadística trabajando con números aleatorios. [11] Este problema puede mitigarse si el criterio para agregar (o eliminar) una variable es lo suficientemente rígido. La línea clave en la arena está en lo que se puede considerar como el punto Bonferroni : es decir, qué tan significativa debe ser la mejor variable espuria basándose únicamente en el azar. En una escala estadística t , esto ocurre aproximadamente en , donde p es el número de predictores. Desafortunadamente, esto significa que muchas variables que realmente transportan señal no se incluirán. Esta valla resulta ser el equilibrio correcto entre un sobreajuste y una señal faltante. Si analizamos el riesgo de diferentes límites, entonces el uso de este límite estará dentro de un factor del mejor riesgo posible. Cualquier otro corte terminará teniendo un mayor riesgo de inflación. [12] [13]

Precisión del modelo

Una forma de probar errores en modelos creados mediante regresión por pasos es no confiar en el estadístico F , la significancia o la R múltiple del modelo, sino evaluar el modelo frente a un conjunto de datos que no se utilizó para crear el modelo. . [14] Esto a menudo se hace construyendo un modelo basado en una muestra del conjunto de datos disponible (por ejemplo, 70%) – el “ conjunto de entrenamiento ” – y utilizando el resto del conjunto de datos (por ejemplo, 30%) como conjunto de validación para evaluar la precisión del modelo. Luego, la precisión a menudo se mide como el error estándar real (SE), MAPE ( error porcentual absoluto medio ) o error medio entre el valor predicho y el valor real en la muestra reservada. [15] Este método es particularmente valioso cuando los datos se recopilan en diferentes entornos (por ejemplo, diferentes momentos, situaciones sociales versus solitarias) o cuando se supone que los modelos son generalizables.

Crítica

Los procedimientos de regresión por pasos se utilizan en la minería de datos , pero son controvertidos. Se han hecho varios puntos de crítica.

Tales críticas, basadas en las limitaciones de la relación entre un modelo y procedimiento y el conjunto de datos utilizado para ajustarlo, generalmente se abordan verificando el modelo en un conjunto de datos independiente, como en el procedimiento PRESS .

Los críticos consideran el procedimiento como un ejemplo paradigmático de dragado de datos , siendo la computación intensa a menudo un sustituto inadecuado de la experiencia en el área temática. Además, los resultados de la regresión por pasos a menudo se utilizan incorrectamente sin ajustarlos según la selección del modelo. Especialmente la práctica de ajustar el modelo final seleccionado como si no se hubiera realizado ninguna selección del modelo y de informar las estimaciones y los intervalos de confianza como si la teoría de mínimos cuadrados fuera válida para ellos, ha sido descrita como un escándalo. [7] El uso incorrecto generalizado y la disponibilidad de alternativas como el aprendizaje conjunto , dejar todas las variables en el modelo o utilizar el juicio de expertos para identificar variables relevantes han llevado a llamados a evitar totalmente la selección del modelo por pasos. [5]

Ver también

Referencias

  1. ^ Efroymson, MA (1960) "Análisis de regresión múltiple", Métodos matemáticos para computadoras digitales, Ralston A. y Wilf, HS, (eds.), Wiley, Nueva York.
  2. ^ Hocking, RR (1976) "El análisis y selección de variables en regresión lineal", Biometría, 32.
  3. ^ Draper, N. y Smith, H. (1981) Análisis de regresión aplicada, segunda edición, Nueva York: John Wiley & Sons, Inc.
  4. ^ SAS Institute Inc. (1989) Guía del usuario de SAS/STAT, versión 6, cuarta edición, volumen 2, Cary, Carolina del Norte: SAS Institute Inc.
  5. ^ ab Flom, PL y Cassell, DL (2007) "Detenerse por pasos: por qué los métodos de selección por pasos y similares son malos, y qué se debe utilizar", NESUG 2007.
  6. ^ Harrell, FE (2001) "Estrategias de modelado de regresión: con aplicaciones a modelos lineales, regresión logística y análisis de supervivencia", Springer-Verlag, Nueva York.
  7. ^ ab Chatfield, C. (1995) "Incertidumbre del modelo, extracción de datos e inferencia estadística", JR Statist. Soc. A 158, parte 3, págs. 419–466.
  8. ^ Efron, B. y Tibshirani, RJ (1998) "Una introducción al bootstrap", Chapman & Hall/CRC
  9. ^ Diseños de Box-Behnken de un manual sobre estadísticas de ingeniería en NIST
  10. ^ Efroymson, MA (1960) "Análisis de regresión múltiple". En Ralston, A. y Wilf, HS, editores, Métodos matemáticos para computadoras digitales. Wiley.
  11. ^ Knecht, WR. (2005). "Disposición del piloto para despegar en un clima marginal, Parte II: Sobreajuste de antecedentes con regresión logística gradual hacia adelante" . (Informe Técnico DOT/FAA/AM-O5/15). Administración Federal de Aviación
  12. ^ Foster, Dean P. y George, Edward I. (1994). El criterio de riesgo de inflación para la regresión múltiple. Anales de Estadística , 22 (4). 1947-1975. doi :10.1214/aos/1176325766
  13. ^ Donoho, David L. y Johnstone, Jain M. (1994). Adaptación espacial ideal mediante contracción de ondas. Biometrika , 81 (3): 425–455. doi :10.1093/biomet/81.3.425
  14. ^ Mark, Jonathan y Goldberg, Michael A. (2001). Análisis de regresión múltiple y evaluación masiva: una revisión de las cuestiones. The Appraisal Journal , enero, 89–109.
  15. ^ Mayers, JH y Forgy, EW (1963). El Desarrollo de sistemas numéricos de evaluación crediticia. Revista de la Asociación Estadounidense de Estadística, 58 (303; septiembre), 799–806.
  16. ^ Rencher, AC y Pun, FC (1980). Inflación de en la regresión del mejor subconjunto. Tecnometría, 22, 49–54.
  17. ^ Copas, JB (1983). Regresión, predicción y contracción. J. Roy. Estadístico. Soc. Serie B, 45, 311–354.
  18. ^ Wilkinson, L. y Dallal, GE (1981). Pruebas de significancia en regresión de selección directa con una regla de parada F-para entrar. Tecnometría, 23, 377–380.
  19. ^ Hurvich, CM y CL Tsai. 1990. El impacto de la selección de modelos en la inferencia en regresión lineal. Estadístico estadounidense 44: 214–217.
  20. ^ Roecker, Ellen B. (1991). Error de predicción y su estimación para subconjuntos de modelos seleccionados. Tecnometría, 33 , 459–468.