Tarea de selección de un modelo estadístico de un conjunto de modelos candidatos
La selección de modelos es la tarea de seleccionar un modelo entre varios candidatos sobre la base de un criterio de rendimiento para elegir el mejor. [1]
En el contexto del aprendizaje automático y, de manera más general, del análisis estadístico , esto puede ser la selección de un modelo estadístico de un conjunto de modelos candidatos, dados los datos. En los casos más simples, se considera un conjunto de datos preexistentes. Sin embargo, la tarea también puede implicar el diseño de experimentos de modo que los datos recopilados se adapten bien al problema de selección de modelos. Dados los modelos candidatos de poder predictivo o explicativo similar, es más probable que el modelo más simple sea la mejor opción ( navaja de Occam ).
Konishi y Kitagawa (2008, p. 75) afirman que "la mayoría de los problemas en la inferencia estadística pueden considerarse problemas relacionados con el modelado estadístico". En este sentido, Cox (2006, p. 197) ha dicho que "la forma en que se realiza la traducción del problema en cuestión al modelo estadístico es a menudo la parte más crítica de un análisis".
La selección de modelos también puede referirse al problema de seleccionar unos pocos modelos representativos de un gran conjunto de modelos computacionales con el propósito de tomar decisiones u optimizar bajo incertidumbre. [2]
En sus formas más básicas, la selección de modelos es una de las tareas fundamentales de la investigación científica . La determinación del principio que explica una serie de observaciones suele estar vinculada directamente a un modelo matemático que predice esas observaciones. Por ejemplo, cuando Galileo realizó sus experimentos en el plano inclinado , demostró que el movimiento de las bolas se ajustaba a la parábola predicha por su modelo [ cita requerida ] .
De la innumerable cantidad de posibles mecanismos y procesos que podrían haber producido los datos, ¿cómo se puede siquiera empezar a elegir el mejor modelo? El enfoque matemático que se adopta habitualmente decide entre un conjunto de modelos candidatos; este conjunto debe ser elegido por el investigador. A menudo se utilizan modelos simples como polinomios , al menos inicialmente [ cita requerida ] . Burnham y Anderson (2002) enfatizan a lo largo de su libro la importancia de elegir modelos basados en principios científicos sólidos, como la comprensión de los procesos o mecanismos fenomenológicos (por ejemplo, reacciones químicas) subyacentes a los datos.
Una vez elegido el conjunto de modelos candidatos, el análisis estadístico nos permite seleccionar el mejor de estos modelos. Lo que se entiende por mejor es controvertido. Una buena técnica de selección de modelos equilibrará la bondad de ajuste con la simplicidad. Los modelos más complejos serán más capaces de adaptar su forma para ajustarse a los datos (por ejemplo, un polinomio de quinto orden puede ajustarse exactamente a seis puntos), pero los parámetros adicionales pueden no representar nada útil. (Quizás esos seis puntos estén realmente distribuidos aleatoriamente sobre una línea recta). La bondad de ajuste se determina generalmente utilizando un enfoque de razón de verosimilitud , o una aproximación de este, lo que conduce a una prueba de chi-cuadrado . La complejidad se mide generalmente contando el número de parámetros en el modelo.
Las técnicas de selección de modelos pueden considerarse como estimadores de alguna cantidad física, como la probabilidad de que el modelo produzca los datos dados. El sesgo y la varianza son medidas importantes de la calidad de este estimador; la eficiencia también suele considerarse.
Un ejemplo estándar de selección de modelos es el del ajuste de curvas , donde, dado un conjunto de puntos y otros conocimientos previos (por ejemplo, los puntos son el resultado de muestras iid ), debemos seleccionar una curva que describa la función que generó los puntos.
Dos direcciones de selección de modelos
Existen dos objetivos principales en la inferencia y el aprendizaje a partir de datos. Uno es el descubrimiento científico, también llamado inferencia estadística, la comprensión del mecanismo subyacente de generación de datos y la interpretación de la naturaleza de los datos. Otro objetivo del aprendizaje a partir de datos es la predicción de observaciones futuras o no observadas, también llamada predicción estadística. En el segundo objetivo, el científico de datos no necesariamente se preocupa por una descripción probabilística precisa de los datos. Por supuesto, uno también puede estar interesado en ambas direcciones.
En consonancia con los dos objetivos diferentes, la selección de modelos también puede tener dos direcciones: selección de modelos para inferencia y selección de modelos para predicción. [3] La primera dirección es identificar el mejor modelo para los datos, que preferiblemente proporcionará una caracterización confiable de las fuentes de incertidumbre para la interpretación científica. Para este objetivo, es significativamente importante que el modelo seleccionado no sea demasiado sensible al tamaño de la muestra. En consecuencia, una noción apropiada para evaluar la selección de modelos es la consistencia de la selección, lo que significa que el candidato más robusto será seleccionado de manera consistente dada una cantidad suficiente de muestras de datos.
La segunda dirección es elegir un modelo como mecanismo para ofrecer un excelente desempeño predictivo. Sin embargo, para este último caso, el modelo seleccionado puede ser simplemente el afortunado ganador entre unos pocos competidores cercanos, pero aun así el desempeño predictivo puede ser el mejor posible. Si es así, la selección del modelo es adecuada para el segundo objetivo (predicción), pero el uso del modelo seleccionado para obtener información e interpretación puede ser muy poco confiable y engañoso. [3] Además, para modelos muy complejos seleccionados de esta manera, incluso las predicciones pueden ser poco razonables para datos que solo difieren ligeramente de aquellos en los que se hizo la selección. [4]
Métodos para ayudar a elegir el conjunto de modelos candidatos
A continuación se presenta una lista de criterios para la selección de modelos. Los criterios de información más utilizados son (i) el criterio de información de Akaike y (ii) el factor de Bayes y/o el criterio de información bayesiano (que en cierta medida se aproxima al factor de Bayes); véase Stoica y Selen (2004) para una revisión.
Criterio de información bayesiano (BIC), también conocido como criterio de información de Schwarz, un criterio estadístico para la selección de modelos.
Criterio de puente (BC), un criterio estadístico que puede lograr un mejor rendimiento de AIC y BIC a pesar de la idoneidad de la especificación del modelo. [5]
Criterio de información focalizada (FIC), un criterio de selección que clasifica los modelos estadísticos por su eficacia para un parámetro de enfoque determinado
El criterio de información bayesiana extendida (EBIC) es una extensión del criterio de información bayesiana ordinario (BIC) para modelos con espacios de parámetros altos.
El criterio de información de Fisher extendido (EFIC) es un criterio de selección de modelos para modelos de regresión lineal.
El criterio mínimo restringido (CMC) es un criterio frecuentista para seleccionar modelos de regresión con una base geométrica. [6] [ aclaración necesaria ]
Entre estos criterios, la validación cruzada suele ser el más preciso y computacionalmente el más costoso para los problemas de aprendizaje supervisado. [ cita requerida ]
Burnham y Anderson (2002, §6.3) dicen lo siguiente:
Existe una variedad de métodos de selección de modelos. Sin embargo, desde el punto de vista del desempeño estadístico de un método y del contexto previsto para su uso, solo hay dos clases distintas de métodos: Estos se han etiquetado como eficientes y consistentes . (...) Bajo el paradigma frecuentista para la selección de modelos, generalmente se tienen tres enfoques principales: (I) optimización de algunos criterios de selección, (II) pruebas de hipótesis y (III) métodos ad hoc.
^ Hastie, Tibshirani, Friedman (2009). Los elementos del aprendizaje estadístico . Springer. pág. 195.{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Shirangi, Mehrdad G.; Durlofsky, Louis J. (2016). "Un método general para seleccionar modelos representativos para la toma de decisiones y la optimización en condiciones de incertidumbre". Computers & Geosciences . 96 : 109–123. Bibcode :2016CG.....96..109S. doi :10.1016/j.cageo.2016.08.002.
^ ab Ding, Jie; Tarokh, Vahid; Yang, Yuhong (2018). "Técnicas de selección de modelos: una descripción general". Revista IEEE Signal Processing . 35 (6): 16–34. arXiv : 1810.09583 . Código Bibliográfico :2018ISPM...35f..16D. doi :10.1109/MSP.2018.2867638. ISSN 1053-5888. S2CID 53035396.
^ Su, J.; Vargas, DV; Sakurai, K. (2019). "Ataque de un píxel para engañar a las redes neuronales profundas". IEEE Transactions on Evolutionary Computation . 23 (5): 828–841. arXiv : 1710.08864 . doi :10.1109/TEVC.2019.2890858. S2CID 2698863.
^ Ding, J.; Tarokh, V.; Yang, Y. (junio de 2018). "Uniendo AIC y BIC: un nuevo criterio para la autorregresión". IEEE Transactions on Information Theory . 64 (6): 4024–4043. arXiv : 1508.02473 . doi :10.1109/TIT.2017.2717599. ISSN 1557-9654. S2CID 5189440.
^ Tsao, Min (2023). "Selección de modelos de regresión mediante la razón de verosimilitud logarítmica y el criterio mínimo restringido". Revista Canadiense de Estadística . 52 : 195–211. arXiv : 2107.08529 . doi :10.1002/cjs.11756. S2CID 236087375.
Referencias
Aho, K.; Derryberry, D.; Peterson, T. (2014), "Selección de modelos para ecologistas: las visiones del mundo de AIC y BIC", Ecology , 95 (3): 631–636, Bibcode :2014Ecol...95..631A, doi :10.1890/13-1452.1, PMID 24804445
Akaike, H. (1994), "Implicaciones del punto de vista informativo en el desarrollo de la ciencia estadística", en Bozdogan, H. (ed.), Actas de la primera conferencia de EE. UU. y JAPÓN sobre las fronteras del modelado estadístico: un enfoque informativo, volumen 3 , Kluwer Academic Publishers , págs. 27-38
Anderson, DR (2008), Inferencia basada en modelos en las ciencias de la vida, Springer, ISBN 9780387740751
Ando, T. (2010), Selección de modelos bayesianos y modelado estadístico, CRC Press , ISBN 9781439836156
Breiman, L. (2001), "Modelado estadístico: las dos culturas", Statistical Science , 16 : 199–231, doi : 10.1214/ss/1009213726
Burnham, KP; Anderson, DR (2002), Selección de modelos e inferencia multimodelo: un enfoque práctico basado en la teoría de la información (2.ª ed.), Springer-Verlag, ISBN 0-387-95364-7[Esto tiene más de 38000 citas en Google Scholar ]
Chamberlin, TC (1890), "El método de hipótesis de trabajo múltiples", Science , 15 (366): 92–6, Bibcode :1890Sci....15R..92., doi :10.1126/science.ns-15.366.92, PMID 17782687(reimpreso en 1965, Science 148: 754–759 [1] doi :10.1126/science.148.3671.754)
Claeskens, G.; Hjort, NL (2008), Selección de modelos y promedio de modelos, Cambridge University Press, ISBN 9781139471800
Cox, DR (2006), Principios de inferencia estadística , Cambridge University Press
Ding, J.; Tarokh, V.; Yang, Y. (2018), "Técnicas de selección de modelos: una descripción general", IEEE Signal Processing Magazine , 35 (6): 16–34, arXiv : 1810.09583 , Bibcode :2018ISPM...35f..16D, doi :10.1109/MSP.2018.2867638, S2CID 53035396
Kashyap, RL (1982), "Elección óptima de partes AR y MA en modelos de promedio móvil autorregresivo", IEEE Transactions on Pattern Analysis and Machine Intelligence , PAMI-4 (2), IEEE: 99–104, doi :10.1109/TPAMI.1982.4767213, PMID 21869012, S2CID 18484243
Konishi, S.; Kitagawa, G. (2008), Criterios de información y modelado estadístico, Springer, Bibcode :2007icsm.book.....K, ISBN 9780387718866
Leeb, H.; Pötscher, BM (2009), "Selección de modelos", en Anderson, TG (ed.), Handbook of Financial Time Series , Springer, págs. 889–925, doi :10.1007/978-3-540-71297-8_39, ISBN 978-3-540-71296-1
Lukacs, PM; Thompson, WL; Kendall, WL; Gould, WR; Doherty, PF Jr.; Burnham, KP; Anderson, DR (2007), "Preocupaciones en relación con un llamado al pluralismo de la teoría de la información y la prueba de hipótesis", Journal of Applied Ecology , 44 (2): 456–460, Bibcode :2007JApEc..44..456L, doi :10.1111/j.1365-2664.2006.01267.x, S2CID 83816981
McQuarrie, Allan DR; Tsai, Chih-Ling (1998), Selección de modelos de regresión y series temporales , Singapur: World Scientific, ISBN 981-02-3242-X
Massart, P. (2007), Desigualdades de concentración y selección de modelos, Springer
Massart, P. (2014), "Un paseo no asintótico en probabilidad y estadística", en Lin, Xihong (ed.), Pasado, presente y futuro de la ciencia estadística , Chapman & Hall , págs. 309–321, ISBN 9781482204988
Navarro, DJ (2019), "Entre el diablo y el mar azul profundo: tensiones entre el juicio científico y la selección de modelos estadísticos", Computational Brain & Behavior , 2 : 28–34, doi : 10.1007/s42113-018-0019-z
Resende, Paulo Angelo Alves; Dorea, Chang Chung Yu (2016), "Identificación de modelos utilizando el criterio de determinación eficiente", Journal of Multivariate Analysis , 150 : 229–244, arXiv : 1409.7441 , doi :10.1016/j.jmva.2016.06.002, S2CID 5469654
Shmueli, G. (2010), "¿Explicar o predecir?", Statistical Science , 25 (3): 289–310, arXiv : 1101.0891 , doi :10.1214/10-STS330, MR 2791669, S2CID 15900983
Stoica, P.; Selen, Y. (2004), "Selección de orden de modelo: una revisión de las reglas de criterios de información" (PDF) , IEEE Signal Processing Magazine , 21 (4): 36–47, doi :10.1109/MSP.2004.1311138, S2CID 17338979
ingenio, E.; van den Heuvel, E.; Romeijn, J.-W. (2012), "'Todos los modelos están equivocados...': una introducción a la incertidumbre del modelo" (PDF) , Statistica Neerlandica , 66 (3): 217–236, doi :10.1111/j.1467-9574.2012.00530.x , S2CID 7793470
Wit, E.; McCullagh, P. (2001), Viana, MAG; Richards, D. St. P. (eds.), "La extensibilidad de los modelos estadísticos", Métodos algebraicos en estadística y probabilidad , págs. 327–340
Wójtowicz, Anna; Bigaj, Tomasz (2016), "Justificación, confirmación y el problema de las hipótesis mutuamente excluyentes", en Kuźniar, Adrian; Odrowąż-Sypniewska, Joanna (eds.), Uncovering Facts and Values , Brill Publishers , págs. 122–143, doi :10.1163/9789004312654_009, ISBN 9789004312654
Owrang, Arash; Jansson, Magnus (2018), "Un criterio de selección de modelos para la regresión lineal de alta dimensión", IEEE Transactions on Signal Processing , 66 (13): 3436–3446, Bibcode :2018ITSP...66.3436O, doi :10.1109/TSP.2018.2821628, ISSN 1941-0476, S2CID 46931136
B. Gohain, Prakash; Jansson, Magnus (2022), "Criterio de información bayesiano consistente e invariante de escala para la selección de orden en modelos de regresión lineal", Procesamiento de señales , 196 : 108499, Bibcode :2022SigPr.19608499G, doi : 10.1016/j.sigpro.2022.108499 , ISSN 0165-1684, S2CID 246759677