stringtranslate.com

Selección de modelo

La selección de modelo es la tarea de seleccionar un modelo entre varios candidatos sobre la base de criterios de desempeño para elegir el mejor. [1] En el contexto del aprendizaje automático y, en general, del análisis estadístico , esto puede ser la selección de un modelo estadístico de un conjunto de modelos candidatos, dados los datos. En los casos más simples, se considera un conjunto de datos preexistente. Sin embargo, la tarea también puede implicar el diseño de experimentos de modo que los datos recopilados se adapten bien al problema de selección de modelos. Dados modelos candidatos con poder predictivo o explicativo similar, es más probable que el modelo más simple sea la mejor opción ( la navaja de Occam ).

Konishi y Kitagawa (2008, p. 75) afirman: "La mayoría de los problemas en la inferencia estadística pueden considerarse problemas relacionados con el modelado estadístico". En relación con esto, Cox (2006, p. 197) ha dicho: "La forma en que se realiza [la] traducción del problema de la materia al modelo estadístico es a menudo la parte más crítica de un análisis".

La selección de modelos también puede referirse al problema de seleccionar algunos modelos representativos de un gran conjunto de modelos computacionales con el fin de tomar decisiones u optimizar en condiciones de incertidumbre. [2]

En el aprendizaje automático , los enfoques algorítmicos para la selección de modelos incluyen la selección de características , la optimización de hiperparámetros y la teoría del aprendizaje estadístico .

Introducción

El ciclo de observación científica.

En sus formas más básicas, la selección de modelos es una de las tareas fundamentales de la investigación científica . La determinación del principio que explica una serie de observaciones suele estar directamente vinculada a un modelo matemático que predice esas observaciones. Por ejemplo, cuando Galileo realizó sus experimentos con el plano inclinado , demostró que el movimiento de las bolas se ajustaba a la parábola predicha por su modelo [ cita requerida ] .

De la innumerable cantidad de posibles mecanismos y procesos que podrían haber producido los datos, ¿cómo se puede siquiera empezar a elegir el mejor modelo? El enfoque matemático comúnmente adoptado decide entre un conjunto de modelos candidatos; este conjunto debe ser elegido por el investigador. A menudo se utilizan modelos simples como los polinomios , al menos inicialmente [ cita necesaria ] . Burnham y Anderson (2002) enfatizan a lo largo de su libro la importancia de elegir modelos basados ​​en principios científicos sólidos, como la comprensión de los procesos o mecanismos fenomenológicos (por ejemplo, reacciones químicas) subyacentes a los datos.

Una vez elegido el conjunto de modelos candidatos, el análisis estadístico nos permite seleccionar el mejor de estos modelos. Lo que se entiende por mejor es controvertido. Una buena técnica de selección de modelos equilibrará la bondad del ajuste con la simplicidad. Los modelos más complejos podrán adaptar mejor su forma para ajustarse a los datos (por ejemplo, un polinomio de quinto orden puede ajustarse exactamente a seis puntos), pero es posible que los parámetros adicionales no representen nada útil. (Quizás esos seis puntos en realidad estén distribuidos aleatoriamente alrededor de una línea recta). La bondad del ajuste generalmente se determina utilizando un enfoque de razón de verosimilitud , o una aproximación de este, lo que conduce a una prueba de chi-cuadrado . La complejidad generalmente se mide contando el número de parámetros del modelo.

Las técnicas de selección de modelos pueden considerarse como estimadores de alguna cantidad física, como la probabilidad de que el modelo produzca los datos dados. El sesgo y la varianza son medidas importantes de la calidad de este estimador; A menudo también se considera la eficiencia .

Un ejemplo estándar de selección de modelo es el de ajuste de curvas , donde, dado un conjunto de puntos y otros conocimientos previos (por ejemplo, los puntos son el resultado de muestras iid ), debemos seleccionar una curva que describa la función que generó los puntos.

Dos direcciones de selección de modelo.

Hay dos objetivos principales en la inferencia y el aprendizaje a partir de datos. Uno es para el descubrimiento científico, también llamado inferencia estadística, la comprensión del mecanismo subyacente de generación de datos y la interpretación de la naturaleza de los datos. Otro objetivo de aprender de los datos es predecir observaciones futuras o invisibles, también llamada predicción estadística. En el segundo objetivo, el científico de datos no necesariamente se refiere a una descripción probabilística precisa de los datos. Por supuesto, también podemos estar interesados ​​en ambas direcciones.

De acuerdo con los dos objetivos diferentes, la selección de modelos también puede tener dos direcciones: selección de modelos para inferencia y selección de modelos para predicción. [3] La primera dirección es identificar el mejor modelo para los datos, que preferiblemente proporcionará una caracterización confiable de las fuentes de incertidumbre para la interpretación científica. Para este objetivo, es muy importante que el modelo seleccionado no sea demasiado sensible al tamaño de la muestra. En consecuencia, una noción apropiada para evaluar la selección de modelos es la consistencia de la selección, lo que significa que el candidato más sólido será seleccionado consistentemente dada una cantidad suficiente de muestras de datos.

La segunda dirección es elegir un modelo como maquinaria que ofrezca un excelente rendimiento predictivo. Para este último, sin embargo, el modelo seleccionado puede ser simplemente el afortunado ganador entre unos pocos competidores cercanos, pero el rendimiento predictivo aún puede ser el mejor posible. Si es así, la selección del modelo está bien para el segundo objetivo (predicción), pero el uso del modelo seleccionado para obtener información e interpretación puede ser muy poco confiable y engañoso. [3] Además, para modelos muy complejos seleccionados de esta manera, incluso las predicciones pueden ser irrazonables para datos sólo ligeramente diferentes de aquellos sobre los que se realizó la selección. [4]

Métodos para ayudar en la elección del conjunto de modelos candidatos.

Criterios

A continuación se muestra una lista de criterios para la selección del modelo. Los criterios de información más comúnmente utilizados son (i) el criterio de información de Akaike y (ii) el factor Bayes y/o el criterio de información bayesiano (que hasta cierto punto se aproxima al factor Bayes); consulte Stoica y Selen (2004) para una revisión.

Entre estos criterios, la validación cruzada suele ser el más preciso y el más costoso desde el punto de vista computacional para los problemas de aprendizaje supervisado. [ cita necesaria ]

Burnham y Anderson (2002, §6.3) dicen lo siguiente:

Existe una variedad de métodos de selección de modelos. Sin embargo, desde el punto de vista del rendimiento estadístico de un método y el contexto previsto de su uso, sólo existen dos clases distintas de métodos: Estos han sido etiquetados como eficientes y consistentes . (...) Bajo el paradigma frecuentista para la selección de modelos, generalmente se tienen tres enfoques principales: (I) optimización de algunos criterios de selección, (II) pruebas de hipótesis y (III) métodos ad hoc.

Ver también

Notas

  1. ^ Hastie, Tibshirani, Friedman (2009). Los elementos del aprendizaje estadístico . Saltador. pag. 195. {{cite book}}: Mantenimiento CS1: varios nombres: lista de autores ( enlace )
  2. ^ Shirangi, Mehrdad G.; Durlofsky, Louis J. (2016). "Un método general para seleccionar modelos representativos para la toma de decisiones y optimización en condiciones de incertidumbre". Computadoras y Geociencias . 96 : 109-123. Código Bib : 2016CG.....96..109S. doi :10.1016/j.cageo.2016.08.002.
  3. ^ ab Ding, Jie; Tarokh, Vahid; Yang, Yuhong (2018). "Técnicas de selección de modelos: descripción general". Revista de procesamiento de señales IEEE . 35 (6): 16–34. arXiv : 1810.09583 . Código Bib : 2018 ISPM...35f..16D. doi :10.1109/MSP.2018.2867638. ISSN  1053-5888. S2CID  53035396.
  4. ^ Su, J.; Vargas, DV; Sakurai, K. (2019). "Ataque de un píxel para engañar a las redes neuronales profundas". Transacciones IEEE sobre computación evolutiva . 23 (5): 828–841. arXiv : 1710.08864 . doi :10.1109/TEVC.2019.2890858. S2CID  2698863.
  5. ^ Ding, J.; Tarokh, V.; Yang, Y. (junio de 2018). "Uniendo AIC y BIC: un nuevo criterio para la autorregresión". Transacciones IEEE sobre teoría de la información . 64 (6): 4024–4043. arXiv : 1508.02473 . doi :10.1109/TIT.2017.2717599. ISSN  1557-9654. S2CID  5189440.
  6. ^ Tsao, Min (2023). "Selección del modelo de regresión mediante índice de verosimilitud logarítmica y criterio mínimo restringido". Revista Canadiense de Estadísticas . arXiv : 2107.08529 . doi :10.1002/cjs.11756. S2CID  236087375.

Referencias