stringtranslate.com

Selección de modelo

La selección de modelos es la tarea de seleccionar un modelo entre varios candidatos sobre la base de un criterio de rendimiento para elegir el mejor. [1] En el contexto del aprendizaje automático y, de manera más general, del análisis estadístico , esto puede ser la selección de un modelo estadístico de un conjunto de modelos candidatos, dados los datos. En los casos más simples, se considera un conjunto de datos preexistentes. Sin embargo, la tarea también puede implicar el diseño de experimentos de modo que los datos recopilados se adapten bien al problema de selección de modelos. Dados los modelos candidatos de poder predictivo o explicativo similar, es más probable que el modelo más simple sea la mejor opción ( navaja de Occam ).

Konishi y Kitagawa (2008, p. 75) afirman que "la mayoría de los problemas en la inferencia estadística pueden considerarse problemas relacionados con el modelado estadístico". En este sentido, Cox (2006, p. 197) ha dicho que "la forma en que se realiza la traducción del problema en cuestión al modelo estadístico es a menudo la parte más crítica de un análisis".

La selección de modelos también puede referirse al problema de seleccionar unos pocos modelos representativos de un gran conjunto de modelos computacionales con el propósito de tomar decisiones u optimizar bajo incertidumbre. [2]

En el aprendizaje automático , los enfoques algorítmicos para la selección de modelos incluyen la selección de características , la optimización de hiperparámetros y la teoría del aprendizaje estadístico .

Introducción

El ciclo de observación científica.

En sus formas más básicas, la selección de modelos es una de las tareas fundamentales de la investigación científica . La determinación del principio que explica una serie de observaciones suele estar vinculada directamente a un modelo matemático que predice esas observaciones. Por ejemplo, cuando Galileo realizó sus experimentos en el plano inclinado , demostró que el movimiento de las bolas se ajustaba a la parábola predicha por su modelo [ cita requerida ] .

De la innumerable cantidad de posibles mecanismos y procesos que podrían haber producido los datos, ¿cómo se puede siquiera empezar a elegir el mejor modelo? El enfoque matemático que se adopta habitualmente decide entre un conjunto de modelos candidatos; este conjunto debe ser elegido por el investigador. A menudo se utilizan modelos simples como polinomios , al menos inicialmente [ cita requerida ] . Burnham y Anderson (2002) enfatizan a lo largo de su libro la importancia de elegir modelos basados ​​en principios científicos sólidos, como la comprensión de los procesos o mecanismos fenomenológicos (por ejemplo, reacciones químicas) subyacentes a los datos.

Una vez elegido el conjunto de modelos candidatos, el análisis estadístico nos permite seleccionar el mejor de estos modelos. Lo que se entiende por mejor es controvertido. Una buena técnica de selección de modelos equilibrará la bondad de ajuste con la simplicidad. Los modelos más complejos serán más capaces de adaptar su forma para ajustarse a los datos (por ejemplo, un polinomio de quinto orden puede ajustarse exactamente a seis puntos), pero los parámetros adicionales pueden no representar nada útil. (Quizás esos seis puntos estén realmente distribuidos aleatoriamente sobre una línea recta). La bondad de ajuste se determina generalmente utilizando un enfoque de razón de verosimilitud , o una aproximación de este, lo que conduce a una prueba de chi-cuadrado . La complejidad se mide generalmente contando el número de parámetros en el modelo.

Las técnicas de selección de modelos pueden considerarse como estimadores de alguna cantidad física, como la probabilidad de que el modelo produzca los datos dados. El sesgo y la varianza son medidas importantes de la calidad de este estimador; la eficiencia también suele considerarse.

Un ejemplo estándar de selección de modelos es el del ajuste de curvas , donde, dado un conjunto de puntos y otros conocimientos previos (por ejemplo, los puntos son el resultado de muestras iid ), debemos seleccionar una curva que describa la función que generó los puntos.

Dos direcciones de selección de modelos

Existen dos objetivos principales en la inferencia y el aprendizaje a partir de datos. Uno es el descubrimiento científico, también llamado inferencia estadística, la comprensión del mecanismo subyacente de generación de datos y la interpretación de la naturaleza de los datos. Otro objetivo del aprendizaje a partir de datos es la predicción de observaciones futuras o no observadas, también llamada predicción estadística. En el segundo objetivo, el científico de datos no necesariamente se preocupa por una descripción probabilística precisa de los datos. Por supuesto, uno también puede estar interesado en ambas direcciones.

En consonancia con los dos objetivos diferentes, la selección de modelos también puede tener dos direcciones: selección de modelos para inferencia y selección de modelos para predicción. [3] La primera dirección es identificar el mejor modelo para los datos, que preferiblemente proporcionará una caracterización confiable de las fuentes de incertidumbre para la interpretación científica. Para este objetivo, es significativamente importante que el modelo seleccionado no sea demasiado sensible al tamaño de la muestra. En consecuencia, una noción apropiada para evaluar la selección de modelos es la consistencia de la selección, lo que significa que el candidato más robusto será seleccionado de manera consistente dada una cantidad suficiente de muestras de datos.

La segunda dirección es elegir un modelo como mecanismo para ofrecer un excelente desempeño predictivo. Sin embargo, para este último caso, el modelo seleccionado puede ser simplemente el afortunado ganador entre unos pocos competidores cercanos, pero aun así el desempeño predictivo puede ser el mejor posible. Si es así, la selección del modelo es adecuada para el segundo objetivo (predicción), pero el uso del modelo seleccionado para obtener información e interpretación puede ser muy poco confiable y engañoso. [3] Además, para modelos muy complejos seleccionados de esta manera, incluso las predicciones pueden ser poco razonables para datos que solo difieren ligeramente de aquellos en los que se hizo la selección. [4]

Métodos para ayudar a elegir el conjunto de modelos candidatos

Criterios

A continuación se presenta una lista de criterios para la selección de modelos. Los criterios de información más utilizados son (i) el criterio de información de Akaike y (ii) el factor de Bayes y/o el criterio de información bayesiano (que en cierta medida se aproxima al factor de Bayes); véase Stoica y Selen (2004) para una revisión.

Entre estos criterios, la validación cruzada suele ser el más preciso y computacionalmente el más costoso para los problemas de aprendizaje supervisado. [ cita requerida ]

Burnham y Anderson (2002, §6.3) dicen lo siguiente:

Existe una variedad de métodos de selección de modelos. Sin embargo, desde el punto de vista del desempeño estadístico de un método y del contexto previsto para su uso, solo hay dos clases distintas de métodos: Estos se han etiquetado como eficientes y consistentes . (...) Bajo el paradigma frecuentista para la selección de modelos, generalmente se tienen tres enfoques principales: (I) optimización de algunos criterios de selección, (II) pruebas de hipótesis y (III) métodos ad hoc.

Véase también

Notas

  1. ^ Hastie, Tibshirani, Friedman (2009). Los elementos del aprendizaje estadístico . Springer. pág. 195. {{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
  2. ^ Shirangi, Mehrdad G.; Durlofsky, Louis J. (2016). "Un método general para seleccionar modelos representativos para la toma de decisiones y la optimización en condiciones de incertidumbre". Computers & Geosciences . 96 : 109–123. Bibcode :2016CG.....96..109S. doi :10.1016/j.cageo.2016.08.002.
  3. ^ ab Ding, Jie; Tarokh, Vahid; Yang, Yuhong (2018). "Técnicas de selección de modelos: una descripción general". Revista IEEE Signal Processing . 35 (6): 16–34. arXiv : 1810.09583 . Código Bibliográfico :2018ISPM...35f..16D. doi :10.1109/MSP.2018.2867638. ISSN  1053-5888. S2CID  53035396.
  4. ^ Su, J.; Vargas, DV; Sakurai, K. (2019). "Ataque de un píxel para engañar a las redes neuronales profundas". IEEE Transactions on Evolutionary Computation . 23 (5): 828–841. arXiv : 1710.08864 . doi :10.1109/TEVC.2019.2890858. S2CID  2698863.
  5. ^ Ding, J.; Tarokh, V.; Yang, Y. (junio de 2018). "Uniendo AIC y BIC: un nuevo criterio para la autorregresión". IEEE Transactions on Information Theory . 64 (6): 4024–4043. arXiv : 1508.02473 . doi :10.1109/TIT.2017.2717599. ISSN  1557-9654. S2CID  5189440.
  6. ^ Tsao, Min (2023). "Selección de modelos de regresión mediante la razón de verosimilitud logarítmica y el criterio mínimo restringido". Revista Canadiense de Estadística . 52 : 195–211. arXiv : 2107.08529 . doi :10.1002/cjs.11756. S2CID  236087375.

Referencias