Hiperparámetro (aprendizaje automático)

En el aprendizaje automático , un hiperparámetro es un parámetro que se puede configurar para definir cualquier parte configurable del proceso de aprendizaje de un modelo . Los hiperparámetros se pueden clasificar como hiperparámetros del modelo (como la topología y el tamaño de una red neuronal ) o hiperparámetros del algoritmo (como la tasa de aprendizaje y el tamaño del lote de un optimizador ). Estos se denominan hiperparámetros en contraste con los parámetros , que son características que el modelo aprende de los datos.

No todos los modelos o algoritmos requieren hiperparámetros. Algunos algoritmos simples, como la regresión de mínimos cuadrados ordinarios, no requieren ninguno. Sin embargo, el algoritmo LASSO , por ejemplo, agrega un hiperparámetro de regularización a los mínimos cuadrados ordinarios que se debe configurar antes del entrenamiento. ^[1] Incluso los modelos y algoritmos que no requieren estrictamente definir hiperparámetros pueden no producir resultados significativos si estos no se eligen con cuidado. Sin embargo, los valores óptimos para los hiperparámetros no siempre son fáciles de predecir. Algunos hiperparámetros pueden no tener un efecto significativo, o una variable importante puede estar condicionada al valor de otra. A menudo, se necesita un proceso independiente de ajuste de hiperparámetros para encontrar una combinación adecuada para los datos y la tarea.

Además de mejorar el rendimiento del modelo, los investigadores pueden utilizar hiperparámetros para introducir robustez y reproducibilidad en su trabajo, especialmente si utilizan modelos que incorporan generación de números aleatorios .

Consideraciones

El tiempo necesario para entrenar y probar un modelo puede depender de la elección de sus hiperparámetros. ^[2] Un hiperparámetro suele ser de tipo continuo o entero, lo que conduce a problemas de optimización de tipo mixto. ^[2] La existencia de algunos hiperparámetros depende del valor de otros, por ejemplo, el tamaño de cada capa oculta en una red neuronal puede depender del número de capas. ^[2]

Parámetros de dificultad de aprendizaje

La función objetivo normalmente no es diferenciable con respecto a los hiperparámetros. ^{[ aclaración necesaria ]} Como resultado, en la mayoría de los casos, los hiperparámetros no se pueden aprender utilizando métodos de optimización basados en gradientes (como el descenso de gradientes), que se emplean comúnmente para aprender parámetros del modelo. Estos hiperparámetros son aquellos parámetros que describen una representación del modelo que no se puede aprender mediante métodos de optimización comunes, pero que, no obstante, afectan la función de pérdida. Un ejemplo sería el hiperparámetro de tolerancia para errores en máquinas de vectores de soporte .

Parámetros no entrenables

A veces, los hiperparámetros no se pueden aprender de los datos de entrenamiento porque aumentan agresivamente la capacidad de un modelo y pueden llevar la función de pérdida a un mínimo no deseado ( sobreajuste a los datos), en lugar de mapear correctamente la riqueza de la estructura en los datos. Por ejemplo, si tratamos el grado de ajuste de una ecuación polinómica a un modelo de regresión como un parámetro entrenable , el grado aumentaría hasta que el modelo se ajustara perfectamente a los datos, lo que produciría un error de entrenamiento bajo, pero un rendimiento de generalización deficiente.

Capacidad de ajuste

La mayor parte de la variación de rendimiento se puede atribuir a solo unos pocos hiperparámetros. ^[3]^[2]^[4] La capacidad de ajuste de un algoritmo, hiperparámetro o hiperparámetros que interactúan es una medida de cuánto rendimiento se puede obtener al ajustarlo. ^[5] Para un LSTM , si bien la tasa de aprendizaje seguida del tamaño de la red son sus hiperparámetros más cruciales, ^[6] el procesamiento por lotes y el impulso no tienen un efecto significativo en su rendimiento. ^[7]

Aunque algunas investigaciones han recomendado el uso de tamaños de mini-lotes de miles, otros trabajos han encontrado el mejor rendimiento con tamaños de mini-lotes entre 2 y 32. ^[8]

Robustez

Una estocasticidad inherente en el aprendizaje implica directamente que el desempeño empírico del hiperparámetro no es necesariamente su verdadero desempeño. ^[2] Los métodos que no son robustos a cambios simples en hiperparámetros, semillas aleatorias o incluso diferentes implementaciones del mismo algoritmo no se pueden integrar en sistemas de control de misión crítica sin una simplificación y robustez significativas. ^[9]

Los algoritmos de aprendizaje de refuerzo , en particular, requieren medir su desempeño sobre una gran cantidad de semillas aleatorias, y también medir su sensibilidad a las elecciones de hiperparámetros. ^[9] Su evaluación con una pequeña cantidad de semillas aleatorias no captura el desempeño adecuadamente debido a la alta varianza. ^[9] Algunos métodos de aprendizaje de refuerzo, por ejemplo, DDPG (Deep Deterministic Policy Gradient), son más sensibles a las elecciones de hiperparámetros que otros. ^[9]

Mejoramiento

La optimización de hiperparámetros encuentra una tupla de hiperparámetros que produce un modelo óptimo que minimiza una función de pérdida predefinida en datos de prueba dados. ^[2] La función objetivo toma una tupla de hiperparámetros y devuelve la pérdida asociada. ^[2] Por lo general, estos métodos no se basan en gradientes y, en su lugar, aplican conceptos de optimización sin derivadas o optimización de caja negra.

Reproducibilidad

Además de ajustar los hiperparámetros, el aprendizaje automático implica almacenar y organizar los parámetros y los resultados, y asegurarse de que sean reproducibles. ^[10] En ausencia de una infraestructura robusta para este propósito, el código de investigación a menudo evoluciona rápidamente y compromete aspectos esenciales como la contabilidad y la reproducibilidad . ^[11] Las plataformas de colaboración en línea para el aprendizaje automático van más allá al permitir que los científicos compartan, organicen y discutan automáticamente experimentos, datos y algoritmos. ^[12] La reproducibilidad puede ser particularmente difícil para los modelos de aprendizaje profundo . ^[13] Por ejemplo, la investigación ha demostrado que los modelos de aprendizaje profundo dependen en gran medida incluso de la selección aleatoria de semillas del generador de números aleatorios . ^[14]

Véase también

Referencias

^ Yang, Li; Shami, Abdallah (2020-11-20). "Sobre la optimización de hiperparámetros de algoritmos de aprendizaje automático: teoría y práctica". Neurocomputing . 415 : 295–316. arXiv : 2007.15745 . doi :10.1016/j.neucom.2020.07.061. ISSN 0925-2312. S2CID 220919678.
^ abcdefg "Claesen, Marc y Bart De Moor. "Búsqueda de hiperparámetros en aprendizaje automático". arXiv preprint arXiv:1502.02127 (2015)". arXiv : 1502.02127 . Código Bibliográfico :2015arXiv150202127C.
^ Leyton-Brown, Kevin; Hoos, Holger; Hutter, Frank (27 de enero de 2014). "Un enfoque eficiente para evaluar la importancia de los hiperparámetros": 754–762 – vía procedures.mlr.press. {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ "van Rijn, Jan N., y Frank Hutter. "Importancia de los hiperparámetros en distintos conjuntos de datos". arXiv preprint arXiv:1710.04725 (2017)". arXiv : 1710.04725 . Código Bibliográfico :2017arXiv171004725V.
^ "Probst, Philipp, Bernd Bischl y Anne-Laure Boulesteix. "Capacidad de ajuste: importancia de los hiperparámetros de los algoritmos de aprendizaje automático". arXiv preprint arXiv:1802.09596 (2018)". arXiv : 1802.09596 . Código Bibliográfico :2018arXiv180209596P.
^ Greff, K.; Srivastava, RK; Koutník, J.; Steunebrink, BR; Schmidhuber, J. (23 de octubre de 2017). "LSTM: una odisea del espacio de búsqueda". Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . 28 (10): 2222–2232. arXiv : 1503.04069 . doi :10.1109/TNNLS.2016.2582924. PMID 27411231. S2CID 3356463.
^ "Breuel, Thomas M. "Evaluación comparativa de redes LSTM". arXiv preprint arXiv:1508.02774 (2015)". arXiv : 1508.02774 . Código Bibliográfico :2015arXiv150802774B.
^ "Revisitando el entrenamiento en lotes pequeños para redes neuronales profundas (2018)". arXiv : 1804.07612 . Código Bibliográfico :2018arXiv180407612M.
^ abcd "Mania, Horia, Aurelia Guy y Benjamin Recht. "La búsqueda aleatoria simple proporciona un enfoque competitivo para el aprendizaje por refuerzo". arXiv preprint arXiv:1803.07055 (2018)". arXiv : 1803.07055 . Código Bibliográfico :2018arXiv180307055M.
^ "Greff, Klaus y Jürgen Schmidhuber. "Presentando Sacred: una herramienta para facilitar la investigación reproducible". (PDF) . 2015.
^ "Greff, Klaus, et al. "La infraestructura sagrada para la investigación computacional"." (PDF) . 2017. Archivado desde el original (PDF) el 2020-09-29 . Consultado el 2018-04-06 .
^ "Vanschoren, Joaquin, et al. "OpenML: ciencia en red en aprendizaje automático". arXiv preprint arXiv:1407.7722 (2014)". arXiv : 1407.7722 . Código Bibliográfico :2014arXiv1407.7722V.
^ Villa, Jennifer; Zimmerman, Yoav (25 de mayo de 2018). "Reproducibilidad en ML: por qué es importante y cómo lograrla". Blog de Determined AI . Consultado el 31 de agosto de 2020 .
^ Bethard, S. (2022). Necesitamos hablar sobre semillas aleatorias. ArXiv, abs/2210.13393.