En el aprendizaje automático , un hiperparámetro es un parámetro que se puede configurar para definir cualquier parte configurable del proceso de aprendizaje de un modelo . Los hiperparámetros se pueden clasificar como hiperparámetros del modelo (como la topología y el tamaño de una red neuronal ) o hiperparámetros del algoritmo (como la tasa de aprendizaje y el tamaño del lote de un optimizador ). Estos se denominan hiperparámetros en contraste con los parámetros , que son características que el modelo aprende de los datos.
No todos los modelos o algoritmos requieren hiperparámetros. Algunos algoritmos simples, como la regresión de mínimos cuadrados ordinarios, no requieren ninguno. Sin embargo, el algoritmo LASSO , por ejemplo, agrega un hiperparámetro de regularización a los mínimos cuadrados ordinarios que se debe configurar antes del entrenamiento. [1] Incluso los modelos y algoritmos que no requieren estrictamente definir hiperparámetros pueden no producir resultados significativos si estos no se eligen con cuidado. Sin embargo, los valores óptimos para los hiperparámetros no siempre son fáciles de predecir. Algunos hiperparámetros pueden no tener un efecto significativo, o una variable importante puede estar condicionada al valor de otra. A menudo, se necesita un proceso independiente de ajuste de hiperparámetros para encontrar una combinación adecuada para los datos y la tarea.
Además de mejorar el rendimiento del modelo, los investigadores pueden utilizar hiperparámetros para introducir robustez y reproducibilidad en su trabajo, especialmente si utilizan modelos que incorporan generación de números aleatorios .
El tiempo necesario para entrenar y probar un modelo puede depender de la elección de sus hiperparámetros. [2] Un hiperparámetro suele ser de tipo continuo o entero, lo que conduce a problemas de optimización de tipo mixto. [2] La existencia de algunos hiperparámetros depende del valor de otros, por ejemplo, el tamaño de cada capa oculta en una red neuronal puede depender del número de capas. [2]
La función objetivo normalmente no es diferenciable con respecto a los hiperparámetros. [ aclaración necesaria ] Como resultado, en la mayoría de los casos, los hiperparámetros no se pueden aprender utilizando métodos de optimización basados en gradientes (como el descenso de gradientes), que se emplean comúnmente para aprender parámetros del modelo. Estos hiperparámetros son aquellos parámetros que describen una representación del modelo que no se puede aprender mediante métodos de optimización comunes, pero que, no obstante, afectan la función de pérdida. Un ejemplo sería el hiperparámetro de tolerancia para errores en máquinas de vectores de soporte .
A veces, los hiperparámetros no se pueden aprender de los datos de entrenamiento porque aumentan agresivamente la capacidad de un modelo y pueden llevar la función de pérdida a un mínimo no deseado ( sobreajuste a los datos), en lugar de mapear correctamente la riqueza de la estructura en los datos. Por ejemplo, si tratamos el grado de ajuste de una ecuación polinómica a un modelo de regresión como un parámetro entrenable , el grado aumentaría hasta que el modelo se ajustara perfectamente a los datos, lo que produciría un error de entrenamiento bajo, pero un rendimiento de generalización deficiente.
La mayor parte de la variación de rendimiento se puede atribuir a solo unos pocos hiperparámetros. [3] [2] [4] La capacidad de ajuste de un algoritmo, hiperparámetro o hiperparámetros que interactúan es una medida de cuánto rendimiento se puede obtener al ajustarlo. [5] Para un LSTM , si bien la tasa de aprendizaje seguida del tamaño de la red son sus hiperparámetros más cruciales, [6] el procesamiento por lotes y el impulso no tienen un efecto significativo en su rendimiento. [7]
Aunque algunas investigaciones han recomendado el uso de tamaños de mini-lotes de miles, otros trabajos han encontrado el mejor rendimiento con tamaños de mini-lotes entre 2 y 32. [8]
Una estocasticidad inherente en el aprendizaje implica directamente que el desempeño empírico del hiperparámetro no es necesariamente su verdadero desempeño. [2] Los métodos que no son robustos a cambios simples en hiperparámetros, semillas aleatorias o incluso diferentes implementaciones del mismo algoritmo no se pueden integrar en sistemas de control de misión crítica sin una simplificación y robustez significativas. [9]
Los algoritmos de aprendizaje de refuerzo , en particular, requieren medir su desempeño sobre una gran cantidad de semillas aleatorias, y también medir su sensibilidad a las elecciones de hiperparámetros. [9] Su evaluación con una pequeña cantidad de semillas aleatorias no captura el desempeño adecuadamente debido a la alta varianza. [9] Algunos métodos de aprendizaje de refuerzo, por ejemplo, DDPG (Deep Deterministic Policy Gradient), son más sensibles a las elecciones de hiperparámetros que otros. [9]
La optimización de hiperparámetros encuentra una tupla de hiperparámetros que produce un modelo óptimo que minimiza una función de pérdida predefinida en datos de prueba dados. [2] La función objetivo toma una tupla de hiperparámetros y devuelve la pérdida asociada. [2] Por lo general, estos métodos no se basan en gradientes y, en su lugar, aplican conceptos de optimización sin derivadas o optimización de caja negra.
Además de ajustar los hiperparámetros, el aprendizaje automático implica almacenar y organizar los parámetros y los resultados, y asegurarse de que sean reproducibles. [10] En ausencia de una infraestructura robusta para este propósito, el código de investigación a menudo evoluciona rápidamente y compromete aspectos esenciales como la contabilidad y la reproducibilidad . [11] Las plataformas de colaboración en línea para el aprendizaje automático van más allá al permitir que los científicos compartan, organicen y discutan automáticamente experimentos, datos y algoritmos. [12] La reproducibilidad puede ser particularmente difícil para los modelos de aprendizaje profundo . [13] Por ejemplo, la investigación ha demostrado que los modelos de aprendizaje profundo dependen en gran medida incluso de la selección aleatoria de semillas del generador de números aleatorios . [14]
{{cite journal}}
: Requiere citar revista |journal=
( ayuda )