[2] Por lo general, aunque no siempre, los hiperparámetros no pueden aprenderse con los conocidos métodos basados en el gradiente (como el descenso del gradiente o el LBFGS), que suelen emplearse para aprender parámetros.
[5] Para una LSTM, mientras que la tasa de aprendizaje seguida del tamaño de la red son sus hiperparámetros más cruciales,[6] la dosificación y el impulso no tienen un efecto significativo en su rendimiento.
[2] Los métodos que no son robustos a simples cambios en los hiperparámetros, semillas aleatorias o incluso diferentes implementaciones del mismo algoritmo no pueden integrarse en sistemas de control de misión crítica sin una simplificación y robustecimiento significativos.
[9] Su evaluación con un pequeño número de semillas aleatorias no captura el rendimiento adecuadamente debido a la alta varianza.
[2] La función objetivo toma una tupla de hiperparámetros y devuelve la pérdida asociada.
[11] Las plataformas de colaboración en línea para el aprendizaje automático van más allá al permitir a los científicos compartir, organizar y discutir automáticamente experimentos, datos y algoritmos.