Optimización de hiperparámetros

Un hiperparámetro es un parámetro cuyo valor se utiliza para controlar el proceso de aprendizaje.

[2]​ La función objetivo toma una tupla de hiperparámetros y devuelve la pérdida asociada.

Puede aplicarse de forma sencilla al entorno discreto descrito anteriormente, pero también se generaliza a espacios continuos y mixtos.

[3]​ En este caso, se dice que el problema de optimización tiene una dimensionalidad intrínseca baja.

Mediante la evaluación iterativa de una configuración de hiperparámetros prometedora basada en el modelo actual, y su posterior actualización, la optimización bayesiana pretende recopilar observaciones que revelen tanta información como sea posible sobre esta función y, en particular, sobre la ubicación del óptimo.

[14]​[15]​[16]​[17]​ Un trabajo más reciente en esta dirección utiliza el teorema de la función implícita para calcular hipergradientes y propone una aproximación estable del hessiano inverso.

El método es escalable a millones de hiperparámetros y requiere memoria constante.

En un enfoque diferente,[18]​ se entrena una hiperred para aproximar la mejor función de respuesta.

Δ-STN también produce una mejor aproximación del jacobiano de mejor respuesta al linealizar la red en los pesos, eliminando así los efectos no lineales innecesarios de los grandes cambios en los pesos.

Este arranque en caliente del modelo de sustitución es el principal diferenciador entre PBT y otros métodos evolutivos.

PBT permite que los hiperparámetros evolucionen y elimina la necesidad de un ajuste manual.

PBT y sus variantes son métodos adaptativos: actualizan los hiperparámetros durante el entrenamiento de los modelos.

Búsqueda en cuadrícula a través de diferentes valores de dos hiperparámetros. Para cada hiperparámetro, se consideran 10 valores diferentes, por lo que se evalúan y comparan un total de 100 combinaciones distintas. Los contornos azules indican las regiones con buenos resultados, mientras que los rojos muestran las regiones con malos resultados.
Búsqueda aleatoria entre diferentes combinaciones de valores para dos hiperparámetros. En este ejemplo, se evalúan 100 opciones aleatorias diferentes. Las barras verdes muestran que se consideran más valores individuales para cada hiperparámetro en comparación con una búsqueda en cuadrícula.
Métodos como la optimización bayesiana exploran inteligentemente el espacio de opciones potenciales de hiperparámetros decidiendo qué combinación explorar a continuación basándose en observaciones previas.