Optimización bayesiana

La optimización bayesiana es una estrategia de diseño secuencial para la optimización global de funciones de caja negra , ^[1]^[2]^[3] que no asume ninguna forma funcional. Por lo general, se emplea para optimizar funciones que son costosas de evaluar. Con el auge de la innovación en inteligencia artificial en el siglo XXI, las optimizaciones bayesianas han encontrado un uso destacado en problemas de aprendizaje automático , para optimizar valores de hiperparámetros. ^[4]^[5]

Historia

El término se atribuye generalmente a Jonas Mockus [lt] y fue acuñado en su trabajo a partir de una serie de publicaciones sobre optimización global en los años 1970 y 1980. ^[6]^[7]^[1]

Estrategia

Optimización bayesiana de una función (negra) con procesos gaussianos (violeta). En la parte inferior se muestran tres funciones de adquisición (azul). ^[8]

La optimización bayesiana se utiliza normalmente en problemas de la forma , donde es un conjunto de puntos, , que dependen de menos (o igual a) 20 dimensiones ( ), y cuya pertenencia puede evaluarse fácilmente. La optimización bayesiana es particularmente ventajosa para problemas donde es difícil de evaluar debido a su coste computacional. La función objetivo, , es continua y toma la forma de una estructura desconocida, denominada "caja negra". Tras su evaluación, solo se observa y sus derivadas no se evalúan. ^[9] ${\textstyle \max _{x\in A}f(x)}$ ${\textstyle A}$ ${\textstyle x}$ ${\textstyle \mathbb {R} ^{d},d\leq 20}$ ${\textstyle f(x)}$ ${\textstyle f}$ ${\textstyle f(x)}$

Como la función objetivo es desconocida, la estrategia bayesiana consiste en tratarla como una función aleatoria y colocarle una distribución previa . La distribución previa captura las creencias sobre el comportamiento de la función. Después de reunir las evaluaciones de la función, que se tratan como datos, la distribución previa se actualiza para formar la distribución posterior sobre la función objetivo. La distribución posterior, a su vez, se utiliza para construir una función de adquisición (a menudo también denominada criterio de muestreo de relleno) que determina el siguiente punto de consulta.

Existen varios métodos que se utilizan para definir la distribución anterior/posterior sobre la función objetivo. Los dos métodos más comunes utilizan procesos gaussianos en un método llamado kriging . Otro método menos costoso utiliza el estimador de árbol de Parzen para construir dos distribuciones para los puntos "alto" y "bajo", y luego encuentra la ubicación que maximiza la mejora esperada. ^[10]

La optimización bayesiana estándar se basa en que cada uno de los problemas sea fácil de evaluar, y los problemas que se desvían de este supuesto se conocen como problemas de optimización bayesiana exóticos . Los problemas de optimización pueden volverse exóticos si se sabe que hay ruido, las evaluaciones se realizan en paralelo, la calidad de las evaluaciones depende de un equilibrio entre dificultad y precisión, la presencia de condiciones ambientales aleatorias o si la evaluación implica derivadas. ^[9] $x\en A$

Funciones de adquisición

Algunos ejemplos de funciones de adquisición incluyen:

probabilidad de mejora
mejora esperada
Pérdidas esperadas bayesianas
límites de confianza superiores (UCB) o límites de confianza inferiores
Muestreo de Thompson

y sus híbridos. ^[11] Todos ellos equilibran la exploración y la explotación para minimizar la cantidad de consultas de funciones. Como tal, la optimización bayesiana es adecuada para funciones que son costosas de evaluar.

Métodos de solución

El máximo de la función de adquisición se obtiene normalmente recurriendo a la discretización o por medio de un optimizador auxiliar. Las funciones de adquisición se maximizan utilizando una técnica de optimización numérica , como el método de Newton o métodos cuasi-Newton como el algoritmo de Broyden–Fletcher–Goldfarb–Shanno .

Aplicaciones

El enfoque se ha aplicado para resolver una amplia gama de problemas, ^[12] incluyendo aprender a clasificar , ^[13] gráficos de computadora y diseño visual, ^[14]^[15]^[16] robótica , ^[17]^[18]^{[19 ]}^[20] redes de sensores , ^[21]^[22] configuración automática de algoritmos, ^[23]^{[24] cajas de herramientas} de aprendizaje automático , ^[25]^[26]^[27] aprendizaje de refuerzo , ^[28] planificación, atención visual, configuración de arquitectura en aprendizaje profundo , análisis de programas estáticos, física de partículas experimental , ^[29]^[30] optimización de calidad-diversidad, ^[31]^[32]^[33] química, diseño de materiales y desarrollo de fármacos. ^[9]^[34]^[35]

La optimización bayesiana se ha aplicado en el campo del reconocimiento facial. ^[36] El rendimiento del algoritmo de histograma de gradientes orientados (HOG), un método popular de extracción de características, depende en gran medida de sus parámetros. Optimizar estos parámetros puede ser un desafío, pero es crucial para lograr una alta precisión. ^[36] Se ha propuesto un enfoque novedoso para optimizar los parámetros del algoritmo HOG y el tamaño de la imagen para el reconocimiento facial utilizando una técnica de optimización bayesiana basada en el estimador de Parzen estructurado en árbol (TPE). ^[36] Este enfoque optimizado tiene el potencial de adaptarse para otras aplicaciones de visión artificial y contribuye al desarrollo continuo de algoritmos de extracción de características basados en parámetros hechos a mano en visión artificial. ^[36]

Véase también

Referencias

^ de Močkus, J. (1989). Enfoque bayesiano para la optimización global . Dordrecht: Kluwer Academic. ISBN 0-7923-0115-3.
^ Garnett, Roman (2023). Optimización bayesiana. Cambridge University Press. ISBN 978-1-108-42578-0.
^ Hennig, P.; Osborne, MA; Kersting, HP (2022). Probabilistic Numerics (PDF) . Cambridge University Press. págs. 243–278. ISBN 978-1107163447.
^ Snoek, Jasper (2012). "Optimización bayesiana práctica de algoritmos de aprendizaje automático". Avances en sistemas de procesamiento de información neuronal 25 (NIPS 2012) .
^ Klein, Aaron (2017). "Optimización bayesiana rápida de hiperparámetros de aprendizaje automático en grandes conjuntos de datos". Actas de la 20.ª Conferencia Internacional sobre Inteligencia Artificial y Estadística, PMLR : 528–536.
^ Močkus, Jonas (1975). "Sobre métodos bayesianos para la búsqueda del extremo". Técnicas de optimización. Conferencia técnica de la IFIP en Novosibirsk, del 1 al 7 de julio de 1974. Apuntes de clase en informática. Vol. 27. págs. 400–404. doi : 10.1007/3-540-07165-2_55 . ISBN . 978-3-540-07165-5.
^ Močkus, Jonas (1977). "Sobre los métodos bayesianos para la búsqueda del extremo y su aplicación". Congreso IFIP : 195–200.
^ Wilson, Samuel (22 de noviembre de 2019), paquete R ParBayesianOptimization , consultado el 12 de diciembre de 2019
^ abc Frazier, Peter I. (8 de julio de 2018). "Un tutorial sobre optimización bayesiana". arXiv : 1807.02811 [stat.ML].
^ JS Bergstra, R. Bardenet, Y. Bengio, B. Kégl: Algoritmos para la optimización de hiperparámetros. Avances en sistemas de procesamiento de información neuronal: 2546–2554 (2011)
^ Matthew W. Hoffman, Eric Brochu, Nando de Freitas : Asignación de cartera para optimización bayesiana. Incertidumbre en inteligencia artificial: 327–336 (2011)
^ Eric Brochu, Vlad M. Cora, Nando de Freitas: Un tutorial sobre optimización bayesiana de funciones de costos costosas, con aplicación al modelado de usuarios activos y al aprendizaje de refuerzo jerárquico. CoRR abs/1012.2599 (2010)
^ Eric Brochu, Nando de Freitas, Abhijeet Ghosh: Aprendizaje de preferencias activas con datos de elección discreta. Avances en sistemas de procesamiento de información neuronal: 409-416 (2007)
^ Eric Brochu, Tyson Brochu, Nando de Freitas: Un enfoque de optimización interactiva bayesiana para el diseño de animación procedimental. Simposio sobre animación por computadora 2010: 103–112
^ Yuki Koyama, Issei Sato, Daisuke Sakamoto, Takeo Igarashi: Búsqueda de líneas secuenciales para la optimización eficiente del diseño visual por parte de multitudes. ACM Transactions on Graphics, volumen 36, número 4, págs. 48:1–48:11 (2017). DOI: https://doi.org/10.1145/3072959.3073598
^ Yuki Koyama, Issei Sato, Masataka Goto: Galería secuencial para la optimización del diseño visual interactivo. ACM Transactions on Graphics, volumen 39, número 4, págs. 88:1–88:12 (2020). DOI: https://doi.org/10.1145/3386569.3392444
^ Daniel J. Lizotte, Tao Wang, Michael H. Bowling, Dale Schuurmans: Optimización automática de la marcha con regresión de proceso gaussiano Archivado el 12 de agosto de 2017 en Wayback Machine . Conferencia conjunta internacional sobre inteligencia artificial: 944–949 (2007)
^ Rubén Martínez-Cantín, Nando de Freitas, Eric Brochu, José Castellanos y Arnaud Doucet. Un enfoque de exploración y explotación bayesiano para la detección y planificación en línea óptimas con un robot móvil guiado visualmente. Autonomous Robots. Volumen 27, Número 2, págs. 93-103 (2009)
^ Scott Kuindersma, Roderic Grupen y Andrew Barto. Control de riesgo variable mediante optimización estocástica. Revista internacional de investigación en robótica, volumen 32, número 7, págs. 806-825 (2013)
^ Roberto Calandra, André Seyfarth, Jan Peters y Marc P. Deisenroth Optimización bayesiana para el aprendizaje de marchas en condiciones de incertidumbre. Ann. Math. Artif. Intell. Volumen 76, número 1, págs. 5-23 (2016) DOI:10.1007/s10472-015-9463-9
^ Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias W. Seeger: Límites de arrepentimiento basados en la teoría de la información para la optimización de procesos gaussianos en el entorno Bandit. IEEE Transactions on Information Theory 58(5):3250–3265 (2012)
^ Garnett, Roman; Osborne, Michael A.; Roberts, Stephen J. (2010). "Optimización bayesiana para la selección de conjuntos de sensores". En Abdelzaher, Tarek F.; Voigt, Thiemo; Wolisz, Adam (eds.). Actas de la 9.ª Conferencia internacional sobre procesamiento de información en redes de sensores, IPSN 2010, 12-16 de abril de 2010, Estocolmo, Suecia . ACM. págs. 209-219. doi :10.1145/1791212.1791238.
^ Frank Hutter, Holger Hoos y Kevin Leyton-Brown (2011). Optimización basada en modelos secuenciales para la configuración general de algoritmos, Aprendizaje y optimización inteligente
^ J. Snoek, H. Larochelle, RP Adams Optimización bayesiana práctica de algoritmos de aprendizaje automático. Avances en sistemas de procesamiento de información neuronal: 2951-2959 (2012)
^ J. Bergstra, D. Yamins, DD Cox (2013). Hyperopt: una biblioteca de Python para optimizar los hiperparámetros de algoritmos de aprendizaje automático. Proc. SciPy 2013.
^ Chris Thornton, Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown: Auto-WEKA: selección combinada y optimización de hiperparámetros de algoritmos de clasificación. KDD 2013: 847–855
^ Jasper Snoek, Hugo Larochelle y Ryan Prescott Adams. Optimización bayesiana práctica de algoritmos de aprendizaje automático. Avances en sistemas de procesamiento de información neuronal, 2012
^ Berkenkamp, Felix (2019). Exploración segura en el aprendizaje por refuerzo: teoría y aplicaciones en robótica (tesis doctoral). ETH Zurich. doi :10.3929/ethz-b-000370833. hdl :20.500.11850/370833.
^ Philip Ilten, Mike Williams, Yunjie Yang. Ajuste del generador de eventos mediante optimización bayesiana. 2017 JINST 12 P04028. DOI: 10.1088/1748-0221/12/04/P04028
^ Evaristo Cisbani et al. Diseño de detector optimizado por IA para el futuro colisionador de electrones e iones: el caso RICH de doble radiador 2020 JINST 15 P05009. DOI: 10.1088/1748-0221/15/05/P05009
^ Kent, Paul; Gaier, Adam; Mouret, Jean-Baptiste; Branke, Juergen (19 de julio de 2023). "BOP-Elites, un enfoque de optimización bayesiana para la búsqueda de diversidad de calidad con funciones de descriptor de caja negra". arXiv : 2307.09326 [math.OC].Preimpresión: Arxiv.
^ Kent, Paul; Branke, Juergen (12 de julio de 2023). "Búsqueda de diversidad de calidad bayesiana con iluminación interactiva". Actas de la Conferencia sobre computación genética y evolutiva (PDF) . GECCO '23. Nueva York, NY, EE. UU.: Association for Computing Machinery. págs. 1019–1026. doi :10.1145/3583131.3590486. ISBN 979-8-4007-0119-1. Número de identificación del sujeto 259833672.
^ Gaier, Adam; Asteroth, Alexander; Mouret, Jean-Baptiste (1 de septiembre de 2018). "Exploración de diseño con uso eficiente de datos mediante iluminación asistida por sustitutos". Computación evolutiva . 26 (3): 381–410. arXiv : 1806.05865 . doi : 10.1162/evco_a_00231 . ISSN 1063-6560. PMID 29883202. S2CID 47003986.
^ Gomez-Bombarelli et al. Diseño químico automático mediante una representación continua de moléculas basada en datos. ACS Central Science, volumen 4, número 2, 268-276 (2018)
^ Griffiths et al. Optimización bayesiana restringida para el diseño químico automático utilizando autocodificadores variacionales Chemical Science: 11, 577-586 (2020)
^ abcd Mohammed Mehdi Bouchene: Optimización bayesiana de los parámetros del histograma de gradientes orientados (Hog) para el reconocimiento facial. SSRN (2023)