Teorema de aproximación universal

Se han dedicado grandes esfuerzos teóricos a la caracterización de estos espacios funcionales.

En 1989, George Cybenko efectuó la prueba para funciones de activación sigmoides.

[3]​ También en 1989, Kurt Hornik, Maxwell Stinchcombe y Halbert White mostraron que las redes neuronales prealimentadas multicapas con no más que una capa oculta son aproximadores universales.

[1]​ En 1991, Hornik también mostró[4]​ que no es la elección específica de la función activadora, sino más bien la propia arquitectura prealimentada multicapas la que le otorga a las redes neuronales su potencial función como aproximadores universales.

Moshe Leshno et al, en 1993,[5]​ y luego Allan Pinkus, en 1999,[6]​ mostraron que la propiedad de aproximación universal es equivalente a que la función de activación sea no-polinómica.

El caso de profundidad arbitraria también fue estudiado por varios autores tales como Gustaf Gripenberg en 2003,[7]​ Dmitry Yarotsky,[8]​ Zhou Lu et al en 2017,[9]​ Boris Hanin y Mark Sellke en 2018,[10]​ los que se centraron en las redes neuronales con función de activación ReLU.

En 2020, Patrick Kidger y Terry Lyons[11]​ extendieron esos resultados al caso de redes neuronales con funciones activadoras generales como p.ej.

En 2024, Cai[12]​ construyó un conjunto finito de aplicaciones, denominado "vocabulario", tal que cualquiera función continua se pudiera aproximar componiendo una secuencia con elementos de este vocabulario.

[13]​ Ellos demostraron que existe una función de activación analítica sigmoidal tal que las redes neuronales de dos capas ocultas dotadas con ella sean aproximadores universales.

Sin embargo esto no se aplica a las funciones multivariadas.

[16]​ obtuvieron información cuantitativa precisa acerca de la profundidad y el ancho requeridos para aproximar una función objetivo por medio de redes neuronales ReLU profundas y anchas.

La cuestión del ancho mínimo requerido para la universalidad fue estudiada primero en 2021, cuando Park et al obtuvieron el ancho mínimo requerido para una aproximación universal de las funciones de Lp usando redes neuronales prealimentadas con funciones de activación ReLU.

[17]​ Resultados similares y que pueden aplicarse directamente a las redes neuronales residuales también se obtuvieron el mismo año por Paulo Tabuada y Bahman Gharesifard empleando argumentos de teoría del control.

[18]​[19]​ En 2023, Cai obtuvo el límite de ancho mínimo óptimo para la aproximación universal.

[22]​ Este resultado fue extendido al caso discontinuo por Vugar Ismailov.

Más en general, esto también rige si se emplean tanto ReLU como una función de activación por tramos.

[29]​ En 2020,[30]​ se estableció un teorema de aproximación universal por Brüel-Gabrielsson, demostrando que la representación como grafos con ciertas propiedades inyectivas injective es suficiente para la aproximación universal de funciones de grafos acotados y para una aproximación universal restringida para grafos no acotados, junto a un método

son los conjuntos de nodos and aristas del grafo respectivamente).

Este es el que más frecuentemente se ha citado: Sea

es una función no polinómica genérica es más difícil y se invita al lector a revisar [6]​.

La prueba no describe cómo se extrapolaría la función fuera de esa región.

El problema con los polinomios puede removerse al permitir que las salidas de las capas ocultas puedan multiplicarse (las "redes pi-sigma"), obteniéndose la generalización:[38]​ Con cualquiera función de activación no constante, una red pi-sigma de una capa oculta es un aproximador universal.

Las versiones «duales» del teorema consideran redes de ancho acotado y profundidad arbitraria.

También se mostró que si el ancho es menor o igual a n, este poder general para aproximar cualquiera función Lebesgue integrable se perdía.

En el mismo artículo[9]​ se mostró que las redes ReLU de ancho n + 1 son suficientes para aproximar cualquiera función continua con una entrada n-dimensional.

, para los cuales no existe ninguna red ReLU totalmente conectada de ancho menor que

es infinitamente diferenciable, entonces el número requerido de capas y su ancho puede ser exponencialmente menor.

no es infinitamente diferenciable, la maldición de la dimensión puede superarse si

Se han establecido ciertas condiciones necesarias para el caso de ancho acotado y profundidad arbitraria, pero sigue existiendo una brecha entre las condiciones suficientes y necesarias.

Entonces es posible construir algorítmicamente una función de activación sigmoidal computable