En la teoría matemática de redes neuronales artificiales , los teoremas de aproximación universal son teoremas [1] [2] de la siguiente forma: Dada una familia de redes neuronales, para cada función de un cierto espacio de funciones , existe una secuencia de redes neuronales de la familia, tales que según algún criterio. Es decir, la familia de redes neuronales es densa en el espacio de funciones.
La versión más popular establece que las redes de propagación hacia adelante con funciones de activación no polinomiales son densas en el espacio de funciones continuas entre dos espacios euclidianos , con respecto a la topología de convergencia compacta .
Los teoremas de aproximación universal son teoremas de existencia: simplemente establecen que existe una secuencia de este tipo y no proporcionan ninguna manera de encontrarla. Tampoco garantizan que ningún método, como la retropropagación , pueda encontrar dicha secuencia. Cualquier método para buscar en el espacio de redes neuronales, incluida la retropropagación, puede encontrar una secuencia convergente o no (es decir, la retropropagación puede quedarse atascada en un óptimo local).
Los teoremas de aproximación universal son teoremas límite: simplemente establecen que para cualquier y un criterio de proximidad , si hay suficientes neuronas en una red neuronal, entonces existe una red neuronal con esa cantidad de neuronas que se aproxima a dentro de . No hay garantía de que cualquier tamaño finito, digamos, 10000 neuronas, sea suficiente.
Las redes neuronales artificiales son combinaciones de múltiples funciones matemáticas simples que implementan funciones más complicadas, desde vectores de valores reales (normalmente) hasta vectores de valores reales . Los espacios de funciones multivariadas que pueden implementarse mediante una red están determinados por la estructura de la red, el conjunto de funciones simples y sus parámetros multiplicativos. Se ha dedicado una gran cantidad de trabajo teórico a caracterizar estos espacios de funciones.
La mayoría de los teoremas de aproximación universales pertenecen a una de dos clases. El primero cuantifica las capacidades de aproximación de las redes neuronales con un número arbitrario de neuronas artificiales (caso de " ancho arbitrario ") y el segundo se centra en el caso con un número arbitrario de capas ocultas, cada una de las cuales contiene un número limitado de neuronas artificiales (caso de " profundidad arbitraria "). Además de estas dos clases, también existen teoremas de aproximación universales para redes neuronales con un número limitado de capas ocultas y un número limitado de neuronas en cada capa (caso de " profundidad y ancho limitados ").
Los primeros ejemplos fueron el caso de ancho arbitrario . George Cybenko lo demostró en 1989 para funciones de activación sigmoideas . [3] Kurt Hornik , Maxwell Stinchcombe y Halbert White demostraron en 1989 que las redes de propagación hacia adelante multicapa con tan solo una capa oculta son aproximadores universales. [1] Hornik también demostró en 1991 [4] que no es la elección específica de la función de activación sino más bien la arquitectura de propagación hacia adelante multicapa en sí misma lo que da a las redes neuronales el potencial de ser aproximadores universales. Moshe Leshno et al en 1993 [5] y más tarde Allan Pinkus en 1999 [6] demostraron que la propiedad de aproximación universal es equivalente a tener una función de activación no polinómica.
El caso de profundidad arbitraria también fue estudiado por varios autores como Gustaf Gripenberg en 2003, [7] Dmitry Yarotsky, [8] Zhou Lu et al en 2017, [9] Boris Hanin y Mark Sellke en 2018 [10] quienes se centraron en redes neuronales con función de activación ReLU. En 2020, Patrick Kidger y Terry Lyons [11] extendieron esos resultados a redes neuronales con funciones de activación generales como, por ejemplo, tanh, GeLU o Swish.
Un caso especial de profundidad arbitraria es que cada componente de la composición proviene de un conjunto finito de asignaciones. En 2024, Cai [12] construyó un conjunto finito de asignaciones, llamado vocabulario, de modo que cualquier función continua puede aproximarse mediante la composición de una secuencia a partir del vocabulario. Esto es similar al concepto de composicionalidad en lingüística, que es la idea de que un vocabulario finito de elementos básicos puede combinarse mediante la gramática para expresar una gama infinita de significados.
El caso de profundidad limitada y ancho limitado fue estudiado por primera vez por Maiorov y Pinkus en 1999. [13] Demostraron que existe una función de activación sigmoidea analítica tal que dos redes neuronales de capas ocultas con un número limitado de unidades en capas ocultas son aproximadores universales.
Guliyev e Ismailov [14] construyeron una función de activación sigmoidea suave que proporciona una propiedad de aproximación universal para redes neuronales de propagación hacia adelante de dos capas ocultas con menos unidades en las capas ocultas.
[15] construyeron redes de capa oculta única con ancho acotado que siguen siendo aproximadores universales para funciones univariadas. Sin embargo, esto no se aplica a funciones multivariables.
[16] obtuvieron información cuantitativa precisa sobre la profundidad y el ancho necesarios para aproximar una función objetivo mediante redes neuronales ReLU profundas y amplias.
La cuestión del ancho mínimo posible para la universalidad se estudió por primera vez en 2021, Park et al obtuvieron el ancho mínimo requerido para la aproximación universal de las funciones L p utilizando redes neuronales de avance con ReLU como funciones de activación. [17] Paulo Tabuada y Bahman Gharesifard también obtuvieron resultados similares que se pueden aplicar directamente a las redes neuronales residuales el mismo año utilizando argumentos de teoría de control . [18] [19] En 2023, Cai obtuvo el límite de ancho mínimo óptimo para la aproximación universal. [20]
Para el caso de profundidad arbitraria, Leonie Papon y Anastasis Kratsios derivaron estimaciones de profundidad explícitas dependiendo de la regularidad de la función objetivo y de la función de activación. [21]
El teorema de representación de Kolmogorov-Arnold es similar en espíritu. De hecho, ciertas familias de redes neuronales pueden aplicar directamente el teorema de Kolmogorov-Arnold para obtener un teorema de aproximación universal. Robert Hecht-Nielsen demostró que una red neuronal de tres capas puede aproximar cualquier función multivariable continua. [22] Vugar Ismailov amplió esta teoría al caso discontinuo. [23] En 2024, Ziming Liu y coautores mostraron una aplicación práctica. [24]
Funciones de activación discontinua, [5] dominios no compactos, [11] [25] redes certificables, [26] redes neuronales aleatorias, [27] y arquitecturas y topologías de redes alternativas. [11] [28]
La propiedad de aproximación universal de las redes limitadas por el ancho se ha estudiado como un dual de los resultados de aproximación universal clásica en redes limitadas por la profundidad. Para la dimensión de entrada dx y la dimensión de salida dy, el ancho mínimo requerido para la aproximación universal de las funciones L p es exactamente max{dx + 1, dy} (para una red ReLU). De manera más general, esto también se cumple si se utilizan tanto ReLU como una función de activación de umbral . [17]
La aproximación de funciones universales en grafos (o más bien en clases de isomorfismo de grafos ) mediante redes neuronales convolucionales de grafos populares (GCN o GNN) se puede hacer tan discriminativa como la prueba de isomorfismo de grafos de Weisfeiler-Leman. [29] En 2020, [30] Brüel-Gabrielsson estableció un resultado de teorema de aproximación universal, que muestra que la representación de grafos con ciertas propiedades inyectivas es suficiente para la aproximación de funciones universales en grafos acotados y la aproximación de funciones universales restringidas en grafos no acotados, con un método de tiempo de ejecución adjunto que funcionó en el estado del arte en una colección de puntos de referencia (donde y son los conjuntos de nodos y aristas del grafo respectivamente).
También hay una variedad de resultados entre los espacios no euclidianos [31] y otras arquitecturas comúnmente utilizadas y, de manera más general, conjuntos de funciones generados algorítmicamente, como la arquitectura de red neuronal convolucional (CNN), [32] [33] funciones de base radial , [34] o redes neuronales con propiedades específicas. [35] [36]
Una serie de artículos publicados en los años 1980 y 1990, de George Cybenko y Kurt Hornik etc., establecieron varios teoremas de aproximación universal para anchos arbitrarios y profundidades acotadas. [37] [3] [38] [4] Véase [39] [40] [6] para ver las revisiones. El siguiente es el más citado:
Teorema de aproximación universal — Sea , el conjunto de funciones continuas de un subconjunto de un espacio euclidiano a un espacio euclidiano . Sea . Nótese que , por lo que denota aplicado a cada componente de .
Entonces no es polinomio si y sólo si para cada , , compacto , existen , , , tales que donde
Además, ciertas funciones de activación no continuas se pueden utilizar para aproximar una función sigmoidea, lo que permite que el teorema anterior se aplique a esas funciones. Por ejemplo, la función escalonada funciona. En particular, esto demuestra que una red de perceptrones con una única capa oculta infinitamente ancha puede aproximarse a funciones arbitrarias.
Esto también se puede aproximar mediante una red de mayor profundidad utilizando la misma construcción para la primera capa y aproximando la función identidad con capas posteriores.
Basta con demostrar el caso donde , ya que la convergencia uniforme en es simplemente convergencia uniforme en cada coordenada.
Sea el conjunto de todas las redes neuronales de una capa oculta construidas con . Sea el conjunto de todas las redes con soporte compacto.
Si la función es un polinomio de grado , entonces está contenido en el subespacio cerrado de todos los polinomios de grado , por lo que su clausura también está contenida en él, que no es todo .
De lo contrario, demostramos que el cierre de es todo . Supongamos que podemos construir aproximaciones arbitrarias de la función rampa , entonces se puede combinar para construir una función continua arbitraria con soporte compacto con precisión arbitraria. Queda por aproximar la función rampa.
Obviamente, cualquiera de las funciones de activación comúnmente utilizadas en el aprendizaje automático se puede utilizar para aproximar la función de rampa, o primero aproximar la ReLU y luego la función de rampa.
Si es "aplastante", es decir, tiene límites , entonces uno puede primero reducir afinadamente su eje x de modo que su gráfico parezca una función escalonada con dos "sobreimpulsos" agudos, luego hacer una suma lineal de suficientes de ellos para hacer una aproximación de "escalera" de la función rampa. Con más escalones de la escalera, los sobreimpulsos se suavizan y obtenemos una aproximación arbitrariamente buena de la función rampa.
El caso donde es una función genérica no polinómica es más difícil y se dirige al lector a. [6]
La prueba anterior no ha especificado cómo se podría usar una función rampa para aproximar funciones arbitrarias en . Un esbozo de la prueba es que uno puede construir primero funciones de protuberancia planas, intersectarlas para obtener funciones de protuberancia esféricas que se aproximan a la función delta de Dirac , luego usarlas para aproximar funciones arbitrarias en . [41] Las pruebas originales, como la de Cybenko, usan métodos del análisis funcional, incluidos los teoremas de representación de Hahn-Banach y Riesz–Markov–Kakutani .
Observe también que la red neuronal solo debe aproximarse dentro de un conjunto compacto . La prueba no describe cómo se extrapolaría la función fuera de la región.
El problema con los polinomios se puede eliminar permitiendo que las salidas de las capas ocultas se multipliquen entre sí (las "redes pi-sigma"), lo que produce la generalización: [38]
Teorema de aproximación universal para redes pi-sigma : con cualquier función de activación no constante, una red pi-sigma de una capa oculta es un aproximador universal.
Las versiones "duales" del teorema consideran redes de ancho acotado y profundidad arbitraria. En 2017, Zhou Lu et al. demostraron una variante del teorema de aproximación universal para el caso de profundidad arbitraria. [9] Demostraron que las redes de ancho n + 4 con funciones de activación ReLU pueden aproximarse a cualquier función integrable de Lebesgue en un espacio de entrada n -dimensional con respecto a la distancia si se permite que la profundidad de la red crezca. También se demostró que si el ancho era menor o igual a n , se perdía este poder expresivo general para aproximarse a cualquier función integrable de Lebesgue. En el mismo artículo [9] se demostró que las redes ReLU con ancho n + 1 eran suficientes para aproximarse a cualquier función continua de variables de entrada n -dimensionales. [42] El siguiente refinamiento especifica el ancho mínimo óptimo para el cual es posible tal aproximación y se debe a. [43]
Teorema de aproximación universal (distancia L1, activación ReLU, profundidad arbitraria, ancho mínimo) — Para cualquier función p-integrable de Bochner–Lebesgue y cualquier , existe una red ReLU completamente conexa de ancho exactamente , que satisface Además, existe una función y algún , para el cual no existe una red ReLU completamente conexa de ancho menor que que satisfaga el límite de aproximación anterior.
Observación: Si la activación se reemplaza por leaky-ReLU y la entrada está restringida en un dominio compacto, entonces el ancho mínimo exacto es [20] .
Refinamiento cuantitativo: En el caso en que , (es decir ) y es la función de activación ReLU , también se conoce la profundidad y el ancho exactos para que una red ReLU alcance el error. [44] Si, además, la función objetivo es suave, entonces el número requerido de capas y su ancho pueden ser exponencialmente más pequeños. [45] Incluso si no es suave, la maldición de la dimensionalidad se puede romper si admite una "estructura compositiva" adicional. [46] [47]
En conjunto, el resultado central de [11] produce el siguiente teorema de aproximación universal para redes con ancho limitado (véase también [7] para el primer resultado de este tipo).
Teorema de aproximación universal (activación no afín uniforme , profundidad arbitraria , ancho restringido). — Sea un subconjunto compacto de . Sea cualquier función continua no afín que sea continuamente diferenciable en al menos un punto, con derivada distinta de cero en ese punto. Sea el espacio de redes neuronales de propagación hacia adelante con neuronas de entrada, neuronas de salida y un número arbitrario de capas ocultas, cada una con neuronas, de modo que cada neurona oculta tiene una función de activación y cada neurona de salida tiene la identidad como su función de activación, con capa de entrada y capa de salida . Entonces, dado cualquier y cualquier , existe tal que
En otras palabras, es denso con respecto a la topología de convergencia uniforme .
Refinamiento cuantitativo: Se conoce el número de capas y el ancho de cada capa necesarios para aproximarse a la precisión; [21] además, el resultado es válido cuando y se reemplazan con cualquier variedad de Riemann de curvatura no positiva .
Se han establecido ciertas condiciones necesarias para el caso de ancho limitado y profundidad arbitraria, pero todavía existe una brecha entre las condiciones suficientes y necesarias conocidas. [9] [10] [48]
El primer resultado sobre las capacidades de aproximación de las redes neuronales con un número limitado de capas, cada una de las cuales contiene un número limitado de neuronas artificiales, fue obtenido por Maiorov y Pinkus [13] . Su notable resultado reveló que dichas redes pueden ser aproximadores universales y que para lograr esta propiedad son suficientes dos capas ocultas.
Teorema de aproximación universal: [13] — Existe una función de activación que es analítica, estrictamente creciente y sigmoidea y tiene la siguiente propiedad: Para cualquier y existen constantes , y vectores para los cuales para todo .
Este es un resultado de existencia. Dice que existen funciones de activación que proporcionan una propiedad de aproximación universal para redes de ancho y profundidad acotadas. Utilizando ciertas técnicas algorítmicas y de programación informática, Guliyev e Ismailov construyeron eficientemente dichas funciones de activación en función de un parámetro numérico. El algoritmo desarrollado permite calcular las funciones de activación en cualquier punto del eje real de forma instantánea. Para el algoritmo y el código informático correspondiente, consulte [14] . El resultado teórico puede formularse de la siguiente manera.
Teorema de aproximación universal: [14] [15] — Sea un segmento finito de la recta real, y cualquier número positivo. Entonces se puede construir algorítmicamente una función de activación sigmoidea computable , que es infinitamente diferenciable, estrictamente creciente en , -estrictamente creciente en , y satisface las siguientes propiedades:
Aquí, “ es estrictamente creciente en algún conjunto ” significa que existe una función estrictamente creciente tal que para todo . Claramente, una función creciente se comporta como una función creciente habitual a medida que se hace pequeño. En la terminología de “ profundidad-ancho ”, el teorema anterior dice que para ciertas funciones de activación, las redes de profundidad -ancho son aproximadores universales para funciones univariadas y las redes de profundidad- ancho son aproximadores universales para funciones de -variable ( ).
{{cite journal}}
: Requiere citar revista |journal=
( ayuda ){{cite journal}}
: CS1 maint: multiple names: authors list (link)