Las redes neuronales artificiales son combinaciones de múltiples funciones matemáticas simples que implementan funciones más complicadas, desde (normalmente) vectores de valor real hasta vectores de valor real . Los espacios de funciones multivariadas que puede implementar una red están determinados por la estructura de la red, el conjunto de funciones simples y sus parámetros multiplicativos. Se ha realizado una gran cantidad de trabajo teórico para caracterizar estos espacios funcionales.
En la teoría matemática de las redes neuronales artificiales , los teoremas de aproximación universal son resultados [1] [2] que ponen límites a lo que las redes neuronales pueden aprender teóricamente. Específicamente, dado un algoritmo que genera redes dentro de una clase de funciones, los teoremas establecen la densidad de las funciones generadas dentro de un espacio funcional de interés determinado. Normalmente, estos resultados se refieren a las capacidades de aproximación de la arquitectura feedforward en el espacio de funciones continuas entre dos espacios euclidianos , y la aproximación es con respecto a la topología de convergencia compacta . Lo que hay que destacar es que, si bien algunas funciones pueden aproximarse arbitrariamente en una región, las pruebas no se aplican fuera de la región, es decir, las funciones aproximadas no se extrapolan fuera de la región. Esto se aplica a todas las funciones de activación no periódicas , es decir, lo que se utiliza en la práctica y lo que suponen la mayoría de las pruebas. En los últimos años, se han descubierto en el cerebro humano neuronas piramidales neocorticales con función de activación oscilante que pueden aprender individualmente la función XOR y se han explorado y demostrado que las funciones de activación oscilante superan las funciones de activación populares en una variedad de puntos de referencia. [3]
Sin embargo, también hay una variedad de resultados entre espacios no euclidianos [4] y otras arquitecturas comúnmente utilizadas y, más generalmente, conjuntos de funciones generadas algorítmicamente, como la arquitectura de red neuronal convolucional (CNN), [5] [6]. funciones de base radial , [7] o redes neuronales con propiedades específicas. [8] [9] La mayoría de los teoremas de aproximación universal se pueden dividir en dos clases. El primero cuantifica las capacidades de aproximación de redes neuronales con un número arbitrario de neuronas artificiales (caso " ancho arbitrario ") y el segundo se centra en el caso con un número arbitrario de capas ocultas, cada una de las cuales contiene un número limitado de neuronas artificiales (" profundidad arbitraria "). " caso). Además de estas dos clases, también existen teoremas de aproximación universal para redes neuronales con un número limitado de capas ocultas y un número limitado de neuronas en cada capa (caso de " profundidad limitada y ancho limitado ").
Los teoremas de aproximación universal implican que las redes neuronales pueden representar una amplia variedad de funciones interesantes con pesos apropiados. Por otra parte, normalmente no proporcionan una construcción para las pesas, sino que simplemente afirman que tal construcción es posible. Para construir el peso, se entrenan redes neuronales, que pueden converger en los pesos correctos o no (es decir, quedarse estancadas en un óptimo local). Si la red es demasiado pequeña (para las dimensiones de los datos de entrada), entonces los teoremas de aproximación universal no se aplican, es decir, las redes no aprenderán. Lo que antes se demostró sobre la profundidad de una red, es decir, que una única capa oculta es suficiente, sólo es válido para una dimensión; en general, una red de este tipo es demasiado superficial. El ancho de una red también es un hiperparámetro importante . La elección de una función de activación también es importante, y algunos trabajos y pruebas escritas asumen, por ejemplo, que se utiliza ReLU (o sigmoide ), mientras que se sabe que algunas, como una lineal, no funcionan (ni ningún polinominal).
Las redes neuronales con una función de activación ilimitada (no polinómica) tienen la propiedad de aproximación universal. [10]
La propiedad de aproximación universal de redes de ancho limitado se ha estudiado como un dual de los resultados de la aproximación universal clásica en redes de profundidad limitada. Para la dimensión de entrada dx y la dimensión de salida dy, el ancho mínimo requerido para la aproximación universal de las funciones L p es exactamente max{dx + 1, dy} (para una red ReLU). De manera más general, esto también es válido si se utilizan tanto ReLU como una función de activación de umbral . [11]
George Cybenko demostró una de las primeras versiones del caso de ancho arbitrario en 1989 para funciones de activación sigmoidea . [12] Kurt Hornik , Maxwell Stinchcombe y Halbert White demostraron en 1989 que las redes de alimentación directa multicapa con tan solo una capa oculta son aproximadores universales. [1] Hornik también demostró en 1991 [13] que no es la elección específica de la función de activación sino más bien la propia arquitectura de avance multicapa lo que da a las redes neuronales el potencial de ser aproximadores universales. Moshe Leshno et al en 1993 [14] y posteriormente Allan Pinkus en 1999 [15] demostraron que la propiedad de aproximación universal es equivalente a tener una función de activación no polinómica. En 2022, Shen Zuowei, Haizhao Yang y Shijun Zhang [16] obtuvieron información cuantitativa precisa sobre la profundidad y el ancho necesarios para aproximar una función objetivo mediante redes neuronales ReLU amplias y profundas.
El caso de la profundidad arbitraria también fue estudiado por varios autores como Gustaf Gripenberg en 2003, [17] Dmitry Yarotsky, [18] Zhou Lu et al en 2017, [19] Boris Hanin y Mark Sellke en 2018 [20], quienes se centraron en en redes neuronales con función de activación ReLU. En 2020, Patrick Kidger y Terry Lyons [21] ampliaron esos resultados a redes neuronales con funciones de activación generales como, por ejemplo, tanh, GeLU o Swish, y en 2022, Leonie Papon y Anastasis Kratsios [22] hicieron su resultado cuantitativo . derivaron estimaciones de profundidad explícitas dependiendo de la regularidad de la función objetivo y de la función de activación.
La cuestión del ancho mínimo posible para la universalidad se estudió por primera vez en 2021, Park et al obtuvieron el ancho mínimo requerido para la aproximación universal de las funciones L p utilizando redes neuronales de retroalimentación con ReLU como funciones de activación. [11] Paulo Tabuada y Bahman Gharesifard también obtuvieron en el mismo año resultados similares que pueden aplicarse directamente a las redes neuronales residuales utilizando argumentos de teoría del control . [23] [24] En 2023, Cai [25] obtuvo el ancho mínimo óptimo limitado para la aproximación universal.
El caso de profundidad acotada y ancho acotado fue estudiado por primera vez por Maiorov y Pinkus en 1999. [26] Demostraron que existe una función de activación sigmoidea analítica tal que dos redes neuronales de capa oculta con un número limitado de unidades en capas ocultas son aproximadores universales. Utilizando técnicas algorítmicas y de programación informática, Guliyev e Ismailov construyeron una función de activación sigmoidal suave que proporciona una propiedad de aproximación universal para dos redes neuronales de alimentación directa de capas ocultas con menos unidades en capas ocultas. [27] Se demostró constructivamente en el artículo de 2018 [28] que las redes de una sola capa oculta con ancho acotado siguen siendo aproximadores universales para funciones univariadas, pero esta propiedad ya no es cierta para funciones multivariables.
Existen varias extensiones del teorema, como funciones de activación discontinuas, [14] dominios no compactos, [21] redes certificables, [29] redes neuronales aleatorias, [30] y arquitecturas y topologías de redes alternativas. [21] [31]
En 2023 se publicó que una red neuronal de tres capas puede aproximarse a cualquier función (continua y no continua) [32]
Una serie de artículos de las décadas de 1980 y 1990, de George Cybenko y Kurt Hornik etc., establecieron varios teoremas de aproximación universal para ancho arbitrario y profundidad limitada. [33] [12] [34] [13] Consulte [35] [36] [15] para revisiones. El siguiente es el más citado:
Teorema de aproximación universal : denotemos el conjunto de funciones continuas de un subconjunto de un espacio euclidiano a un espacio euclidiano . Dejar . Tenga en cuenta que , so denota aplicado a cada componente de .
Entonces no es polinomio si y sólo si para todo , , compacto existe , , , tal que
Además, se pueden usar ciertas funciones de activación no continuas para aproximar una función sigmoidea, lo que luego permite que el teorema anterior se aplique a esas funciones. Por ejemplo, la función de paso funciona. En particular, esto muestra que una red de perceptrones con una única capa oculta infinitamente ancha puede aproximarse a funciones arbitrarias.
Esto también se puede aproximar mediante una red de mayor profundidad utilizando la misma construcción para la primera capa y aproximando la función de identidad con capas posteriores.
Basta probar el caso en el que , ya que la convergencia uniforme en es precisamente la convergencia uniforme en cada coordenada.
Sea el conjunto de todas las redes neuronales de una capa oculta construidas con . Sea el conjunto de todos con soporte compacto.
Si la función es un polinomio de grado , entonces está contenida en el subespacio cerrado de todos los polinomios de grado , por lo que su cierre también está contenido en él, que no es todo de .
De lo contrario, demostramos que el cierre es todo de . Supongamos que podemos construir aproximaciones arbitrariamente buenas de la función rampa.
Cualquiera de las funciones de activación comúnmente utilizadas en el aprendizaje automático se puede usar obviamente para aproximar la función de rampa, o primero aproximar el ReLU y luego la función de rampa.
si está "aplastando", es decir, tiene límites , entonces primero se puede reducir de manera afín su eje x para que su gráfica parezca una función escalonada con dos "sobrepasos" bruscos, luego hacer una suma lineal de suficientes de ellos para hacer una aproximación en "escalera" de la función de rampa. Con más escalones de la escalera, los sobrepasos se suavizan y obtenemos una aproximación arbitrariamente buena de la función de rampa.
El caso en el que se trata de una función genérica no polinómica es más difícil y se dirige al lector. [15]
La prueba anterior no ha especificado cómo se podría usar una función de rampa para aproximar funciones arbitrarias en . Un esbozo de la prueba es que primero se pueden construir funciones de relieve planas, intersecarlas para obtener funciones de relieve esféricas que se aproximan a la función delta de Dirac y luego usarlas para aproximar funciones arbitrarias en . [37] Las pruebas originales, como la de Cybenko, utilizan métodos de análisis funcional, incluidos los teoremas de representación de Hahn-Banach y Riesz .
El problema con los polinomios puede eliminarse permitiendo que las salidas de las capas ocultas se multipliquen entre sí (las "redes pi-sigma"), lo que produce la generalización: [34]
Teorema de aproximación universal para redes pi-sigma : con cualquier función de activación no constante, una red pi-sigma de una capa oculta es un aproximador universal.
Las versiones "duales" del teorema consideran redes de ancho acotado y profundidad arbitraria. Zhou Lu et al. demostraron una variante del teorema de aproximación universal para el caso de profundidad arbitraria. en 2017. [19] Demostraron que las redes de ancho n + 4 con funciones de activación ReLU pueden aproximarse a cualquier función integrable de Lebesgue en un espacio de entrada de n dimensiones con respecto a la distancia si se permite que la profundidad de la red crezca. También se demostró que si el ancho era menor o igual a n , se perdía este poder expresivo general para aproximar cualquier función integrable de Lebesgue. En el mismo artículo [19] se demostró que las redes ReLU con ancho n + 1 eran suficientes para aproximar cualquier función continua de variables de entrada de n dimensiones. [38] El siguiente refinamiento especifica el ancho mínimo óptimo para el cual dicha aproximación es posible y se debe a. [39]
Teorema de aproximación universal (distancia L1, activación ReLU, profundidad arbitraria, ancho mínimo) : para cualquier función p-integrable de Bochner-Lebesgue y cualquier , existe una red ReLU completamente conectada de ancho exactamente , que satisface
Observación: Si la activación se reemplaza por Leaky-ReLU y la entrada está restringida en un dominio compacto, entonces el ancho mínimo exacto es [25] .
Refinamiento cuantitativo: en el caso de dónde, cuándo y dónde está la función de activación de ReLU , también se conoce la profundidad y el ancho exactos para que una red ReLU alcance el error. [40] Si, además, la función objetivo es suave, entonces el número requerido de capas y su ancho pueden ser exponencialmente menores. [41] Incluso si no es suave, la maldición de la dimensionalidad puede romperse si admite una "estructura composicional" adicional. [42] [43]
En conjunto, el resultado central de [21] produce el siguiente teorema de aproximación universal para redes con ancho acotado (ver también [17] para el primer resultado de este tipo).
Teorema de aproximación universal (activación uniforme no afín , profundidad arbitraria , ancho restringido). — Sea un subconjunto compacto de . Sea cualquier función continua no afín que sea continuamente diferenciable en al menos un punto, con derivada distinta de cero en ese punto. Denotemos el espacio de las redes neuronales de retroalimentación con neuronas de entrada, neuronas de salida y un número arbitrario de capas ocultas, cada una con neuronas, de modo que cada neurona oculta tiene una función de activación y cada neurona de salida tiene la identidad como función de activación, con entrada capa y capa de salida . Entonces dado any y any , existe tal que
En otras palabras, es denso con respecto a la topología de convergencia uniforme .
Refinamiento cuantitativo: el número de capas y el ancho de cada capa necesarios para aproximarse a la precisión conocida; [22] además, el resultado es válido cuando y se reemplazan con cualquier variedad de Riemann curvada no positivamente .
Se han establecido ciertas condiciones necesarias para el caso de ancho acotado y profundidad arbitraria, pero todavía existe una brecha entre las condiciones suficientes y necesarias conocidas. [19] [20] [44]
Maiorov y Pinkus obtuvieron el primer resultado sobre las capacidades de aproximación de redes neuronales con un número limitado de capas, cada una de las cuales contiene un número limitado de neuronas artificiales. [26] Su notable resultado reveló que tales redes pueden ser aproximadores universales y para lograr esta propiedad son suficientes dos capas ocultas.
Teorema de aproximación universal: [26] — Existe una función de activación que es analítica, estrictamente creciente y sigmoidal y tiene la siguiente propiedad: Para cualquier y existen constantes y vectores para los cuales
Este es un resultado de la existencia. Dice que existen funciones de activación que proporcionan una propiedad de aproximación universal para redes de profundidad acotada y ancho acotado. Utilizando ciertas técnicas algorítmicas y de programación informática, Guliyev e Ismailov construyeron eficientemente dichas funciones de activación dependiendo de un parámetro numérico. El algoritmo desarrollado permite calcular instantáneamente las funciones de activación en cualquier punto del eje real. Para conocer el algoritmo y el código informático correspondiente, consulte. [27] El resultado teórico se puede formular de la siguiente manera.
Teorema de aproximación universal: [27] [28] — Sea un segmento finito de la recta real y sea cualquier número positivo. Entonces se puede construir algorítmicamente una función de activación sigmoidea computable , que es infinitamente diferenciable, estrictamente creciente en , estrictamente creciente en y que satisface las siguientes propiedades:
Aquí " es estrictamente creciente en algún conjunto " significa que existe una función estrictamente creciente tal que para todos . Claramente, una función creciente se comporta como una función creciente habitual a medida que se hace pequeña. En la terminología de " ancho-profundidad ", el teorema anterior dice que para ciertas funciones de activación las redes de ancho- profundidad son aproximadores universales para funciones univariadas y las redes de ancho-profundidad son aproximadores universales para funciones variables ( ).
Lograr una aproximación útil de funciones universales en gráficos (o más bien en clases de isomorfismo de gráficos ) ha sido un problema de larga data. Las populares redes neuronales convolucionales de gráficos (GCN o GNN) pueden hacerse tan discriminativas como la prueba de isomorfismo de gráficos de Weisfeiler-Leman. [45] En 2020, [46] Brüel-Gabrielsson estableció un resultado del teorema de aproximación universal, que muestra que la representación de gráficos con ciertas propiedades inyectivas es suficiente para la aproximación de funciones universales en gráficos acotados y la aproximación de funciones universal restringida en gráficos ilimitados, con un acompañamiento -método de tiempo de ejecución que se realizó con el estado del arte en una colección de puntos de referencia (donde y son los conjuntos de nodos y bordes del gráfico respectivamente).
{{cite journal}}
: Citar diario requiere |journal=
( ayuda ){{cite journal}}
: CS1 maint: multiple names: authors list (link)