Teorema de aproximación universal

En la teoría matemática de redes neuronales artificiales , los teoremas de aproximación universal son teoremas ^[1]^[2] de la siguiente forma: Dada una familia de redes neuronales, para cada función de un cierto espacio de funciones , existe una secuencia de redes neuronales de la familia, tales que según algún criterio. Es decir, la familia de redes neuronales es densa en el espacio de funciones. $f$ $\phi _{1},\phi _{2},\dots$ $\phi _{n}\to f$

La versión más popular establece que las redes de propagación hacia adelante con funciones de activación no polinomiales son densas en el espacio de funciones continuas entre dos espacios euclidianos , con respecto a la topología de convergencia compacta .

Los teoremas de aproximación universal son teoremas de existencia: simplemente establecen que existe una secuencia de este tipo y no proporcionan ninguna manera de encontrarla. Tampoco garantizan que ningún método, como la retropropagación , pueda encontrar dicha secuencia. Cualquier método para buscar en el espacio de redes neuronales, incluida la retropropagación, puede encontrar una secuencia convergente o no (es decir, la retropropagación puede quedarse atascada en un óptimo local). $\phi _{1},\phi _{2},\dots \to f$

Los teoremas de aproximación universal son teoremas límite: simplemente establecen que para cualquier y un criterio de proximidad , si hay suficientes neuronas en una red neuronal, entonces existe una red neuronal con esa cantidad de neuronas que se aproxima a dentro de . No hay garantía de que cualquier tamaño finito, digamos, 10000 neuronas, sea suficiente. $f$ $\epsilon >0$ $f$ $\epsilon$

Configuración

Las redes neuronales artificiales son combinaciones de múltiples funciones matemáticas simples que implementan funciones más complicadas, desde vectores de valores reales (normalmente) hasta vectores de valores reales . Los espacios de funciones multivariadas que pueden implementarse mediante una red están determinados por la estructura de la red, el conjunto de funciones simples y sus parámetros multiplicativos. Se ha dedicado una gran cantidad de trabajo teórico a caracterizar estos espacios de funciones.

La mayoría de los teoremas de aproximación universales pertenecen a una de dos clases. El primero cuantifica las capacidades de aproximación de las redes neuronales con un número arbitrario de neuronas artificiales (caso de " ancho arbitrario ") y el segundo se centra en el caso con un número arbitrario de capas ocultas, cada una de las cuales contiene un número limitado de neuronas artificiales (caso de " profundidad arbitraria "). Además de estas dos clases, también existen teoremas de aproximación universales para redes neuronales con un número limitado de capas ocultas y un número limitado de neuronas en cada capa (caso de " profundidad y ancho limitados ").

Historia

Ancho arbitrario

Los primeros ejemplos fueron el caso de ancho arbitrario . George Cybenko lo demostró en 1989 para funciones de activación sigmoideas . ^[3] Kurt Hornik [de] , Maxwell Stinchcombe y Halbert White demostraron en 1989 que las redes de propagación hacia adelante multicapa con tan solo una capa oculta son aproximadores universales. ^[1] Hornik también demostró en 1991 ^[4] que no es la elección específica de la función de activación sino más bien la arquitectura de propagación hacia adelante multicapa en sí misma lo que da a las redes neuronales el potencial de ser aproximadores universales. Moshe Leshno et al en 1993 ^[5] y más tarde Allan Pinkus en 1999 ^[6] demostraron que la propiedad de aproximación universal es equivalente a tener una función de activación no polinómica.

Profundidad arbitraria

El caso de profundidad arbitraria también fue estudiado por varios autores como Gustaf Gripenberg en 2003, ^[7] Dmitry Yarotsky, ^[8] Zhou Lu et al en 2017, ^[9] Boris Hanin y Mark Sellke en 2018 ^[10] quienes se centraron en redes neuronales con función de activación ReLU. En 2020, Patrick Kidger y Terry Lyons ^[11] extendieron esos resultados a redes neuronales con funciones de activación generales como, por ejemplo, tanh, GeLU o Swish.

Un caso especial de profundidad arbitraria es que cada componente de la composición proviene de un conjunto finito de asignaciones. En 2024, Cai ^[12] construyó un conjunto finito de asignaciones, llamado vocabulario, de modo que cualquier función continua puede aproximarse mediante la composición de una secuencia a partir del vocabulario. Esto es similar al concepto de composicionalidad en lingüística, que es la idea de que un vocabulario finito de elementos básicos puede combinarse mediante la gramática para expresar una gama infinita de significados.

Profundidad limitada y ancho limitado

El caso de profundidad limitada y ancho limitado fue estudiado por primera vez por Maiorov y Pinkus en 1999. ^[13] Demostraron que existe una función de activación sigmoidea analítica tal que dos redes neuronales de capas ocultas con un número limitado de unidades en capas ocultas son aproximadores universales.

Guliyev e Ismailov ^[14] construyeron una función de activación sigmoidea suave que proporciona una propiedad de aproximación universal para redes neuronales de propagación hacia adelante de dos capas ocultas con menos unidades en las capas ocultas.

^[15] construyeron redes de capa oculta única con ancho acotado que siguen siendo aproximadores universales para funciones univariadas. Sin embargo, esto no se aplica a funciones multivariables.

^[16] obtuvieron información cuantitativa precisa sobre la profundidad y el ancho necesarios para aproximar una función objetivo mediante redes neuronales ReLU profundas y amplias.

Límites cuantitativos

La cuestión del ancho mínimo posible para la universalidad se estudió por primera vez en 2021, Park et al obtuvieron el ancho mínimo requerido para la aproximación universal de las funciones L p utilizando redes neuronales de avance con ReLU como funciones de activación. ^[17] Paulo Tabuada y Bahman Gharesifard también obtuvieron resultados similares que se pueden aplicar directamente a las redes neuronales residuales el mismo año utilizando argumentos de teoría de control . ^[18]^[19] En 2023, Cai obtuvo el límite de ancho mínimo óptimo para la aproximación universal. ^[20]

Para el caso de profundidad arbitraria, Leonie Papon y Anastasis Kratsios derivaron estimaciones de profundidad explícitas dependiendo de la regularidad de la función objetivo y de la función de activación. ^[21]

Red de Kolmogorov

El teorema de representación de Kolmogorov-Arnold es similar en espíritu. De hecho, ciertas familias de redes neuronales pueden aplicar directamente el teorema de Kolmogorov-Arnold para obtener un teorema de aproximación universal. Robert Hecht-Nielsen demostró que una red neuronal de tres capas puede aproximar cualquier función multivariable continua. ^[22] Vugar Ismailov amplió esta teoría al caso discontinuo. ^[23] En 2024, Ziming Liu y coautores mostraron una aplicación práctica. ^[24]

Variantes

Funciones de activación discontinua, ^[5] dominios no compactos, ^[11]^[25] redes certificables, ^[26] redes neuronales aleatorias, ^[27] y arquitecturas y topologías de redes alternativas. ^[11]^[28]

La propiedad de aproximación universal de las redes limitadas por el ancho se ha estudiado como un dual de los resultados de aproximación universal clásica en redes limitadas por la profundidad. Para la dimensión de entrada dx y la dimensión de salida dy, el ancho mínimo requerido para la aproximación universal de las funciones L p es exactamente max{dx + 1, dy} (para una red ReLU). De manera más general, esto también se cumple si se utilizan tanto ReLU como una función de activación de umbral . ^[17]

La aproximación de funciones universales en grafos (o más bien en clases de isomorfismo de grafos ) mediante redes neuronales convolucionales de grafos populares (GCN o GNN) se puede hacer tan discriminativa como la prueba de isomorfismo de grafos de Weisfeiler-Leman. ^[29] En 2020, ^[30] Brüel-Gabrielsson estableció un resultado de teorema de aproximación universal, que muestra que la representación de grafos con ciertas propiedades inyectivas es suficiente para la aproximación de funciones universales en grafos acotados y la aproximación de funciones universales restringidas en grafos no acotados, con un método de tiempo de ejecución adjunto que funcionó en el estado del arte en una colección de puntos de referencia (donde y son los conjuntos de nodos y aristas del grafo respectivamente). ${\mathcal {O}}(\left|V\right|\cdot \left|E\right|)$ $V$ $E$

También hay una variedad de resultados entre los espacios no euclidianos ^[31] y otras arquitecturas comúnmente utilizadas y, de manera más general, conjuntos de funciones generados algorítmicamente, como la arquitectura de red neuronal convolucional (CNN), ^[32]^[33] funciones de base radial , ^[34] o redes neuronales con propiedades específicas. ^[35]^[36]

Caso de ancho arbitrario

Una serie de artículos publicados en los años 1980 y 1990, de George Cybenko y Kurt Hornik [de], etc., establecieron varios teoremas de aproximación universal para anchos arbitrarios y profundidades acotadas. ^[37]^[3]^[38]^[4] Véase ^[39]^[40]^[6] para ver las revisiones. El siguiente es el más citado:

Teorema de aproximación universal — Sea , el conjunto de funciones continuas de un subconjunto de un espacio euclidiano a un espacio euclidiano . Sea . Nótese que , por lo que denota aplicado a cada componente de . $C(X,\mathbb {R} ^{m})$ $X$ $\mathbb {R} ^{n}$ $\mathbb {R} ^{m}$ $\sigma \in C(\mathbb {R} ,\mathbb {R} )$ $(\sigma \circ x)_{i}=\sigma (x_{i})$ $\sigma \circ x$ $\sigma$ $x$

Entonces no es polinomio si y sólo si para cada , , compacto , existen , , , tales que donde $\sigma$ $n\in \mathbb {N}$ $m\in \mathbb {N}$ $K\subseteq \mathbb {R} ^{n}$ $f\in C(K,\mathbb {R} ^{m}),\varepsilon >0$ $k\in \mathbb {N}$ $A\in \mathbb {R} ^{k\times n}$ $b\in \mathbb {R} ^{k}$ $C\in \mathbb {R} ^{m\times k}$ $\sup _{x\in K}\|f(x)-g(x)\|<\varepsilon$ $g(x)=C\cdot (\sigma \circ (A\cdot x+b))$

Además, ciertas funciones de activación no continuas se pueden utilizar para aproximar una función sigmoidea, lo que permite que el teorema anterior se aplique a esas funciones. Por ejemplo, la función escalonada funciona. En particular, esto demuestra que una red de perceptrones con una única capa oculta infinitamente ancha puede aproximarse a funciones arbitrarias.

Esto también se puede aproximar mediante una red de mayor profundidad utilizando la misma construcción para la primera capa y aproximando la función identidad con capas posteriores. $f$

Boceto de prueba

Basta con demostrar el caso donde , ya que la convergencia uniforme en es simplemente convergencia uniforme en cada coordenada. $m=1$ $\mathbb {R} ^{m}$

Sea el conjunto de todas las redes neuronales de una capa oculta construidas con . Sea el conjunto de todas las redes con soporte compacto. $F_{\sigma }$ $\sigma$ $C_{0}(\mathbb {R} ^{d},\mathbb {R} )$ $C(\mathbb {R} ^{d},\mathbb {R} )$

Si la función es un polinomio de grado , entonces está contenido en el subespacio cerrado de todos los polinomios de grado , por lo que su clausura también está contenida en él, que no es todo . $d$ $F_{\sigma }$ $d$ $C_{0}(\mathbb {R} ^{d},\mathbb {R} )$

De lo contrario, demostramos que el cierre de es todo . Supongamos que podemos construir aproximaciones arbitrarias de la función rampa , entonces se puede combinar para construir una función continua arbitraria con soporte compacto con precisión arbitraria. Queda por aproximar la función rampa. $F_{\sigma }$ $C_{0}(\mathbb {R} ^{d},\mathbb {R} )$ $r(x)={\begin{cases}-1&{\text{if }}x<-1\\{\phantom {+}}x&{\text{if }}|x|\leq 1\\{\phantom {+}}1&{\text{if }}x>1\\\end{cases}}$

Obviamente, cualquiera de las funciones de activación comúnmente utilizadas en el aprendizaje automático se puede utilizar para aproximar la función de rampa, o primero aproximar la ReLU y luego la función de rampa.

Si es "aplastante", es decir, tiene límites , entonces uno puede primero reducir afinadamente su eje x de modo que su gráfico parezca una función escalonada con dos "sobreimpulsos" agudos, luego hacer una suma lineal de suficientes de ellos para hacer una aproximación de "escalera" de la función rampa. Con más escalones de la escalera, los sobreimpulsos se suavizan y obtenemos una aproximación arbitrariamente buena de la función rampa. $\sigma$ $\sigma (-\infty )<\sigma (+\infty )$

El caso donde es una función genérica no polinómica es más difícil y se dirige al lector a. ^[6] $\sigma$

La prueba anterior no ha especificado cómo se podría usar una función rampa para aproximar funciones arbitrarias en . Un esbozo de la prueba es que uno puede construir primero funciones de protuberancia planas, intersectarlas para obtener funciones de protuberancia esféricas que se aproximan a la función delta de Dirac , luego usarlas para aproximar funciones arbitrarias en . ^[41] Las pruebas originales, como la de Cybenko, usan métodos del análisis funcional, incluidos los teoremas de representación de Hahn-Banach y Riesz–Markov–Kakutani . $C_{0}(\mathbb {R} ^{n},\mathbb {R} )$ $C_{0}(\mathbb {R} ^{n},\mathbb {R} )$

Observe también que la red neuronal solo debe aproximarse dentro de un conjunto compacto . La prueba no describe cómo se extrapolaría la función fuera de la región. $K$

El problema con los polinomios se puede eliminar permitiendo que las salidas de las capas ocultas se multipliquen entre sí (las "redes pi-sigma"), lo que produce la generalización: ^[38]

Teorema de aproximación universal para redes pi-sigma : con cualquier función de activación no constante, una red pi-sigma de una capa oculta es un aproximador universal.

Caso de profundidad arbitraria

Las versiones "duales" del teorema consideran redes de ancho acotado y profundidad arbitraria. En 2017, Zhou Lu et al. demostraron una variante del teorema de aproximación universal para el caso de profundidad arbitraria. ^[9] Demostraron que las redes de ancho n + 4 con funciones de activación ReLU pueden aproximarse a cualquier función integrable de Lebesgue en un espacio de entrada n -dimensional con respecto a la distancia si se permite que la profundidad de la red crezca. También se demostró que si el ancho era menor o igual a n , se perdía este poder expresivo general para aproximarse a cualquier función integrable de Lebesgue. En el mismo artículo ^[9] se demostró que las redes ReLU con ancho n + 1 eran suficientes para aproximarse a cualquier función continua de variables de entrada n -dimensionales. ^[42] El siguiente refinamiento especifica el ancho mínimo óptimo para el cual es posible tal aproximación y se debe a. ^[43] $L^{1}$

Teorema de aproximación universal (distancia L1, activación ReLU, profundidad arbitraria, ancho mínimo) — Para cualquier función p-integrable de Bochner-Lebesgue y cualquier , existe una red ReLU completamente conexa de ancho exactamente , que satisface Además, existe una función y algún , para el cual no existe una red ReLU completamente conexa de ancho menor que que satisfaga el límite de aproximación anterior. $f:\mathbb {R} ^{n}\to \mathbb {R} ^{m}$ $\varepsilon >0$ $F$ $d_{m}=\max\{n+1,m\}$ $\int _{\mathbb {R} ^{n}}\|f(x)-F(x)\|^{p}\,\mathrm {d} x<\varepsilon .$ $f\in L^{p}(\mathbb {R} ^{n},\mathbb {R} ^{m})$ $\varepsilon >0$ $d_{m}=\max\{n+1,m\}$

Observación: Si la activación se reemplaza por leaky-ReLU y la entrada está restringida en un dominio compacto, entonces el ancho mínimo exacto es ^[20] . $d_{m}=\max\{n,m,2\}$

Refinamiento cuantitativo: En el caso en que , (es decir ) y es la función de activación ReLU , también se conoce la profundidad y el ancho exactos para que una red ReLU alcance el error. ^[44] Si, además, la función objetivo es suave, entonces el número requerido de capas y su ancho pueden ser exponencialmente más pequeños. ^[45] Incluso si no es suave, la maldición de la dimensionalidad se puede romper si admite una "estructura compositiva" adicional. ^[46]^[47] $f:[0,1]^{n}\rightarrow \mathbb {R}$ $m=1$ $\sigma$ $\varepsilon$ $f$ $f$ $f$

En conjunto, el resultado central de ^[11] produce el siguiente teorema de aproximación universal para redes con ancho limitado (véase también ^[7] para el primer resultado de este tipo).

Teorema de aproximación universal (activación no afín uniforme , profundidad arbitraria , ancho restringido). — Sea un subconjunto compacto de . Sea cualquier función continua no afín que sea continuamente diferenciable en al menos un punto, con derivada distinta de cero en ese punto. Sea el espacio de redes neuronales de propagación hacia adelante con neuronas de entrada, neuronas de salida y un número arbitrario de capas ocultas, cada una con neuronas, de modo que cada neurona oculta tiene una función de activación y cada neurona de salida tiene la identidad como su función de activación, con capa de entrada y capa de salida . Entonces, dado cualquier y cualquier , existe tal que ${\mathcal {X}}$ $\mathbb {R} ^{d}$ $\sigma :\mathbb {R} \to \mathbb {R}$ ${\mathcal {N}}_{d,D:d+D+2}^{\sigma }$ $d$ $D$ $d+D+2$ $\sigma$ $\phi$ $\rho$ $\varepsilon >0$ $f\in C({\mathcal {X}},\mathbb {R} ^{D})$ ${\hat {f}}\in {\mathcal {N}}_{d,D:d+D+2}^{\sigma }$ $\sup _{x\in {\mathcal {X}}}\left\|{\hat {f}}(x)-f(x)\right\|<\varepsilon .$

En otras palabras, es denso con respecto a la topología de convergencia uniforme . ${\mathcal {N}}$ $C({\mathcal {X}};\mathbb {R} ^{D})$

Refinamiento cuantitativo: Se conoce el número de capas y el ancho de cada capa necesarios para aproximarse a la precisión; ^[21] además, el resultado es válido cuando y se reemplazan con cualquier variedad de Riemann de curvatura no positiva . $f$ $\varepsilon$ ${\mathcal {X}}$ $\mathbb {R} ^{D}$

Se han establecido ciertas condiciones necesarias para el caso de ancho limitado y profundidad arbitraria, pero todavía existe una brecha entre las condiciones suficientes y necesarias conocidas. ^[9]^[10]^[48]

Caso de profundidad limitada y ancho limitado

El primer resultado sobre las capacidades de aproximación de las redes neuronales con un número limitado de capas, cada una de las cuales contiene un número limitado de neuronas artificiales, fue obtenido por Maiorov y Pinkus ^[13] . Su notable resultado reveló que dichas redes pueden ser aproximadores universales y que para lograr esta propiedad son suficientes dos capas ocultas.

Teorema de aproximación universal: ^[13] — Existe una función de activación que es analítica, estrictamente creciente y sigmoidea y tiene la siguiente propiedad: Para cualquier y existen constantes , y vectores para los cuales para todo . $\sigma$ $f\in C[0,1]^{d}$ $\varepsilon >0$ $d_{i},c_{ij},\theta _{ij},\gamma _{i}$ $\mathbf {w} ^{ij}\in \mathbb {R} ^{d}$ $\left\vert f(\mathbf {x} )-\sum _{i=1}^{6d+3}d_{i}\sigma \left(\sum _{j=1}^{3d}c_{ij}\sigma (\mathbf {w} ^{ij}\cdot \mathbf {x-} \theta _{ij})-\gamma _{i}\right)\right\vert <\varepsilon$ $\mathbf {x} =(x_{1},...,x_{d})\in [0,1]^{d}$

Este es un resultado de existencia. Dice que existen funciones de activación que proporcionan una propiedad de aproximación universal para redes de ancho y profundidad acotadas. Utilizando ciertas técnicas algorítmicas y de programación informática, Guliyev e Ismailov construyeron eficientemente dichas funciones de activación en función de un parámetro numérico. El algoritmo desarrollado permite calcular las funciones de activación en cualquier punto del eje real de forma instantánea. Para el algoritmo y el código informático correspondiente, consulte ^[14] . El resultado teórico puede formularse de la siguiente manera.

Teorema de aproximación universal: ^[14]^[15] — Sea un segmento finito de la recta real, y cualquier número positivo. Entonces se puede construir algorítmicamente una función de activación sigmoidea computable , que es infinitamente diferenciable, estrictamente creciente en , -estrictamente creciente en , y satisface las siguientes propiedades: $[a,b]$ $s=b-a$ $\lambda$ $\sigma \colon \mathbb {R} \to \mathbb {R}$ $(-\infty ,s)$ $\lambda$ $[s,+\infty )$

Para cualquier y existen números y tales que para todos $f\in C[a,b]$ $\varepsilon >0$ $c_{1},c_{2},\theta _{1}$ $\theta _{2}$ $x\in [a,b]$ $|f(x)-c_{1}\sigma (x-\theta _{1})-c_{2}\sigma (x-\theta _{2})|<\varepsilon$
Para cualquier función continua en la caja de dimensión y , existen constantes , , y tales que la desigualdad se cumple para todo . Aquí los pesos , , se fijan de la siguiente manera: Además, todos los coeficientes , excepto uno, son iguales. $F$ $d$ $[a,b]^{d}$ $\varepsilon >0$ $e_{p}$ $c_{pq}$ $\theta _{pq}$ $\zeta _{p}$ $\left|F(\mathbf {x} )-\sum _{p=1}^{2d+2}e_{p}\sigma \left(\sum _{q=1}^{d}c_{pq}\sigma (\mathbf {w} ^{q}\cdot \mathbf {x} -\theta _{pq})-\zeta _{p}\right)\right|<\varepsilon$ $\mathbf {x} =(x_{1},\ldots ,x_{d})\in [a,b]^{d}$ $\mathbf {w} ^{q}$ $q=1,\ldots ,d$ $\mathbf {w} ^{1}=(1,0,\ldots ,0),\quad \mathbf {w} ^{2}=(0,1,\ldots ,0),\quad \ldots ,\quad \mathbf {w} ^{d}=(0,0,\ldots ,1).$ $e_{p}$

Aquí, “ es estrictamente creciente en algún conjunto ” significa que existe una función estrictamente creciente tal que para todo . Claramente, una función creciente se comporta como una función creciente habitual a medida que se hace pequeño. En la terminología de “ profundidad-ancho ”, el teorema anterior dice que para ciertas funciones de activación, las redes de profundidad -ancho son aproximadores universales para funciones univariadas y las redes de profundidad- ancho son aproximadores universales para funciones de -variable ( ). $\sigma \colon \mathbb {R} \to \mathbb {R}$ $\lambda$ $X$ $u\colon X\to \mathbb {R}$ $|\sigma (x)-u(x)|\leq \lambda$ $x\in X$ $\lambda$ $\lambda$ $2$ $2$ $3$ $(2d+2)$ $d$ $d>1$

Véase también

Referencias

^ ab Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (enero de 1989). "Las redes de propagación hacia delante multicapa son aproximadores universales". Redes neuronales . 2 (5): 359–366. doi :10.1016/0893-6080(89)90020-8.
^ Balázs Csanád Csáji (2001) Aproximación con redes neuronales artificiales; Facultad de Ciencias; Universidad Eötvös Loránd, Hungría
^ ab Cybenko, G. (1989). "Aproximación por superposiciones de una función sigmoidea". Matemáticas de control, señales y sistemas . 2 (4): 303–314. Bibcode :1989MCSS....2..303C. CiteSeerX 10.1.1.441.7873 . doi :10.1007/BF02551274. S2CID 3958369.
^ ab Hornik, Kurt (1991). "Capacidades de aproximación de redes de propagación hacia adelante multicapa". Redes neuronales . 4 (2): 251–257. doi :10.1016/0893-6080(91)90009-T. S2CID 7343126.
^ ab Leshno, Moshe; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon (enero de 1993). "Las redes de propagación hacia adelante multicapa con una función de activación no polinómica pueden aproximarse a cualquier función". Redes neuronales . 6 (6): 861–867. doi :10.1016/S0893-6080(05)80131-5. S2CID 206089312.
^ abc Pinkus, Allan (enero de 1999). "Teoría de aproximación del modelo MLP en redes neuronales". Acta Numérica . 8 : 143-195. Código Bib : 1999AcNum...8..143P. doi :10.1017/S0962492900002919. S2CID 16800260.
^ ab Gripenberg, Gustaf (junio de 2003). "Aproximación mediante redes neuronales con un número limitado de nodos en cada nivel". Journal of Approximation Theory . 122 (2): 260–266. doi :10.1016/S0021-9045(03)00078-9.
^ Yarotsky, Dmitry (octubre de 2017). "Límites de error para aproximaciones con redes ReLU profundas". Redes neuronales . 94 : 103–114. arXiv : 1610.01145 . doi :10.1016/j.neunet.2017.07.002. PMID 28756334. S2CID 426133.
^ abcd Lu, Zhou; Pu, Hongming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei (2017). "El poder expresivo de las redes neuronales: una visión desde el ancho". Avances en sistemas de procesamiento de información neuronal . 30 . Curran Associates: 6231–6239. arXiv : 1709.02540 .
^ ab Hanin, Boris; Sellke, Mark (2018). "Aproximación de funciones continuas mediante redes ReLU de ancho mínimo". arXiv : 1710.11278 [stat.ML].
^ abcd Kidger, Patrick; Lyons, Terry (julio de 2020). Aproximación universal con redes estrechas y profundas . Conferencia sobre teoría del aprendizaje. arXiv : 1905.08539 .
^ Yongqiang, Cai (2024). "Vocabulario para aproximación universal: una perspectiva lingüística de la composición cartográfica". ICML : 5189–5208. arXiv : 2305.12205 .
^ abc Maiorov, Vitaly; Pinkus, Allan (abril de 1999). "Límites inferiores para la aproximación mediante redes neuronales MLP". Neurocomputing . 25 (1–3): 81–91. doi :10.1016/S0925-2312(98)00111-8.
^ abc Guliyev, Namig; Ismailov, Vugar (noviembre de 2018). "Capacidad de aproximación de dos redes neuronales de propagación hacia adelante de capa oculta con pesos fijos". Neurocomputing . 316 : 262–269. arXiv : 2101.09181 . doi :10.1016/j.neucom.2018.07.075. S2CID 52285996.
^ ab Guliyev, Namig; Ismailov, Vugar (febrero de 2018). "Sobre la aproximación mediante redes neuronales de propagación hacia adelante de una sola capa oculta con pesos fijos". Redes neuronales . 98 : 296–304. arXiv : 1708.06219 . doi :10.1016/j.neunet.2017.12.007. PMID 29301110. S2CID 4932839.
^ Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (enero de 2022). "Tasa de aproximación óptima de redes ReLU en términos de ancho y profundidad". Revista de Mathématiques Pures et Appliquées . 157 : 101-135. arXiv : 2103.00502 . doi :10.1016/j.matpur.2021.07.009. S2CID 232075797.
^ ab Park, Sejun; Yun, Chulhee; Lee, Jaeho; Shin, Jinwoo (2021). Ancho mínimo para aproximación universal . Conferencia internacional sobre representaciones de aprendizaje. arXiv : 2006.08859 .
^ Tabuada, Paulo; Gharesifard, Bahman (2021). Poder de aproximación universal de redes neuronales residuales profundas a través de la teoría de control no lineal . Conferencia internacional sobre representaciones de aprendizaje. arXiv : 2007.06007 .
^ Tabuada, Paulo; Gharesifard, Bahman (mayo de 2023). "Poder de aproximación universal de redes neuronales residuales profundas a través de la lente del control". IEEE Transactions on Automatic Control . 68 (5): 2715–2728. doi :10.1109/TAC.2022.3190051. S2CID 250512115.(Errata: doi :10.1109/TAC.2024.3390099)
^ ab Cai, Yongqiang (1 de febrero de 2023). "Lograr el ancho mínimo de las redes neuronales para la aproximación universal". ICLR . arXiv : 2209.11395 .
^ ab Kratsios, Anastasis; Papon, Léonie (2022). "Teoremas de aproximación universal para aprendizaje profundo geométrico diferenciable". Revista de investigación en aprendizaje automático . 23 (196): 1–73. arXiv : 2101.05390 .
^ Hecht-Nielsen, Robert (1987). "Teorema de existencia de redes neuronales de mapeo de Kolmogorov". Actas de la Conferencia Internacional sobre Redes Neuronales, 1987. 3 : 11–13.
^ Ismailov, Vugar E. (julio de 2023). "Una red neuronal de tres capas puede representar cualquier función multivariante". Revista de análisis matemático y aplicaciones . 523 (1): 127096. arXiv : 2012.03016 . doi :10.1016/j.jmaa.2023.127096. S2CID 265100963.
^ Liu, Ziming; Wang, Yixuan; Vaidya, Sachin; Ruehle, Fabian; Halverson, James; Soljačić, Marin; Hou, Thomas Y.; Tegmark, Max (24 de mayo de 2024). "KAN: Redes de Kolmogorov-Arnold". arXiv : 2404.19756 [cs.LG].
^ van Nuland, Teun (2024). "Aproximación universal uniforme no compacta". Redes Neuronales . 173 . arXiv : 2308.03812 . doi :10.1016/j.neunet.2024.106181. PMID 38412737.
^ Baader, Maximilian; Mirman, Matthew; Vechev, Martin (2020). Aproximación universal con redes certificadas. ICLR.
^ Gelenbe, Erol; Mao, Zhi Hong; Li, Yan D. (1999). "Aproximación de funciones con redes aleatorias con picos". IEEE Transactions on Neural Networks . 10 (1): 3–9. doi :10.1109/72.737488. PMID 18252498.
^ Lin, Hongzhou; Jegelka, Stefanie (2018). ResNet con capas ocultas de una neurona es un aproximador universal. Avances en sistemas de procesamiento de información neuronal . Vol. 30. Curran Associates. págs. 6169–6178.
^ Xu, Keyulu; Hu, Weihua; Leskovec, Jure; Jegelka, Stefanie (2019). ¿Qué tan poderosas son las redes neuronales gráficas?. Conferencia internacional sobre representaciones de aprendizaje .
^ Brüel-Gabrielsson, Rickard (2020). Aproximación de funciones universales en gráficos. Avances en sistemas de procesamiento de información neuronal . Vol. 33. Curran Associates.
^ Kratsios, Anastasis; Bilokopytov, Eugene (2020). Aproximación universal no euclidiana (PDF) . Avances en sistemas de procesamiento de información neuronal . Vol. 33. Curran Associates.
^ Zhou, Ding-Xuan (2020). "Universalidad de redes neuronales convolucionales profundas". Análisis armónico computacional y aplicado . 48 (2): 787–794. arXiv : 1805.10769 . doi :10.1016/j.acha.2019.06.004. S2CID 44113176.
^ Heinecke, Andreas; Ho, Jinn; Hwang, Wen-Liang (2020). "Refinamiento y aproximación universal mediante redes de convolución ReLU escasamente conectadas". IEEE Signal Processing Letters . 27 : 1175–1179. Bibcode :2020ISPL...27.1175H. doi :10.1109/LSP.2020.3005051. S2CID 220669183.
^ Park, J.; Sandberg, IW (1991). "Aproximación universal utilizando redes de función de base radial". Computación neuronal . 3 (2): 246–257. doi :10.1162/neco.1991.3.2.246. PMID 31167308. S2CID 34868087.
^ Yarotsky, Dmitry (2021). "Aproximaciones universales de mapas invariantes mediante redes neuronales". Aproximación constructiva . 55 : 407–474. arXiv : 1804.10306 . doi :10.1007/s00365-021-09546-1. S2CID 13745401.
^ Zakwan, Muhammad; d'Angelo, Massimiliano; Ferrari-Trecate, Giancarlo (2023). "Propiedad de aproximación universal de redes neuronales profundas hamiltonianas". IEEE Control Systems Letters : 1. arXiv : 2303.12147 . doi :10.1109/LCSYS.2023.3288350. S2CID : 257663609.
^ Funahashi, Ken-Ichi (enero de 1989). "Sobre la realización aproximada de mapeos continuos mediante redes neuronales". Redes neuronales . 2 (3): 183–192. doi :10.1016/0893-6080(89)90003-8.
^ ab Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (enero de 1989). "Las redes de propagación hacia delante multicapa son aproximadores universales". Redes neuronales . 2 (5): 359–366. doi :10.1016/0893-6080(89)90020-8.
^ Haykin, Simon (1998). Redes neuronales: una base integral , Volumen 2, Prentice Hall. ISBN 0-13-273350-1 .
^ Hassoun, M. (1995) Fundamentos de redes neuronales artificiales MIT Press, pág. 48
^ Nielsen, Michael A. (2015). "Redes neuronales y aprendizaje profundo". {{cite journal}}: Requiere citar revista |journal=( ayuda )
^ Hanin, B. (2018). Aproximación de funciones continuas mediante redes ReLU de ancho mínimo. Preimpresión de arXiv arXiv:1710.11278.
^ Park, Yun, Lee, Shin, Sejun, Chulhee, Jaeho, Jinwoo (28 de septiembre de 2020). "Ancho mínimo para aproximación universal". ICLR . arXiv : 2006.08859 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (enero de 2022). "Tasa de aproximación óptima de redes ReLU en términos de ancho y profundidad". Revista de Mathématiques Pures et Appliquées . 157 : 101-135. arXiv : 2103.00502 . doi :10.1016/j.matpur.2021.07.009. S2CID 232075797.
^ Lu, Jianfeng; Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (enero de 2021). "Aproximación de redes profundas para funciones suaves". Revista SIAM de análisis matemático . 53 (5): 5465–5506. arXiv : 2001.03040 . doi :10.1137/20M134695X. S2CID 210116459.
^ Juditsky, Anatoli B.; Lepski, Oleg V.; Tsybakov, Alexandre B. (1 de junio de 2009). "Estimación no paramétrica de funciones compuestas". Los anales de la estadística . 37 (3). doi : 10.1214/08-aos611 . ISSN 0090-5364. S2CID 2471890.
^ Poggio, Tomaso; Mhaskar, Hrushikesh; Rosasco, Lorenzo; Miranda, Brando; Liao, Qianli (14 de marzo de 2017). "Por qué y cuándo las redes profundas (pero no las superficiales) pueden evitar la maldición de la dimensionalidad: una revisión". Revista internacional de automatización y computación . 14 (5): 503–519. arXiv : 1611.00740 . doi : 10.1007/s11633-017-1054-2 . ISSN 1476-8186. S2CID 15562587.
^ Johnson, Jesse (2019). Las redes neuronales profundas y delgadas no son aproximadores universales. Conferencia internacional sobre representaciones del aprendizaje.