stringtranslate.com

Teorema de aproximación universal

Las redes neuronales artificiales son combinaciones de múltiples funciones matemáticas simples que implementan funciones más complicadas, desde (normalmente) vectores de valor real hasta vectores de valor real . Los espacios de funciones multivariadas que puede implementar una red están determinados por la estructura de la red, el conjunto de funciones simples y sus parámetros multiplicativos. Se ha realizado una gran cantidad de trabajo teórico para caracterizar estos espacios funcionales.

En la teoría matemática de las redes neuronales artificiales , los teoremas de aproximación universal son resultados [1] [2] que ponen límites a lo que las redes neuronales pueden aprender teóricamente. Específicamente, dado un algoritmo que genera redes dentro de una clase de funciones, los teoremas establecen la densidad de las funciones generadas dentro de un espacio funcional de interés determinado. Normalmente, estos resultados se refieren a las capacidades de aproximación de la arquitectura feedforward en el espacio de funciones continuas entre dos espacios euclidianos , y la aproximación es con respecto a la topología de convergencia compacta . Lo que hay que destacar es que, si bien algunas funciones pueden aproximarse arbitrariamente en una región, las pruebas no se aplican fuera de la región, es decir, las funciones aproximadas no se extrapolan fuera de la región. Esto se aplica a todas las funciones de activación no periódicas , es decir, lo que se utiliza en la práctica y lo que suponen la mayoría de las pruebas. En los últimos años, se han descubierto en el cerebro humano neuronas piramidales neocorticales con función de activación oscilante que pueden aprender individualmente la función XOR y se han explorado y demostrado que las funciones de activación oscilante superan las funciones de activación populares en una variedad de puntos de referencia. [3]

Sin embargo, también hay una variedad de resultados entre espacios no euclidianos [4] y otras arquitecturas comúnmente utilizadas y, más generalmente, conjuntos de funciones generadas algorítmicamente, como la arquitectura de red neuronal convolucional (CNN), [5] [6]. funciones de base radial , [7] o redes neuronales con propiedades específicas. [8] [9] La mayoría de los teoremas de aproximación universal se pueden dividir en dos clases. El primero cuantifica las capacidades de aproximación de redes neuronales con un número arbitrario de neuronas artificiales (caso " ancho arbitrario ") y el segundo se centra en el caso con un número arbitrario de capas ocultas, cada una de las cuales contiene un número limitado de neuronas artificiales (" profundidad arbitraria "). " caso). Además de estas dos clases, también existen teoremas de aproximación universal para redes neuronales con un número limitado de capas ocultas y un número limitado de neuronas en cada capa (caso de " profundidad limitada y ancho limitado ").

Los teoremas de aproximación universal implican que las redes neuronales pueden representar una amplia variedad de funciones interesantes con pesos apropiados. Por otra parte, normalmente no proporcionan una construcción para las pesas, sino que simplemente afirman que tal construcción es posible. Para construir el peso, se entrenan redes neuronales, que pueden converger en los pesos correctos o no (es decir, quedarse estancadas en un óptimo local). Si la red es demasiado pequeña (para las dimensiones de los datos de entrada), entonces los teoremas de aproximación universal no se aplican, es decir, las redes no aprenderán. Lo que antes se demostró sobre la profundidad de una red, es decir, que una única capa oculta es suficiente, sólo es válido para una dimensión; en general, una red de este tipo es demasiado superficial. El ancho de una red también es un hiperparámetro importante . La elección de una función de activación también es importante, y algunos trabajos y pruebas escritas asumen, por ejemplo, que se utiliza ReLU (o sigmoide ), mientras que se sabe que algunas, como una lineal, no funcionan (ni ningún polinominal).

Las redes neuronales con una función de activación ilimitada (no polinómica) tienen la propiedad de aproximación universal. [10]

La propiedad de aproximación universal de redes de ancho limitado se ha estudiado como un dual de los resultados de la aproximación universal clásica en redes de profundidad limitada. Para la dimensión de entrada dx y la dimensión de salida dy, el ancho mínimo requerido para la aproximación universal de las funciones L p es exactamente max{dx + 1, dy} (para una red ReLU). De manera más general, esto también es válido si se utilizan tanto ReLU como una función de activación de umbral . [11]

Historia

George Cybenko demostró una de las primeras versiones del caso de ancho arbitrario en 1989 para funciones de activación sigmoidea . [12] Kurt Hornik  [Delaware] , Maxwell Stinchcombe y Halbert White demostraron en 1989 que las redes de alimentación directa multicapa con tan solo una capa oculta son aproximadores universales. [1] Hornik también demostró en 1991 [13] que no es la elección específica de la función de activación sino más bien la propia arquitectura de avance multicapa lo que da a las redes neuronales el potencial de ser aproximadores universales. Moshe Leshno et al en 1993 [14] y posteriormente Allan Pinkus en 1999 [15] demostraron que la propiedad de aproximación universal es equivalente a tener una función de activación no polinómica. En 2022, Shen Zuowei, Haizhao Yang y Shijun Zhang [16] obtuvieron información cuantitativa precisa sobre la profundidad y el ancho necesarios para aproximar una función objetivo mediante redes neuronales ReLU amplias y profundas.

El caso de la profundidad arbitraria también fue estudiado por varios autores como Gustaf Gripenberg en 2003, [17] Dmitry Yarotsky, [18] Zhou Lu et al en 2017, [19] Boris Hanin y Mark Sellke en 2018 [20], quienes se centraron en en redes neuronales con función de activación ReLU. En 2020, Patrick Kidger y Terry Lyons [21] ampliaron esos resultados a redes neuronales con funciones de activación generales como, por ejemplo, tanh, GeLU o Swish, y en 2022, Leonie Papon y Anastasis Kratsios [22] hicieron su resultado cuantitativo . derivaron estimaciones de profundidad explícitas dependiendo de la regularidad de la función objetivo y de la función de activación.

La cuestión del ancho mínimo posible para la universalidad se estudió por primera vez en 2021, Park et al obtuvieron el ancho mínimo requerido para la aproximación universal de las funciones L p utilizando redes neuronales de retroalimentación con ReLU como funciones de activación. [11] Paulo Tabuada y Bahman Gharesifard también obtuvieron en el mismo año resultados similares que pueden aplicarse directamente a las redes neuronales residuales utilizando argumentos de teoría del control . [23] [24] En 2023, Cai [25] obtuvo el ancho mínimo óptimo limitado para la aproximación universal.

El caso de profundidad acotada y ancho acotado fue estudiado por primera vez por Maiorov y Pinkus en 1999. [26] Demostraron que existe una función de activación sigmoidea analítica tal que dos redes neuronales de capa oculta con un número limitado de unidades en capas ocultas son aproximadores universales. Utilizando técnicas algorítmicas y de programación informática, Guliyev e Ismailov construyeron una función de activación sigmoidal suave que proporciona una propiedad de aproximación universal para dos redes neuronales de alimentación directa de capas ocultas con menos unidades en capas ocultas. [27] Se demostró constructivamente en el artículo de 2018 [28] que las redes de una sola capa oculta con ancho acotado siguen siendo aproximadores universales para funciones univariadas, pero esta propiedad ya no es cierta para funciones multivariables.

Existen varias extensiones del teorema, como funciones de activación discontinuas, [14] dominios no compactos, [21] redes certificables, [29] redes neuronales aleatorias, [30] y arquitecturas y topologías de redes alternativas. [21] [31]

En 2023 se publicó que una red neuronal de tres capas puede aproximarse a cualquier función (continua y no continua) [32]

Caso de ancho arbitrario

Una serie de artículos de las décadas de 1980 y 1990, de George Cybenko y Kurt Hornik  [Delaware], etc., establecieron varios teoremas de aproximación universal para ancho arbitrario y profundidad limitada. [33] [12] [34] [13] Consulte [35] [36] [15] para revisiones. El siguiente es el más citado:

Teorema de aproximación universal  :  denotemos el conjunto de funciones continuas de un subconjunto de un espacio euclidiano a un espacio euclidiano . Dejar . Tenga en cuenta que , so denota aplicado a cada componente de .

Entonces no es polinomio si y sólo si para todo , , compacto existe , , , tal que

dónde

Además, se pueden usar ciertas funciones de activación no continuas para aproximar una función sigmoidea, lo que luego permite que el teorema anterior se aplique a esas funciones. Por ejemplo, la función de paso funciona. En particular, esto muestra que una red de perceptrones con una única capa oculta infinitamente ancha puede aproximarse a funciones arbitrarias.

Esto también se puede aproximar mediante una red de mayor profundidad utilizando la misma construcción para la primera capa y aproximando la función de identidad con capas posteriores.

Bosquejo de prueba

Basta probar el caso en el que , ya que la convergencia uniforme en es precisamente la convergencia uniforme en cada coordenada.

Sea el conjunto de todas las redes neuronales de una capa oculta construidas con . Sea el conjunto de todos con soporte compacto.

Si la función es un polinomio de grado , entonces está contenida en el subespacio cerrado de todos los polinomios de grado , por lo que su cierre también está contenido en él, que no es todo de .

De lo contrario, demostramos que el cierre es todo de . Supongamos que podemos construir aproximaciones arbitrariamente buenas de la función rampa.

luego se puede combinar para construir una función continua arbitraria con soporte compacto con precisión arbitraria. Queda por aproximar la función de rampa.

Cualquiera de las funciones de activación comúnmente utilizadas en el aprendizaje automático se puede usar obviamente para aproximar la función de rampa, o primero aproximar el ReLU y luego la función de rampa.

si está "aplastando", es decir, tiene límites , entonces primero se puede reducir de manera afín su eje x para que su gráfica parezca una función escalonada con dos "sobrepasos" bruscos, luego hacer una suma lineal de suficientes de ellos para hacer una aproximación en "escalera" de la función de rampa. Con más escalones de la escalera, los sobrepasos se suavizan y obtenemos una aproximación arbitrariamente buena de la función de rampa.

El caso en el que se trata de una función genérica no polinómica es más difícil y se dirige al lector. [15]

La prueba anterior no ha especificado cómo se podría usar una función de rampa para aproximar funciones arbitrarias en . Un esbozo de la prueba es que primero se pueden construir funciones de relieve planas, intersecarlas para obtener funciones de relieve esféricas que se aproximan a la función delta de Dirac y luego usarlas para aproximar funciones arbitrarias en . [37] Las pruebas originales, como la de Cybenko, utilizan métodos de análisis funcional, incluidos los teoremas de representación de Hahn-Banach y Riesz .

El problema con los polinomios puede eliminarse permitiendo que las salidas de las capas ocultas se multipliquen entre sí (las "redes pi-sigma"), lo que produce la generalización: [34]

Teorema de aproximación universal para redes pi-sigma  :  con cualquier función de activación no constante, una red pi-sigma de una capa oculta es un aproximador universal.

Caso de profundidad arbitraria

Las versiones "duales" del teorema consideran redes de ancho acotado y profundidad arbitraria. Zhou Lu et al. demostraron una variante del teorema de aproximación universal para el caso de profundidad arbitraria. en 2017. [19] Demostraron que las redes de ancho n  + 4 con funciones de activación ReLU pueden aproximarse a cualquier función integrable de Lebesgue en un espacio de entrada de n dimensiones con respecto a la distancia si se permite que la profundidad de la red crezca. También se demostró que si el ancho era menor o igual a n , se perdía este poder expresivo general para aproximar cualquier función integrable de Lebesgue. En el mismo artículo [19] se demostró que las redes ReLU con ancho n  + 1 eran suficientes para aproximar cualquier función continua de variables de entrada de n dimensiones. [38] El siguiente refinamiento especifica el ancho mínimo óptimo para el cual dicha aproximación es posible y se debe a. [39]

Teorema de aproximación universal (distancia L1, activación ReLU, profundidad arbitraria, ancho mínimo)  :  para cualquier función p-integrable de Bochner-Lebesgue y cualquier , existe una red ReLU completamente conectada de ancho exactamente , que satisface

Además, existe una función y algunas , para las cuales no existe una red ReLU completamente conectada de ancho menor que el límite de aproximación anterior.

Observación: Si la activación se reemplaza por Leaky-ReLU y la entrada está restringida en un dominio compacto, entonces el ancho mínimo exacto es [25] .

Refinamiento cuantitativo: en el caso de dónde, cuándo y dónde está la función de activación de ReLU , también se conoce la profundidad y el ancho exactos para que una red ReLU alcance el error. [40] Si, además, la función objetivo es suave, entonces el número requerido de capas y su ancho pueden ser exponencialmente menores. [41] Incluso si no es suave, la maldición de la dimensionalidad puede romperse si admite una "estructura composicional" adicional. [42] [43]

En conjunto, el resultado central de [21] produce el siguiente teorema de aproximación universal para redes con ancho acotado (ver también [17] para el primer resultado de este tipo).

Teorema de aproximación universal (activación uniforme no afín , profundidad arbitraria , ancho restringido).  —  Sea un subconjunto compacto de . Sea cualquier función continua no afín que sea continuamente diferenciable en al menos un punto, con derivada distinta de cero en ese punto. Denotemos el espacio de las redes neuronales de retroalimentación con neuronas de entrada, neuronas de salida y un número arbitrario de capas ocultas, cada una con neuronas, de modo que cada neurona oculta tiene una función de activación y cada neurona de salida tiene la identidad como función de activación, con entrada capa y capa de salida . Entonces dado any y any , existe tal que

En otras palabras, es denso con respecto a la topología de convergencia uniforme .

Refinamiento cuantitativo: el número de capas y el ancho de cada capa necesarios para aproximarse a la precisión conocida; [22] además, el resultado es válido cuando y se reemplazan con cualquier variedad de Riemann curvada no positivamente .

Se han establecido ciertas condiciones necesarias para el caso de ancho acotado y profundidad arbitraria, pero todavía existe una brecha entre las condiciones suficientes y necesarias conocidas. [19] [20] [44]

Caso de profundidad acotada y ancho acotado

Maiorov y Pinkus obtuvieron el primer resultado sobre las capacidades de aproximación de redes neuronales con un número limitado de capas, cada una de las cuales contiene un número limitado de neuronas artificiales. [26] Su notable resultado reveló que tales redes pueden ser aproximadores universales y para lograr esta propiedad son suficientes dos capas ocultas.

Teorema de aproximación universal: [26]  —  Existe una función de activación que es analítica, estrictamente creciente y sigmoidal y tiene la siguiente propiedad: Para cualquier y existen constantes y vectores para los cuales

para todos .

Este es un resultado de la existencia. Dice que existen funciones de activación que proporcionan una propiedad de aproximación universal para redes de profundidad acotada y ancho acotado. Utilizando ciertas técnicas algorítmicas y de programación informática, Guliyev e Ismailov construyeron eficientemente dichas funciones de activación dependiendo de un parámetro numérico. El algoritmo desarrollado permite calcular instantáneamente las funciones de activación en cualquier punto del eje real. Para conocer el algoritmo y el código informático correspondiente, consulte. [27] El resultado teórico se puede formular de la siguiente manera.

Teorema de aproximación universal: [27] [28]  —  Sea un segmento finito de la recta real y sea cualquier número positivo. Entonces se puede construir algorítmicamente una función de activación sigmoidea computable , que es infinitamente diferenciable, estrictamente creciente en , estrictamente creciente en y que satisface las siguientes propiedades:

  1. Para cualquiera y existen números y tales que para todos
  2. Para cualquier función continua en la caja de dimensiones y , existen constantes , y tales que la desigualdad
    vale para todos . Aquí los pesos , , se fijan de la siguiente manera:
    Además, todos los coeficientes , excepto uno, son iguales.

Aquí " es estrictamente creciente en algún conjunto " significa que existe una función estrictamente creciente tal que para todos . Claramente, una función creciente se comporta como una función creciente habitual a medida que se hace pequeña. En la terminología de " ancho-profundidad ", el teorema anterior dice que para ciertas funciones de activación las redes de ancho- profundidad son aproximadores universales para funciones univariadas y las redes de ancho-profundidad son aproximadores universales para funciones variables ( ).

Entrada de gráfico

Lograr una aproximación útil de funciones universales en gráficos (o más bien en clases de isomorfismo de gráficos ) ha sido un problema de larga data. Las populares redes neuronales convolucionales de gráficos (GCN o GNN) pueden hacerse tan discriminativas como la prueba de isomorfismo de gráficos de Weisfeiler-Leman. [45] En 2020, [46] Brüel-Gabrielsson estableció un resultado del teorema de aproximación universal, que muestra que la representación de gráficos con ciertas propiedades inyectivas es suficiente para la aproximación de funciones universales en gráficos acotados y la aproximación de funciones universal restringida en gráficos ilimitados, con un acompañamiento -método de tiempo de ejecución que se realizó con el estado del arte en una colección de puntos de referencia (donde y son los conjuntos de nodos y bordes del gráfico respectivamente).

Ver también

Referencias

  1. ^ ab Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (enero de 1989). "Las redes feedforward multicapa son aproximadores universales". Redes neuronales . 2 (5): 359–366. doi :10.1016/0893-6080(89)90020-8.
  2. ^ Balázs Csanád Csáji (2001) Aproximación con redes neuronales artificiales; Facultad de Ciencias; Universidad Eötvös Loránd, Hungría
  3. ^ Gidón, Albert; Zolnik, Timothy Adam; Fidzinski, Pawel; Bolduán, Félix; Papoutsi, Atanasia; Poirazi, Panayiota; Holtkamp, ​​Martín; Vida, Imre; Larkum, Matthew Evan (3 de enero de 2020). "Potenciales de acción dendríticas y computación en neuronas corticales de la capa 2/3 humana". Ciencia . 367 (6473): 83–87. Código Bib : 2020 Ciencia... 367... 83G. doi : 10.1126/ciencia.aax6239. PMID  31896716.
  4. ^ Kratsios, Anastasis; Bilokopytov, Eugenio (2020). Aproximación universal no euclidiana (PDF) . Avances en los sistemas de procesamiento de información neuronal . vol. 33. Asociados Curran.
  5. ^ Zhou, Ding-Xuan (2020). "Universalidad de las redes neuronales convolucionales profundas". Análisis Armónico Aplicado y Computacional . 48 (2): 787–794. arXiv : 1805.10769 . doi :10.1016/j.acha.2019.06.004. S2CID  44113176.
  6. ^ Heinecke, Andrés; Ho, genios; Hwang, Wen-Liang (2020). "Refinamiento y aproximación universal a través de redes convolucionales ReLU escasamente conectadas". Cartas de procesamiento de señales IEEE . 27 : 1175-1179. Código Bib : 2020ISPL...27.1175H. doi :10.1109/LSP.2020.3005051. S2CID  220669183.
  7. ^ Parque, J.; Sandberg, IW (1991). "Aproximación universal mediante redes de función de base radial". Computación neuronal . 3 (2): 246–257. doi :10.1162/neco.1991.3.2.246. PMID  31167308. S2CID  34868087.
  8. ^ Yarotsky, Dmitry (2021). "Aproximaciones universales de mapas invariantes por redes neuronales". Aproximación constructiva . 55 : 407–474. arXiv : 1804.10306 . doi :10.1007/s00365-021-09546-1. S2CID  13745401.
  9. ^ Zakwan, Mahoma; d'Angelo, Massimiliano; Ferrari-Trecate, Giancarlo (2023). "Propiedad de aproximación universal de las redes neuronales profundas hamiltonianas". Cartas de sistemas de control IEEE : 1. arXiv : 2303.12147 . doi :10.1109/LCSYS.2023.3288350. S2CID  257663609.
  10. ^ Sonoda, Sho; Murata, Noboru (septiembre de 2017). "La red neuronal con funciones de activación ilimitadas es un aproximador universal". Análisis Armónico Aplicado y Computacional . 43 (2): 233–268. arXiv : 1505.03654 . doi :10.1016/j.acha.2015.12.005. S2CID  12149203.
  11. ^ ab Park, Sejun; Yun, Chulhee; Lee, Jaeho; Shin, Jinwoo (2021). Ancho mínimo para aproximación universal . Conferencia Internacional sobre Representaciones del Aprendizaje. arXiv : 2006.08859 .
  12. ^ ab Cybenko, G. (1989). "Aproximación por superposiciones de una función sigmoidea". Matemáticas de Control, Señales y Sistemas . 2 (4): 303–314. CiteSeerX 10.1.1.441.7873 . doi :10.1007/BF02551274. S2CID  3958369. 
  13. ^ ab Hornik, Kurt (1991). "Capacidades de aproximación de redes feedforward multicapa". Redes neuronales . 4 (2): 251–257. doi :10.1016/0893-6080(91)90009-T. S2CID  7343126.
  14. ^ ab Leshno, Moshé; Lin, Vladimir Ya.; Pinkus, Allan; Schocken, Shimon (enero de 1993). "Las redes de avance multicapa con una función de activación no polinómica pueden aproximarse a cualquier función". Redes neuronales . 6 (6): 861–867. doi :10.1016/S0893-6080(05)80131-5. S2CID  206089312.
  15. ^ abc Pinkus, Allan (enero de 1999). "Teoría de aproximación del modelo MLP en redes neuronales". Acta Numérica . 8 : 143-195. Código Bib : 1999AcNum...8..143P. doi :10.1017/S0962492900002919. S2CID  16800260.
  16. ^ Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (enero de 2022). "Tasa de aproximación óptima de redes ReLU en términos de ancho y profundidad". Revista de Mathématiques Pures et Appliquées . 157 : 101-135. arXiv : 2103.00502 . doi :10.1016/j.matpur.2021.07.009. S2CID  232075797.
  17. ^ ab Gripenberg, Gustaf (junio de 2003). "Aproximación mediante redes neuronales con un número acotado de nodos en cada nivel". Revista de teoría de la aproximación . 122 (2): 260–266. doi :10.1016/S0021-9045(03)00078-9.
  18. ^ Yarotsky, Dmitry (octubre de 2017). "Límites de error para aproximaciones con redes ReLU profundas". Redes neuronales . 94 : 103-114. arXiv : 1610.01145 . doi :10.1016/j.neunet.2017.07.002. PMID  28756334. S2CID  426133.
  19. ^ abcd Lu, Zhou; Pu, Hongming; Wang, Feicheng; Hu, Zhiqiang; Wang, Liwei (2017). "El poder expresivo de las redes neuronales: una vista desde el ancho". Avances en los sistemas de procesamiento de información neuronal . 30 . Asociados de Curran: 6231–6239. arXiv : 1709.02540 .
  20. ^ ab Hanin, Boris; Sellke, Mark (2018). "Aproximación de funciones continuas mediante redes ReLU de ancho mínimo". arXiv : 1710.11278 [estad.ML].
  21. ^ abcd Kidger, Patricio; Lyons, Terry (julio de 2020). Aproximación universal con redes estrechas y profundas . Jornada sobre Teoría del Aprendizaje. arXiv : 1905.08539 .
  22. ^ ab Kratsios, Anastasis; Papon, Léonie (2022). "Teoremas de aproximación universal para el aprendizaje profundo geométrico diferenciable". Revista de investigación sobre aprendizaje automático . 23 (196): 1–73. arXiv : 2101.05390 .
  23. ^ Tabuada, Paulo; Gharesifard, Bahman (2021). "Poder de aproximación universal de redes neuronales residuales profundas mediante la teoría de control no lineal" . Conferencia Internacional sobre Representaciones del Aprendizaje. arXiv : 2007.06007 .
  24. ^ Tabuada, Paulo; Gharesifard, Bahman (mayo de 2023). "Poder de aproximación universal de redes neuronales residuales profundas a través de la lente del control". Transacciones IEEE sobre control automático . 68 (5): 2715–2728. doi :10.1109/TAC.2022.3190051. S2CID  250512115.(Errata:  doi :10.1109/TAC.2024.3390099)
  25. ^ ab Cai, Yongqiang (1 de febrero de 2023). "Lograr el ancho mínimo de las redes neuronales para una aproximación universal". ICLR . arXiv : 2209.11395 .
  26. ^ abc Maiorov, Vitaly; Pinkus, Allan (abril de 1999). "Límites inferiores para la aproximación de redes neuronales MLP". Neurocomputación . 25 (1–3): 81–91. doi :10.1016/S0925-2312(98)00111-8.
  27. ^ abc Guliyev, Namig; Ismailov, Vugar (noviembre de 2018). "Capacidad de aproximación de dos redes neuronales feedforward de capa oculta con pesos fijos". Neurocomputación . 316 : 262–269. arXiv : 2101.09181 . doi : 10.1016/j.neucom.2018.07.075. S2CID  52285996.
  28. ^ ab Guliyev, Namig; Ismailov, Vugar (febrero de 2018). "Sobre la aproximación mediante redes neuronales feedforward de una sola capa oculta con pesos fijos". Redes neuronales . 98 : 296–304. arXiv : 1708.06219 . doi :10.1016/j.neunet.2017.12.007. PMID  29301110. S2CID  4932839.
  29. ^ Baader, Maximiliano; Mirman, Mateo; Vechev, Martín (2020). Aproximación Universal con Redes Certificadas. ICLR.
  30. ^ Gelenbe, Erol; Mao, Zhi Hong; Li, Yan D. (1999). "Aproximación de funciones con redes aleatorias con picos". Transacciones IEEE en redes neuronales . 10 (1): 3–9. doi : 10.1109/72.737488. PMID  18252498.
  31. ^ Lin, Hongzhou; Jegelka, Stefanie (2018). ResNet con capas ocultas de una neurona es un aproximador universal. Avances en los sistemas de procesamiento de información neuronal . vol. 30. Asociados Curran. págs. 6169–6178.
  32. ^ Ismailov, Vugar E. (julio de 2023). "Una red neuronal de tres capas puede representar cualquier función multivariada". Revista de Análisis y Aplicaciones Matemáticas . 523 (1): 127096. arXiv : 2012.03016 . doi :10.1016/j.jmaa.2023.127096. S2CID  265100963.
  33. ^ Funahashi, Ken-Ichi (enero de 1989). "Sobre la realización aproximada de mapeos continuos mediante redes neuronales". Redes neuronales . 2 (3): 183–192. doi :10.1016/0893-6080(89)90003-8.
  34. ^ ab Hornik, Kurt; Stinchcombe, Maxwell; White, Halbert (enero de 1989). "Las redes feedforward multicapa son aproximadores universales". Redes neuronales . 2 (5): 359–366. doi :10.1016/0893-6080(89)90020-8.
  35. ^ Haykin, Simón (1998). Redes neuronales: una base integral , volumen 2, Prentice Hall. ISBN 0-13-273350-1
  36. ^ Hassoun, M. (1995) Fundamentos de redes neuronales artificiales MIT Press, p. 48
  37. ^ Nielsen, Michael A. (2015). "Redes neuronales y aprendizaje profundo". {{cite journal}}: Citar diario requiere |journal=( ayuda )
  38. ^ Hanin, B. (2018). Aproximación de funciones continuas mediante redes ReLU de ancho mínimo. arXiv preimpresión arXiv:1710.11278.
  39. ^ Park, Yun, Lee, Shin, Sejun, Chulhee, Jaeho, Jinwoo (28 de septiembre de 2020). "Ancho mínimo para aproximación universal". ICLR . arXiv : 2006.08859 .{{cite journal}}: CS1 maint: multiple names: authors list (link)
  40. ^ Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (enero de 2022). "Tasa de aproximación óptima de redes ReLU en términos de ancho y profundidad". Revista de Mathématiques Pures et Appliquées . 157 : 101-135. arXiv : 2103.00502 . doi :10.1016/j.matpur.2021.07.009. S2CID  232075797.
  41. ^ Lu, Jianfeng; Shen, Zuowei; Yang, Haizhao; Zhang, Shijun (enero de 2021). "Aproximación de red profunda para funciones fluidas". Revista SIAM de Análisis Matemático . 53 (5): 5465–5506. arXiv : 2001.03040 . doi :10.1137/20M134695X. S2CID  210116459.
  42. ^ Juditsky, Anatoli B.; Lepski, Oleg V.; Tsybakov, Alexandre B. (1 de junio de 2009). "Estimación no paramétrica de funciones compuestas". Los anales de la estadística . 37 (3). doi : 10.1214/08-aos611 . ISSN  0090-5364. S2CID  2471890.
  43. ^ Poggio, Tomaso; Mhaskar, Hrushikesh; Rosasco, Lorenzo; Miranda, Brando; Liao, Qianli (14 de marzo de 2017). "Por qué y cuándo pueden las redes profundas, pero no superficiales, evitar la maldición de la dimensionalidad: una revisión". Revista Internacional de Automatización y Computación . 14 (5): 503–519. arXiv : 1611.00740 . doi : 10.1007/s11633-017-1054-2 . ISSN  1476-8186. S2CID  15562587.
  44. ^ Johnson, Jesse (2019). Las redes neuronales delgadas y profundas no son aproximadores universales. Conferencia Internacional sobre Representaciones del Aprendizaje.
  45. ^ Xu, Keyulu; Hu, Weihua; Leskovec, Jure; Jegelka, Stefanie (2019). ¿Qué tan poderosas son las redes neuronales gráficas? Conferencia Internacional sobre Representaciones del Aprendizaje .
  46. ^ Brüel-Gabrielsson, Rickard (2020). Aproximación de funciones universales en gráficos. Avances en los sistemas de procesamiento de información neuronal . vol. 33. Asociados Curran.