stringtranslate.com

Red neuronal (aprendizaje automático)

Una red neuronal artificial es un grupo de nodos interconectados, inspirado en una simplificación de las neuronas del cerebro . Aquí, cada nodo circular representa una neurona artificial y una flecha representa una conexión desde la salida de una neurona artificial hasta la entrada de otra.

En el aprendizaje automático , una red neuronal (también red neuronal artificial o red neuronal , abreviada ANN o NN ) es un modelo inspirado en la estructura y función de las redes neuronales biológicas en los cerebros animales . [1] [2]

Una ANN consta de unidades o nodos conectados llamados neuronas artificiales , que modelan vagamente las neuronas del cerebro. Estas están conectadas por bordes , que modelan las sinapsis del cerebro. Cada neurona artificial recibe señales de las neuronas conectadas, luego las procesa y envía una señal a otras neuronas conectadas. La "señal" es un número real , y la salida de cada neurona se calcula mediante una función no lineal de la suma de sus entradas, llamada función de activación . La fuerza de la señal en cada conexión está determinada por un peso , que se ajusta durante el proceso de aprendizaje.

Por lo general, las neuronas se agrupan en capas. Las diferentes capas pueden realizar diferentes transformaciones en sus entradas. Las señales viajan desde la primera capa (la capa de entrada ) hasta la última capa (la capa de salida ), posiblemente pasando por múltiples capas intermedias ( capas ocultas ). Una red se denomina típicamente red neuronal profunda si tiene al menos dos capas ocultas. [3]

Las redes neuronales artificiales se utilizan para diversas tareas, como el modelado predictivo , el control adaptativo y la resolución de problemas en el ámbito de la inteligencia artificial . Pueden aprender de la experiencia y extraer conclusiones de un conjunto de información complejo y aparentemente no relacionado.

Capacitación

Las redes neuronales se entrenan típicamente a través de la minimización de riesgos empíricos . Este método se basa en la idea de optimizar los parámetros de la red para minimizar la diferencia, o riesgo empírico, entre el resultado previsto y los valores objetivo reales en un conjunto de datos determinado. [4] Los métodos basados ​​en gradientes, como la retropropagación, se utilizan generalmente para estimar los parámetros de la red. [4] Durante la fase de entrenamiento, las ANN aprenden de los datos de entrenamiento etiquetados actualizando iterativamente sus parámetros para minimizar una función de pérdida definida . [5] Este método permite que la red se generalice a datos no vistos.

Historia

Trabajos tempranos

Históricamente, las computadoras digitales evolucionaron a partir del modelo de von Neumann y funcionan mediante la ejecución de instrucciones explícitas con acceso a la memoria por parte de varios procesadores. Las redes neuronales, por otro lado, se originaron a partir de los esfuerzos por modelar el procesamiento de información en sistemas biológicos a través del marco del conexionismo . A diferencia del modelo de von Neumann, la computación conexionista no separa la memoria del procesamiento.

Warren McCulloch y Walter Pitts [7] (1943) consideraron un modelo computacional sin aprendizaje para redes neuronales. [8] Este modelo allanó el camino para que la investigación se dividiera en dos enfoques. Un enfoque se centró en los procesos biológicos, mientras que el otro se centró en la aplicación de redes neuronales a la inteligencia artificial .

A finales de la década de 1940, DO Hebb [9] propuso una hipótesis de aprendizaje basada en el mecanismo de plasticidad neuronal que se conoció como aprendizaje hebbiano . Se utilizó en muchas redes neuronales tempranas, como la percepción de Rosenblatt y la red de Hopfield.

En 1958, el psicólogo Frank Rosenblatt describió el perceptrón como una de las primeras redes neuronales artificiales implementadas, [10] [11] [12] [13] financiada por la Oficina de Investigación Naval de los Estados Unidos . [14] RD Joseph (1960) [15] menciona un dispositivo similar al perceptrón incluso anterior de Farley y Clark: [16] "Farley y Clark del Laboratorio Lincoln del MIT en realidad precedieron a Rosenblatt en el desarrollo de un dispositivo similar al perceptrón". Sin embargo, "abandonaron el tema". Farley y Clark [ 17] (1954) también usaron máquinas computacionales para simular una red hebbiana. Otras máquinas computacionales de redes neuronales fueron creadas por Rochester , Holland, Habit y Duda (1956). [18] El perceptrón aumentó el entusiasmo público por la investigación en redes neuronales artificiales, lo que provocó que el gobierno de los EE. UU. aumentara drásticamente la financiación. Esto contribuyó a la "Edad de Oro de la IA", impulsada por las afirmaciones optimistas hechas por los científicos informáticos sobre la capacidad de los perceptrones para emular la inteligencia humana. [19]

Los primeros perceptrones no tenían unidades ocultas adaptativas. Sin embargo, Joseph (1960) [15] también analizó perceptrones multicapa con una capa oculta adaptativa. Rosenblatt (1962) [20] : sección 16  citó y adoptó estas ideas, y también reconoció el trabajo de HD Block y BW Knight. Desafortunadamente, estos primeros esfuerzos no condujeron a un algoritmo de aprendizaje funcional para unidades ocultas, es decir, aprendizaje profundo .

Avances en el aprendizaje profundo en los años 1960 y 1970

En los años 1960 y 1970 se llevaron a cabo investigaciones fundamentales sobre las ANN. El primer algoritmo de aprendizaje profundo funcional fue el método de grupo de manejo de datos , un método para entrenar redes neuronales arbitrariamente profundas, publicado por Alexey Ivakhnenko y Lapa en Ucrania (1965). Lo consideraron como una forma de regresión polinómica, [21] o una generalización del perceptrón de Rosenblatt. [22] Un artículo de 1971 describió una red profunda con ocho capas entrenadas por este método, [23] que se basa en el entrenamiento capa por capa a través del análisis de regresión. Las unidades ocultas superfluas se podan utilizando un conjunto de validación separado. Dado que las funciones de activación de los nodos son polinomios de Kolmogorov-Gabor, estas también fueron las primeras redes profundas con unidades multiplicativas o "puertas". [16]

El primer perceptrón multicapa de aprendizaje profundo entrenado por descenso de gradiente estocástico [24] fue publicado en 1967 por Shun'ichi Amari . [25] En experimentos informáticos realizados por el estudiante de Amari, Saito, un MLP de cinco capas con dos capas modificables aprendió representaciones internas para clasificar clases de patrones no linealmente separables. [16] Los desarrollos posteriores en hardware y ajustes de hiperparámetros han hecho que el descenso de gradiente estocástico de extremo a extremo sea la técnica de entrenamiento actualmente dominante.

En 1969, Kunihiko Fukushima introdujo la función de activación ReLU (unidad lineal rectificada) . [26] [27] [16] El rectificador se ha convertido en la función de activación más popular para el aprendizaje profundo. [28]

Sin embargo, la investigación se estancó en los Estados Unidos tras el trabajo de Minsky y Papert (1969), [29] quienes enfatizaron que los perceptrones básicos eran incapaces de procesar el circuito exclusivo-o. Esta idea era irrelevante para las redes profundas de Ivakhnenko (1965) y Amari (1967).

Las arquitecturas de aprendizaje profundo para redes neuronales convolucionales (CNN) con capas convolucionales y capas de submuestreo y replicación de peso comenzaron con el Neocognitron introducido por Kunihiko Fukushima en 1979, aunque no entrenado por retropropagación. [30] [31] [32]

Retropropagación

La retropropagación es una aplicación eficiente de la regla de la cadena derivada por Gottfried Wilhelm Leibniz en 1673 [33] a redes de nodos diferenciables. La terminología "errores de retropropagación" fue introducida en 1962 por Rosenblatt, [20] pero no sabía cómo implementarla, aunque Henry J. Kelley tuvo un precursor continuo de la retropropagación en 1960 en el contexto de la teoría de control . [34] La forma moderna de retropropagación se desarrolló varias veces a principios de la década de 1970. La primera instancia publicada fue la tesis de maestría de Seppo Linnainmaa (1970). [35] [36] Paul Werbos la desarrolló de forma independiente en 1971, [37] pero tuvo dificultades para publicarla hasta 1982. [38] En 1986, David E. Rumelhart et al. popularizaron la retropropagación. [39]

Redes neuronales convolucionales

La arquitectura de red neuronal convolucional (CNN) de Kunihiko Fukushima de 1979 [30] también introdujo el agrupamiento máximo , [40] un procedimiento de submuestreo popular para las CNN. Las CNN se han convertido en una herramienta esencial para la visión por computadora .

La red neuronal con retardo temporal (TDNN) fue introducida en 1987 por Alex Waibel para aplicar la CNN al reconocimiento de fonemas. Utilizaba convoluciones, reparto de peso y retropropagación. [41] [42] En 1988, Wei Zhang aplicó una CNN entrenada por retropropagación al reconocimiento de alfabetos. [43] En 1989, Yann LeCun et al. crearon una CNN llamada LeNet para reconocer códigos postales escritos a mano en el correo. El entrenamiento requería 3 días. [44] En 1990, Wei Zhang implementó una CNN en hardware de computación óptica . [45] En 1991, se aplicó una CNN a la segmentación de objetos de imágenes médicas [46] y a la detección de cáncer de mama en mamografías. [47] LeNet -5 (1998), una CNN de 7 niveles de Yann LeCun et al., que clasifica dígitos, fue aplicada por varios bancos para reconocer números escritos a mano en cheques digitalizados en imágenes de 32x32 píxeles. [48]

A partir de 1988, [49] [50] el uso de redes neuronales transformó el campo de la predicción de la estructura de proteínas , en particular cuando las primeras redes en cascada se entrenaron en perfiles (matrices) producidos por múltiples alineaciones de secuencias . [51]

Redes recurrentes

Un origen de las RNN fue la mecánica estadística . Shun'ichi Amari propuso en 1972 modificar los pesos de un modelo de Ising mediante la regla de aprendizaje de Hebb como un modelo de memoria asociativa, agregando el componente de aprendizaje. [52] Esto se popularizó como la red de Hopfield (1982). [53] Otro origen de las RNN fue la neurociencia. La palabra "recurrente" se utiliza para describir estructuras similares a bucles en anatomía. En 1901, Cajal observó "semicírculos recurrentes" en la corteza cerebelosa . [54] Hebb consideró el "circuito reverberante" como una explicación de la memoria a corto plazo. [55] El artículo de McCulloch y Pitts (1943) consideró las redes neuronales que contienen ciclos y señaló que la actividad actual de dichas redes puede verse afectada por la actividad indefinidamente lejana en el pasado. [56]

Dos de los primeros trabajos influyentes fueron la red de Jordan (1986) y la red de Elman (1990), que aplicaron RNN para estudiar la psicología cognitiva .

En la década de 1980, la retropropagación no funcionaba bien para las redes neuronales profundas. Para superar este problema, en 1991, Jürgen Schmidhuber propuso el "fragmentador de secuencias neuronales" o "compresor de historia neuronal" [57] [58] que introdujo los conceptos importantes de preentrenamiento autosupervisado (la "P" en ChatGPT ) y destilación de conocimiento neuronal . [16] En 1993, un sistema compresor de historia neuronal resolvió una tarea de "aprendizaje muy profundo" que requería más de 1000 capas subsiguientes en una red neuronal desplegada en el tiempo. [59]

En 1991, la tesis de diploma de Sepp Hochreiter [60] identificó y analizó el problema del gradiente evanescente [60] [61] y propuso conexiones residuales recurrentes para resolverlo. Él y Schmidhuber introdujeron la memoria de corto plazo larga (LSTM), que estableció récords de precisión en múltiples dominios de aplicación. [62] [63] Esta todavía no era la versión moderna de LSTM, que requería la puerta de olvido, que se introdujo en 1999. [64] Se convirtió en la opción predeterminada para la arquitectura RNN.

Durante 1985-1995, inspirados por la mecánica estadística, varias arquitecturas y métodos fueron desarrollados por Terry Sejnowski , Peter Dayan , Geoffrey Hinton , etc., incluyendo la máquina de Boltzmann , [65] la máquina de Boltzmann restringida , [66] la máquina de Helmholtz , [67] y el algoritmo de vigilia-sueño . [68] Estos fueron diseñados para el aprendizaje no supervisado de modelos generativos profundos.

Aprendizaje profundo

Entre 2009 y 2012, las ANN comenzaron a ganar premios en concursos de reconocimiento de imágenes, acercándose al desempeño a nivel humano en varias tareas, inicialmente en reconocimiento de patrones y reconocimiento de escritura a mano . [69] [70] En 2011, una CNN llamada DanNet [71] [72] por Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella y Jürgen Schmidhuber logró por primera vez un desempeño sobrehumano en un concurso de reconocimiento de patrones visuales, superando los métodos tradicionales por un factor de 3. [32] Luego ganó más concursos. [73] [74] También mostraron cómo la agrupación máxima de CNN en la GPU mejoró el rendimiento significativamente. [75]

En octubre de 2012, AlexNet de Alex Krizhevsky , Ilya Sutskever y Geoffrey Hinton [76] ganó la competencia a gran escala de ImageNet por un margen significativo frente a los métodos de aprendizaje automático superficial. Otras mejoras incrementales incluyeron la red VGG-16 de Karen Simonyan y Andrew Zisserman [77] y la Inceptionv3 de Google . [78]

En 2012, Ng y Dean crearon una red que aprendió a reconocer conceptos de nivel superior, como gatos, solo al observar imágenes sin etiquetas. [79] El preentrenamiento no supervisado y el mayor poder computacional de las GPU y la computación distribuida permitieron el uso de redes más grandes, particularmente en problemas de reconocimiento visual y de imágenes, lo que se conoció como "aprendizaje profundo". [5]

En 2013 se introdujeron las funciones de base radial y las redes wavelet. Se ha demostrado que ofrecen las mejores propiedades de aproximación y se han aplicado en aplicaciones de clasificación e identificación de sistemas no lineales . [80]

La red generativa antagónica (GAN) ( Ian Goodfellow et al., 2014) [81] se convirtió en el estado del arte en modelado generativo durante el período 2014-2018. El principio GAN fue publicado originalmente en 1991 por Jürgen Schmidhuber, quien lo llamó "curiosidad artificial": dos redes neuronales compiten entre sí en forma de un juego de suma cero , donde la ganancia de una red es la pérdida de la otra. [82] [83] La primera red es un modelo generativo que modela una distribución de probabilidad sobre patrones de salida. La segunda red aprende por descenso de gradiente para predecir las reacciones del entorno a estos patrones. La excelente calidad de imagen se logra con StyleGAN (2018) de Nvidia [84] basado en el GAN ​​progresivo de Tero Karras et al. [85] Aquí el generador GAN crece de pequeña a gran escala de manera piramidal. La generación de imágenes por GAN alcanzó un éxito popular y provocó discusiones sobre deepfakes . [86] Los modelos de difusión (2015) [87] eclipsaron a las GAN en el modelado generativo desde entonces, con sistemas como DALL·E 2 (2022) y Stable Diffusion (2022).

En 2014, el estado del arte era entrenar una “red neuronal muy profunda” con 20 a 30 capas. [88] Apilar demasiadas capas condujo a una reducción pronunciada en la precisión del entrenamiento , [89] conocido como el problema de “degradación”. [90] En 2015, se desarrollaron dos técnicas para entrenar redes muy profundas: la red de autopistas se publicó en mayo de 2015 [91] y la red neuronal residual (ResNet) en diciembre de 2015. [92] [93] ResNet se comporta como una red de autopistas de compuerta abierta.

Durante el período de la década de 2010, se desarrolló el modelo seq2seq y se agregaron mecanismos de atención. Condujo a la arquitectura moderna Transformer en 2017 en Attention Is All You Need . [94] Requiere un tiempo de cálculo que es cuadrático en el tamaño de la ventana de contexto. El controlador de peso rápido de Jürgen Schmidhuber (1992) [95] escala linealmente y luego se demostró que era equivalente al Transformer lineal no normalizado. [96] [97] [16] Los Transformers se han convertido cada vez más en el modelo de elección para el procesamiento del lenguaje natural . [98] Muchos modelos de lenguaje grandes modernos como ChatGPT , GPT-4 y BERT utilizan esta arquitectura.

Modelos

Neurona y axón mielinizado, con flujo de señales desde las entradas en las dendritas hasta las salidas en las terminales del axón.

Las ANN comenzaron como un intento de explotar la arquitectura del cerebro humano para realizar tareas con las que los algoritmos convencionales tenían poco éxito. Pronto se reorientaron hacia la mejora de los resultados empíricos, abandonando los intentos de permanecer fieles a sus precursores biológicos. Las ANN tienen la capacidad de aprender y modelar no linealidades y relaciones complejas. Esto se logra mediante la conexión de neuronas en varios patrones, lo que permite que la salida de algunas neuronas se convierta en la entrada de otras. La red forma un gráfico dirigido y ponderado . [99]

Una red neuronal artificial consta de neuronas simuladas. Cada neurona está conectada a otros nodos a través de enlaces , como una conexión biológica axón-sinapsis-dendrita. Todos los nodos conectados por enlaces toman algunos datos y los utilizan para realizar operaciones y tareas específicas con los datos. Cada enlace tiene un peso, que determina la fuerza de la influencia de un nodo sobre otro, [100] lo que permite que los pesos elijan la señal entre neuronas.

Neuronas artificiales

Las ANN están compuestas de neuronas artificiales que conceptualmente se derivan de neuronas biológicas . Cada neurona artificial tiene entradas y produce una única salida que puede enviarse a múltiples otras neuronas. [101] Las entradas pueden ser los valores característicos de una muestra de datos externos, como imágenes o documentos, o pueden ser las salidas de otras neuronas. Las salidas de las neuronas de salida finales de la red neuronal realizan la tarea, como reconocer un objeto en una imagen.

Para encontrar la salida de la neurona tomamos la suma ponderada de todas las entradas, ponderada por los pesos de las conexiones de las entradas a la neurona. A esta suma le añadimos un término de sesgo . [102] Esta suma ponderada a veces se denomina activación . Esta suma ponderada se pasa luego a través de una función de activación (normalmente no lineal) para producir la salida. Las entradas iniciales son datos externos, como imágenes y documentos. Las salidas finales realizan la tarea, como reconocer un objeto en una imagen. [103]

Organización

Las neuronas se organizan típicamente en múltiples capas, especialmente en el aprendizaje profundo . Las neuronas de una capa se conectan solo a las neuronas de las capas inmediatamente anteriores e inmediatamente posteriores. La capa que recibe datos externos es la capa de entrada . La capa que produce el resultado final es la capa de salida . Entre ellas hay cero o más capas ocultas . También se utilizan redes de una sola capa y sin capas. Entre dos capas, son posibles múltiples patrones de conexión. Pueden estar "completamente conectados", con cada neurona en una capa conectándose a cada neurona en la siguiente capa. Pueden ser agrupadas , donde un grupo de neuronas en una capa se conecta a una sola neurona en la siguiente capa, reduciendo así el número de neuronas en esa capa. [104] Las neuronas con solo tales conexiones forman un gráfico acíclico dirigido y se conocen como redes de avance . [105] Alternativamente, las redes que permiten conexiones entre neuronas en la misma capa o capas anteriores se conocen como redes recurrentes . [106]

Hiperparámetro

Un hiperparámetro es un parámetro constante cuyo valor se establece antes de que comience el proceso de aprendizaje. Los valores de los parámetros se derivan mediante el aprendizaje. Algunos ejemplos de hiperparámetros son la tasa de aprendizaje , la cantidad de capas ocultas y el tamaño del lote. [ cita requerida ] Los valores de algunos hiperparámetros pueden depender de los de otros hiperparámetros. Por ejemplo, el tamaño de algunas capas puede depender de la cantidad total de capas.

Aprendiendo

El aprendizaje es la adaptación de la red para manejar mejor una tarea considerando observaciones de muestra. El aprendizaje implica ajustar los pesos (y los umbrales opcionales) de la red para mejorar la precisión del resultado. Esto se hace minimizando los errores observados. El aprendizaje es completo cuando examinar observaciones adicionales no reduce de manera útil la tasa de error. Incluso después del aprendizaje, la tasa de error normalmente no llega a 0. Si después del aprendizaje, la tasa de error es demasiado alta, la red normalmente debe rediseñarse. En la práctica, esto se hace definiendo una función de costo que se evalúa periódicamente durante el aprendizaje. Mientras su salida continúe disminuyendo, el aprendizaje continúa. El costo se define con frecuencia como una estadística cuyo valor solo se puede aproximar. Las salidas son en realidad números, por lo que cuando el error es bajo, la diferencia entre la salida (casi con certeza un gato) y la respuesta correcta (cat) es pequeña. El aprendizaje intenta reducir el total de las diferencias entre las observaciones. La mayoría de los modelos de aprendizaje pueden verse como una aplicación directa de la teoría de optimización y la estimación estadística . [99] [107]

Tasa de aprendizaje

La tasa de aprendizaje define el tamaño de los pasos correctivos que el modelo toma para ajustar los errores en cada observación. [108] Una alta tasa de aprendizaje acorta el tiempo de entrenamiento, pero con una precisión final menor, mientras que una tasa de aprendizaje menor toma más tiempo, pero con el potencial de una mayor precisión. Las optimizaciones como Quickprop están dirigidas principalmente a acelerar la minimización de errores, mientras que otras mejoras intentan principalmente aumentar la confiabilidad. Para evitar la oscilación dentro de la red, como los pesos de conexión alternados, y para mejorar la tasa de convergencia, los refinamientos utilizan una tasa de aprendizaje adaptativa que aumenta o disminuye según sea apropiado. [109] El concepto de momento permite ponderar el equilibrio entre el gradiente y el cambio anterior de modo que el ajuste del peso dependa en algún grado del cambio anterior. Un momento cercano a 0 enfatiza el gradiente, mientras que un valor cercano a 1 enfatiza el último cambio.

Función de costo

Si bien es posible definir una función de costo ad hoc , con frecuencia la elección está determinada por las propiedades deseables de la función (como la convexidad ) o porque surge del modelo (por ejemplo, en un modelo probabilístico, la probabilidad posterior del modelo se puede utilizar como un costo inverso).

Retropropagación

La retropropagación es un método utilizado para ajustar los pesos de conexión para compensar cada error encontrado durante el aprendizaje. La cantidad de error se divide efectivamente entre las conexiones. Técnicamente, la retropropagación calcula el gradiente (la derivada) de la función de costo asociada con un estado dado con respecto a los pesos. Las actualizaciones de peso se pueden realizar mediante descenso de gradiente estocástico u otros métodos, como máquinas de aprendizaje extremo , [110] redes "sin prop", [111] entrenamiento sin retroceso, [112] redes "sin peso", [113] [114] y redes neuronales no conexionistas . [ cita requerida ]

Paradigmas de aprendizaje

El aprendizaje automático se divide comúnmente en tres paradigmas de aprendizaje principales: aprendizaje supervisado , [115] aprendizaje no supervisado [116] y aprendizaje de refuerzo . [117] Cada uno corresponde a una tarea de aprendizaje particular.

Aprendizaje supervisado

El aprendizaje supervisado utiliza un conjunto de entradas pareadas y salidas deseadas. La tarea de aprendizaje es producir la salida deseada para cada entrada. En este caso, la función de costo está relacionada con la eliminación de deducciones incorrectas. [118] Un costo comúnmente utilizado es el error cuadrático medio , que intenta minimizar el error cuadrático medio entre la salida de la red y la salida deseada. Las tareas adecuadas para el aprendizaje supervisado son el reconocimiento de patrones (también conocido como clasificación) y la regresión (también conocida como aproximación de funciones). El aprendizaje supervisado también es aplicable a datos secuenciales (por ejemplo, para reconocimiento de escritura a mano, habla y gestos ). Esto puede considerarse como aprendizaje con un "maestro", en forma de una función que proporciona retroalimentación continua sobre la calidad de las soluciones obtenidas hasta el momento.

Aprendizaje no supervisado

En el aprendizaje no supervisado , los datos de entrada se proporcionan junto con la función de costo, alguna función de los datos y la salida de la red. La función de costo depende de la tarea (el dominio del modelo) y de cualquier suposición a priori (las propiedades implícitas del modelo, sus parámetros y las variables observadas). Como ejemplo trivial, considere el modelo donde es una constante y el costo . Minimizar este costo produce un valor de que es igual a la media de los datos. La función de costo puede ser mucho más complicada. Su forma depende de la aplicación: por ejemplo, en la compresión podría estar relacionada con la información mutua entre y , mientras que en el modelado estadístico, podría estar relacionada con la probabilidad posterior del modelo dados los datos (nótese que en ambos ejemplos, esas cantidades se maximizarían en lugar de minimizarse). Las tareas que caen dentro del paradigma del aprendizaje no supervisado son, en general, problemas de estimación ; las aplicaciones incluyen la agrupación en clústeres , la estimación de distribuciones estadísticas , la compresión y el filtrado .

Aprendizaje por refuerzo

En aplicaciones como los videojuegos, un actor realiza una serie de acciones, recibiendo una respuesta generalmente impredecible del entorno después de cada una. El objetivo es ganar el juego, es decir, generar las respuestas más positivas (de menor coste). En el aprendizaje por refuerzo , el objetivo es ponderar la red (idear una política) para realizar acciones que minimicen el coste a largo plazo (acumulativo esperado). En cada punto del tiempo, el agente realiza una acción y el entorno genera una observación y un coste instantáneo , de acuerdo con algunas reglas (normalmente desconocidas). Las reglas y el coste a largo plazo normalmente solo se pueden estimar. En cualquier coyuntura, el agente decide si explorar nuevas acciones para descubrir sus costes o explotar el aprendizaje previo para proceder más rápidamente.

Formalmente, el entorno se modela como un proceso de decisión de Markov (MDP) con estados y acciones . Como no se conocen las transiciones de estado, se utilizan en su lugar distribuciones de probabilidad: la distribución de costo instantáneo , la distribución de observación y la distribución de transición , mientras que una política se define como la distribución condicional sobre acciones dadas las observaciones. En conjunto, las dos definen una cadena de Markov (CM). El objetivo es descubrir la CM de menor costo.

Las ANN sirven como componente de aprendizaje en tales aplicaciones. [119] [120] La programación dinámica acoplada con ANN (dando programación neurodinámica ) [121] se ha aplicado a problemas tales como los relacionados con el enrutamiento de vehículos , [122] videojuegos, gestión de recursos naturales [123] [124] y medicina [125] debido a la capacidad de las ANN de mitigar pérdidas de precisión incluso cuando se reduce la densidad de la cuadrícula de discretización para aproximar numéricamente la solución de problemas de control. Las tareas que caen dentro del paradigma del aprendizaje de refuerzo son problemas de control, juegos y otras tareas de toma de decisiones secuenciales.

Autoaprendizaje

El autoaprendizaje en redes neuronales se introdujo en 1982 junto con una red neuronal capaz de autoaprender llamada matriz adaptativa de barras cruzadas (CAA). [126] Es un sistema con una sola entrada, la situación s, y una sola salida, la acción (o comportamiento) a. No tiene ni entrada de consejo externo ni entrada de refuerzo externo del entorno. El CAA calcula, en forma de barras cruzadas, tanto las decisiones sobre acciones como las emociones (sentimientos) sobre las situaciones encontradas. El sistema está impulsado por la interacción entre la cognición y la emoción. [127] Dada la matriz de memoria, W =||w(a,s)||, el algoritmo de autoaprendizaje de barras cruzadas en cada iteración realiza el siguiente cálculo:

 En la situación s realizar la acción a; Recibir situaciones de consecuencia; Calcular la emoción de estar en la situación de consecuencia v(s'); Actualizar la memoria de la barra transversal w'(a,s) = w(a,s) + v(s').

El valor retropropagado (reforzamiento secundario) es la emoción hacia la situación de consecuencia. El CAA existe en dos entornos, uno es el entorno conductual donde se comporta, y el otro es el entorno genético, de donde inicialmente y sólo una vez recibe emociones iniciales acerca de las situaciones que se van a encontrar en el entorno conductual. Habiendo recibido el vector genómico (vector de especie) del entorno genético, el CAA aprenderá una conducta de búsqueda de objetivos, en el entorno conductual que contiene situaciones tanto deseables como indeseables. [128]

Neuroevolución

La neuroevolución puede crear topologías y ponderaciones de redes neuronales mediante el uso de cálculos evolutivos . Es competitiva con los sofisticados enfoques de descenso de gradientes. [129] [130] Una ventaja de la neuroevolución es que puede ser menos propensa a quedar atrapada en "callejones sin salida". [131]

Red neuronal estocástica

Las redes neuronales estocásticas que se originan a partir de los modelos de Sherrington-Kirkpatrick son un tipo de red neuronal artificial construida mediante la introducción de variaciones aleatorias en la red, ya sea dándole a las neuronas artificiales de la red funciones de transferencia estocásticas [ cita requerida ] o dándoles pesos estocásticos. Esto las convierte en herramientas útiles para problemas de optimización , ya que las fluctuaciones aleatorias ayudan a la red a escapar de los mínimos locales . [132] Las redes neuronales estocásticas entrenadas utilizando un enfoque bayesiano se conocen como redes neuronales bayesianas . [133]

Otro

En un marco bayesiano , se elige una distribución sobre el conjunto de modelos permitidos para minimizar el costo. Los métodos evolutivos , [134] la programación de la expresión genética , [135] el recocido simulado , [136] la expectativa-maximización , los métodos no paramétricos y la optimización de enjambre de partículas [137] son ​​otros algoritmos de aprendizaje. La recursión convergente es un algoritmo de aprendizaje para redes neuronales del controlador de articulación del modelo cerebeloso (CMAC). [138] [139]

Modos

Existen dos modos de aprendizaje: estocástico y por lotes. En el aprendizaje estocástico, cada entrada crea un ajuste de peso. En el aprendizaje por lotes, los pesos se ajustan en función de un lote de entradas, acumulando errores a lo largo del lote. El aprendizaje estocástico introduce "ruido" en el proceso, utilizando el gradiente local calculado a partir de un punto de datos; esto reduce la posibilidad de que la red se quede atascada en mínimos locales. Sin embargo, el aprendizaje por lotes generalmente produce un descenso más rápido y más estable a un mínimo local, ya que cada actualización se realiza en la dirección del error promedio del lote. Un compromiso común es utilizar "minilotes", lotes pequeños con muestras en cada lote seleccionadas estocásticamente de todo el conjunto de datos.

Tipos

Las ANN han evolucionado hasta convertirse en una amplia familia de técnicas que han hecho avanzar el estado del arte en múltiples dominios. Los tipos más simples tienen uno o más componentes estáticos, que incluyen número de unidades, número de capas, pesos de unidad y topología . Los tipos dinámicos permiten que uno o más de estos evolucionen mediante el aprendizaje. Este último es mucho más complicado, pero puede acortar los períodos de aprendizaje y producir mejores resultados. Algunos tipos permiten/requieren que el aprendizaje sea "supervisado" por el operador, mientras que otros funcionan de forma independiente. Algunos tipos funcionan puramente en hardware, mientras que otros son puramente software y se ejecutan en computadoras de propósito general.

Algunos de los principales avances incluyen:

Diseño de red

El uso de redes neuronales artificiales requiere una comprensión de sus características.

La búsqueda de arquitectura neuronal (NAS) utiliza el aprendizaje automático para automatizar el diseño de ANN. Varios enfoques de NAS han diseñado redes que se comparan bien con los sistemas diseñados a mano. El algoritmo de búsqueda básico es proponer un modelo candidato, evaluarlo contra un conjunto de datos y usar los resultados como retroalimentación para enseñarle a la red NAS. [151] Los sistemas disponibles incluyen AutoML y AutoKeras. [152] La biblioteca scikit-learn proporciona funciones para ayudar con la construcción de una red profunda desde cero. Luego podemos implementar una red profunda con TensorFlow o Keras .

Los hiperparámetros también deben definirse como parte del diseño (no se aprenden) y rigen cuestiones como cuántas neuronas hay en cada capa, tasa de aprendizaje, paso, zancada, profundidad, campo receptivo y relleno (para CNN), etc. [153]

El fragmento de código de Python proporciona una descripción general de la función de entrenamiento, que utiliza el conjunto de datos de entrenamiento, la cantidad de unidades de capa oculta, la tasa de aprendizaje y la cantidad de iteraciones como parámetros:
def  tren ( X ,  y ,  n_oculto ,  tasa_de_aprendizaje ,  n_iter ): m ,  n_entrada  =  X . forma # 1. inicialización aleatoria de pesos y sesgos w1  =  np . random . randn ( n_entrada ,  n_oculto ) b1  =  np . ceros (( 1 ,  n_oculto )) w2  =  np . aleatorio . randn ( n_oculto ,  1 ) b2  =  np . ceros (( 1 ,  1 )) # 2. En cada iteración, alimente todas las capas con los últimos pesos y sesgos. para  i  en  el rango ( n_iter  +  1 ): z2  =  np . punto ( X ,  w1 )  +  b1 a2  =  sigmoide ( z2 ) z3  =  np . punto ( a2 ,  w2 )  +  b2 a3  =  z3 dz3  =  a3  -  y dw2  =  np . punto ( a2 . T ,  dz3 ) db2  =  np . suma ( dz3 ,  eje = 0 ,  keepdims = True ) dz2  =  np . punto ( dz3 ,  w2 . T )  *  derivada_sigmoidea ( z2 ) dw1  =  np . punto ( X . T ,  dz2 ) db1  =  np . suma ( dz2 ,  eje = 0 ) # 3. Actualizar pesos y sesgos con gradientes w1  -=  tasa de aprendizaje  *  dw1  /  m w2  -=  tasa de aprendizaje  *  dw2  /  m b1  -=  tasa de aprendizaje  *  db1  /  m b2  -=  tasa_de_aprendizaje  *  db2  /  m si  i  %  1000  ==  0 : imprimir ( "Época" ,  i ,  " pérdida: " , np.media  ( np.cuadrado ( dz3 ) ) ) modelo  =  { "w1" :  w1 ,  "b1" :  b1 ,  "w2" :  w2 ,  "b2" :  b2 }  modelo de retorno

[ cita requerida ]

Aplicaciones

Debido a su capacidad para reproducir y modelar procesos no lineales, las redes neuronales artificiales han encontrado aplicaciones en muchas disciplinas, entre ellas:

Las ANN se han utilizado para diagnosticar varios tipos de cáncer [170] [171] y para distinguir líneas celulares de cáncer altamente invasivas de líneas menos invasivas utilizando solo información sobre la forma de la célula. [172] [173]

Las ANN se han utilizado para acelerar el análisis de confiabilidad de infraestructuras sujetas a desastres naturales [174] [175] y para predecir asentamientos de cimientos. [176] También puede ser útil para mitigar inundaciones mediante el uso de ANN para modelar lluvia-escorrentía. [177] Las ANN también se han utilizado para construir modelos de caja negra en geociencia : hidrología , [178] [179] modelado oceánico e ingeniería costera , [180] [181] y geomorfología . [182] Las ANN se han empleado en ciberseguridad , con el objetivo de discriminar entre actividades legítimas y maliciosas. Por ejemplo, el aprendizaje automático se ha utilizado para clasificar malware de Android, [183] ​​para identificar dominios que pertenecen a actores de amenazas y para detectar URL que representan un riesgo de seguridad. [184] Se están realizando investigaciones sobre sistemas ANN diseñados para pruebas de penetración, para detectar botnets, [185] fraudes con tarjetas de crédito [186] e intrusiones en la red.

Las ANN se han propuesto como una herramienta para resolver ecuaciones diferenciales parciales en física [187] [188] [189] y simular las propiedades de sistemas cuánticos abiertos de muchos cuerpos . [190] [191] [192] [193] En la investigación del cerebro, las ANN han estudiado el comportamiento a corto plazo de neuronas individuales , [194] la dinámica de los circuitos neuronales surge de las interacciones entre neuronas individuales y cómo el comportamiento puede surgir de módulos neuronales abstractos que representan subsistemas completos. Los estudios consideraron la plasticidad a largo y corto plazo de los sistemas neuronales y su relación con el aprendizaje y la memoria desde la neurona individual hasta el nivel del sistema.

Es posible crear un perfil de los intereses de un usuario a partir de imágenes, utilizando redes neuronales artificiales entrenadas para el reconocimiento de objetos. [195]

Más allá de sus aplicaciones tradicionales, las redes neuronales artificiales se utilizan cada vez más en la investigación interdisciplinaria, como la ciencia de los materiales. Por ejemplo, las redes neuronales de grafos (GNN) han demostrado su capacidad para escalar el aprendizaje profundo para el descubrimiento de nuevos materiales estables al predecir de manera eficiente la energía total de los cristales. Esta aplicación subraya la adaptabilidad y el potencial de las ANN para abordar problemas complejos más allá de los ámbitos del modelado predictivo y la inteligencia artificial, abriendo nuevos caminos para el descubrimiento científico y la innovación. [196]

Propiedades teóricas

Poder computacional

El perceptrón multicapa es un aproximador de funciones universal , como lo demuestra el teorema de aproximación universal . Sin embargo, la prueba no es constructiva en lo que respecta al número de neuronas necesarias, la topología de la red, los pesos y los parámetros de aprendizaje.

Una arquitectura recurrente específica con pesos de valores racionales (en oposición a pesos de valores de números reales de precisión total ) tiene el poder de una máquina de Turing universal , [197] utilizando un número finito de neuronas y conexiones lineales estándar. Además, el uso de valores irracionales para los pesos da como resultado una máquina con un poder super-Turing . [198] [199] [ verificación fallida ]

Capacidad

La propiedad de "capacidad" de un modelo corresponde a su capacidad para modelar cualquier función dada. Está relacionada con la cantidad de información que se puede almacenar en la red y con la noción de complejidad. La comunidad conoce dos nociones de capacidad: la capacidad de información y la dimensión VC. La capacidad de información de un perceptrón se analiza en profundidad en el libro de Sir David MacKay [200], que resume el trabajo de Thomas Cover. [201] La capacidad de una red de neuronas estándar (no convolucional) se puede derivar de cuatro reglas [202] que se derivan de entender una neurona como un elemento eléctrico. La capacidad de información captura las funciones modelables por la red dados los datos de entrada. La segunda noción es la dimensión VC . La dimensión VC utiliza los principios de la teoría de la medida y encuentra la capacidad máxima en las mejores circunstancias posibles. Esto es, dados los datos de entrada en una forma específica. Como se señala en [200] , la dimensión VC para entradas arbitrarias es la mitad de la capacidad de información de un perceptrón. La dimensión VC para puntos arbitrarios a veces se denomina capacidad de memoria. [203]

Convergencia

Es posible que los modelos no converjan de manera consistente en una única solución, en primer lugar porque pueden existir mínimos locales, dependiendo de la función de costo y del modelo. En segundo lugar, el método de optimización utilizado podría no garantizar la convergencia cuando comienza lejos de cualquier mínimo local. En tercer lugar, para datos o parámetros suficientemente grandes, algunos métodos se vuelven imprácticos.

Otra cuestión que vale la pena mencionar es que el entrenamiento puede cruzar algún punto de silla , lo que puede llevar la convergencia a la dirección equivocada.

El comportamiento de convergencia de ciertos tipos de arquitecturas de ANN se entiende mejor que otros. Cuando el ancho de la red se acerca al infinito, la ANN está bien descrita por su expansión de Taylor de primer orden a lo largo del entrenamiento, y por lo tanto hereda el comportamiento de convergencia de los modelos afines . [204] [205] Otro ejemplo es cuando los parámetros son pequeños, se observa que las ANN a menudo ajustan funciones objetivo de frecuencias bajas a altas. Este comportamiento se conoce como el sesgo espectral, o principio de frecuencia, de las redes neuronales. [206] [207] [208] [209] Este fenómeno es opuesto al comportamiento de algunos esquemas numéricos iterativos bien estudiados como el método de Jacobi . Se ha observado que las redes neuronales más profundas están más sesgadas hacia funciones de baja frecuencia. [210]

Generalización y estadística

Las aplicaciones cuyo objetivo es crear un sistema que se generalice bien a ejemplos no vistos se enfrentan a la posibilidad de un sobreentrenamiento. Esto surge en sistemas complejos o sobreespecificados cuando la capacidad de la red excede significativamente los parámetros libres necesarios. Hay dos enfoques que abordan el sobreentrenamiento. El primero es utilizar la validación cruzada y técnicas similares para verificar la presencia de sobreentrenamiento y seleccionar hiperparámetros para minimizar el error de generalización.

La segunda es utilizar alguna forma de regularización . Este concepto surge en un marco probabilístico (bayesiano), donde la regularización se puede realizar seleccionando una probabilidad previa mayor sobre modelos más simples; pero también en la teoría del aprendizaje estadístico, donde el objetivo es minimizar más de dos cantidades: el "riesgo empírico" y el "riesgo estructural", que corresponde aproximadamente al error sobre el conjunto de entrenamiento y el error previsto en datos no vistos debido al sobreajuste.

Análisis de confianza de una red neuronal

Las redes neuronales supervisadas que utilizan una función de costo de error cuadrático medio (MSE) pueden utilizar métodos estadísticos formales para determinar la confianza del modelo entrenado. El MSE en un conjunto de validación se puede utilizar como una estimación de la varianza. Este valor se puede utilizar para calcular el intervalo de confianza de la salida de la red, suponiendo una distribución normal . Un análisis de confianza realizado de esta manera es estadísticamente válido siempre que la distribución de probabilidad de salida permanezca igual y la red no se modifique.

Al asignar una función de activación softmax , una generalización de la función logística , en la capa de salida de la red neuronal (o un componente softmax en una red basada en componentes) para las variables objetivo categóricas, las salidas se pueden interpretar como probabilidades posteriores. Esto es útil en la clasificación, ya que proporciona una medida de certeza sobre las clasificaciones.

La función de activación softmax es:


Crítica

Capacitación

Una crítica común a las redes neuronales, particularmente en robótica, es que requieren demasiadas muestras de entrenamiento para operar en el mundo real. [211] Cualquier máquina de aprendizaje necesita suficientes ejemplos representativos para capturar la estructura subyacente que le permite generalizar a nuevos casos. Las posibles soluciones incluyen mezclar aleatoriamente los ejemplos de entrenamiento, mediante el uso de un algoritmo de optimización numérica que no da pasos demasiado grandes al cambiar las conexiones de red después de un ejemplo, agrupar los ejemplos en los llamados minilotes y/o introducir un algoritmo de mínimos cuadrados recursivo para CMAC . [138] Dean Pomerleau usa una red neuronal para entrenar un vehículo robótico para conducir en múltiples tipos de caminos (de un solo carril, de varios carriles, de tierra, etc.), y una gran parte de su investigación está dedicada a extrapolar múltiples escenarios de entrenamiento a partir de una única experiencia de entrenamiento, y preservar la diversidad de entrenamientos anteriores para que el sistema no se sobreentrene (si, por ejemplo, se le presenta una serie de giros a la derecha, no debería aprender a girar siempre a la derecha). [212]

Teoría

Una afirmación central [ cita requerida ] de las ANN es que incorporan principios generales nuevos y poderosos para procesar información. Estos principios están mal definidos. A menudo se afirma [ ¿ por quién? ] que surgen de la propia red. Esto permite que la asociación estadística simple (la función básica de las redes neuronales artificiales) se describa como aprendizaje o reconocimiento. En 1997, Alexander Dewdney , un ex columnista de Scientific American , comentó que, como resultado, las redes neuronales artificiales tienen una "cualidad de algo por nada, que imparte un aura peculiar de pereza y una clara falta de curiosidad sobre lo buenos que son estos sistemas informáticos. No interviene ninguna mano (o mente) humana; las soluciones se encuentran como por arte de magia; y nadie, al parecer, ha aprendido nada". [213] Una respuesta a Dewdney es que las redes neuronales se han utilizado con éxito para manejar muchas tareas complejas y diversas, que van desde volar aviones de forma autónoma [214] hasta detectar fraudes con tarjetas de crédito o dominar el juego de Go .

El escritor de tecnología Roger Bridgman comentó:

Las redes neuronales, por ejemplo, están en el banquillo no sólo porque han sido promocionadas hasta el cielo (¿qué no?), sino también porque se podría crear una red exitosa sin entender cómo funciona: el conjunto de números que captura su comportamiento sería con toda probabilidad "una tabla opaca, ilegible... sin valor como recurso científico".

A pesar de su enfática declaración de que la ciencia no es tecnología, Dewdney parece aquí poner en la picota las redes neuronales como mala ciencia, cuando la mayoría de quienes las idean sólo intentan ser buenos ingenieros. Una tabla ilegible que una máquina útil pudiera leer seguiría siendo digna de tener. [215]

Si bien es cierto que analizar lo aprendido por una red neuronal artificial es difícil, es mucho más fácil hacerlo que analizar lo aprendido por una red neuronal biológica. Además, el énfasis reciente en la explicabilidad de la IA ha contribuido al desarrollo de métodos, en particular los basados ​​en mecanismos de atención , para visualizar y explicar las redes neuronales aprendidas. Además, los investigadores involucrados en la exploración de algoritmos de aprendizaje para redes neuronales están descubriendo gradualmente principios genéricos que permiten que una máquina de aprendizaje tenga éxito. Por ejemplo, Bengio y LeCun (2007) escribieron un artículo sobre el aprendizaje local frente al no local, así como sobre la arquitectura superficial frente a la profunda. [216]

Los cerebros biológicos utilizan circuitos superficiales y profundos, como lo indica la anatomía cerebral [217] , que muestra una amplia variedad de invariancia. Weng [218] sostuvo que el cerebro se autoconecta en gran medida de acuerdo con las estadísticas de señales y, por lo tanto, una cascada serial no puede captar todas las dependencias estadísticas principales.

Hardware

Las redes neuronales grandes y eficaces requieren considerables recursos informáticos. [219] Si bien el cerebro tiene hardware adaptado a la tarea de procesar señales a través de un grafo de neuronas, simular incluso una neurona simplificada en la arquitectura de von Neumann puede consumir enormes cantidades de memoria y almacenamiento. Además, el diseñador a menudo necesita transmitir señales a través de muchas de estas conexiones y sus neuronas asociadas, lo que requiere una enorme potencia de CPU y tiempo.

Algunos sostienen que el resurgimiento de las redes neuronales en el siglo XXI se debe en gran medida a los avances en hardware: de 1991 a 2015, la potencia informática, especialmente la proporcionada por las GPGPU (en las GPU ), ha aumentado alrededor de un millón de veces, lo que hace que el algoritmo de retropropagación estándar sea factible para entrenar redes que son varias capas más profundas que antes. [32] El uso de aceleradores como FPGAs y GPU puede reducir los tiempos de entrenamiento de meses a días. [219] [220]

La ingeniería neuromórfica o red neuronal física aborda la dificultad del hardware directamente, mediante la construcción de chips que no son de von Neumann para implementar directamente redes neuronales en circuitos. Otro tipo de chip optimizado para el procesamiento de redes neuronales se denomina unidad de procesamiento tensorial o TPU. [221]

Contraejemplos prácticos

Analizar lo que ha aprendido una ANN es mucho más fácil que analizar lo que ha aprendido una red neuronal biológica. Además, los investigadores que se dedican a explorar algoritmos de aprendizaje para redes neuronales están descubriendo gradualmente principios generales que permiten que una máquina de aprendizaje tenga éxito. Por ejemplo, aprendizaje local vs. no local y arquitectura superficial vs. profunda. [222]

Enfoques híbridos

Los defensores de los modelos híbridos (que combinan redes neuronales y enfoques simbólicos) dicen que esa mezcla puede capturar mejor los mecanismos de la mente humana. [223] [224]

Sesgo del conjunto de datos

Las redes neuronales dependen de la calidad de los datos con los que se entrenan, por lo que los datos de baja calidad con representatividad desequilibrada pueden llevar al modelo a aprender y perpetuar sesgos sociales. [225] [226] Estos sesgos heredados se vuelven especialmente críticos cuando las ANN se integran en escenarios del mundo real donde los datos de entrenamiento pueden estar desequilibrados debido a la escasez de datos para una raza, género u otro atributo específico. [225] Este desequilibrio puede resultar en que el modelo tenga una representación y comprensión inadecuadas de los grupos subrepresentados, lo que lleva a resultados discriminatorios que exasperan las desigualdades sociales, especialmente en aplicaciones como el reconocimiento facial , los procesos de contratación y la aplicación de la ley . [226] [227] Por ejemplo, en 2018, Amazon tuvo que descartar una herramienta de reclutamiento porque el modelo favorecía a los hombres sobre las mujeres para trabajos en ingeniería de software debido al mayor número de trabajadores masculinos en el campo. [227] El programa penalizaría cualquier currículum con la palabra "mujer" o el nombre de cualquier universidad de mujeres. Sin embargo, el uso de datos sintéticos puede ayudar a reducir el sesgo del conjunto de datos y aumentar la representación en los conjuntos de datos. [228]

Galería

Avances recientes y direcciones futuras

Las redes neuronales artificiales (RNA) han experimentado avances significativos, en particular en su capacidad para modelar sistemas complejos, manejar grandes conjuntos de datos y adaptarse a diversos tipos de aplicaciones. Su evolución en las últimas décadas ha estado marcada por una amplia gama de aplicaciones en campos como el procesamiento de imágenes, el reconocimiento de voz, el procesamiento del lenguaje natural, las finanzas y la medicina.

Procesamiento de imágenes

En el ámbito del procesamiento de imágenes, las ANN se emplean en tareas como la clasificación de imágenes, el reconocimiento de objetos y la segmentación de imágenes. Por ejemplo, las redes neuronales convolucionales profundas (CNN) han sido importantes en el reconocimiento de dígitos escritos a mano, logrando un rendimiento de vanguardia. [229] Esto demuestra la capacidad de las ANN para procesar e interpretar de manera efectiva información visual compleja, lo que conduce a avances en campos que van desde la vigilancia automatizada hasta la imagenología médica. [229]

Reconocimiento de voz

Al modelar las señales de voz, las ANN se utilizan para tareas como la identificación del hablante y la conversión de voz a texto. Las arquitecturas de redes neuronales profundas han introducido mejoras significativas en el reconocimiento continuo de voz de vocabulario amplio, superando a las técnicas tradicionales. [229] [230] Estos avances han permitido el desarrollo de sistemas activados por voz más precisos y eficientes, mejorando las interfaces de usuario en productos tecnológicos.

Procesamiento del lenguaje natural

En el procesamiento del lenguaje natural, las ANN se utilizan para tareas como la clasificación de texto, el análisis de sentimientos y la traducción automática. Han permitido el desarrollo de modelos que pueden traducir con precisión entre idiomas, comprender el contexto y el sentimiento en datos textuales y categorizar el texto en función del contenido. [229] [230] Esto tiene implicaciones para el servicio de atención al cliente automatizado, la moderación de contenido y las tecnologías de comprensión del lenguaje.

Sistemas de control

En el campo de los sistemas de control, las redes neuronales artificiales se utilizan para modelar sistemas dinámicos para tareas como la identificación de sistemas, el diseño de control y la optimización. Por ejemplo, las redes neuronales de propagación hacia adelante profundas son importantes en las aplicaciones de identificación y control de sistemas.

Finanzas

Las ANN se utilizan para la predicción del mercado de valores y la calificación crediticia :

Las ANN requieren datos de alta calidad y un ajuste cuidadoso, y su naturaleza de "caja negra" puede plantear desafíos en la interpretación. Sin embargo, los avances en curso sugieren que las ANN siguen desempeñando un papel en las finanzas, ofreciendo información valiosa y mejorando las estrategias de gestión de riesgos .

Medicamento

Las ANN pueden procesar y analizar grandes conjuntos de datos médicos. Mejoran la precisión diagnóstica, especialmente al interpretar imágenes médicas complejas para la detección temprana de enfermedades y al predecir los resultados del paciente para la planificación personalizada del tratamiento. [230] En el descubrimiento de fármacos, las ANN aceleran la identificación de posibles candidatos a fármacos y predicen su eficacia y seguridad, lo que reduce significativamente el tiempo y los costos de desarrollo. [229] Además, su aplicación en la medicina personalizada y el análisis de datos de atención médica permite terapias a medida y una gestión eficiente de la atención al paciente. [230] La investigación en curso tiene como objetivo abordar los desafíos restantes, como la privacidad de los datos y la interpretabilidad de los modelos, así como ampliar el alcance de las aplicaciones de las ANN en medicina.

Creación de contenido

Las ANN como las redes generativas antagónicas ( GAN ) y los transformadores se utilizan para la creación de contenido en numerosas industrias. [231] Esto se debe a que los modelos de aprendizaje profundo pueden aprender el estilo de un artista o músico a partir de enormes conjuntos de datos y generar obras de arte y composiciones musicales completamente nuevas. Por ejemplo, DALL-E es una red neuronal profunda entrenada en 650 millones de pares de imágenes y textos en Internet que puede crear obras de arte basadas en el texto ingresado por el usuario. [232] En el campo de la música, los transformadores se utilizan para crear música original para comerciales y documentales a través de empresas como AIVA y Jukedeck . [233] En la industria del marketing, los modelos generativos se utilizan para crear anuncios personalizados para los consumidores. [231] Además, las principales compañías cinematográficas se están asociando con empresas de tecnología para analizar el éxito financiero de una película, como la asociación entre Warner Bros y la empresa de tecnología Cinelytic establecida en 2020. [234] Además, las redes neuronales han encontrado usos en la creación de videojuegos, donde los personajes no jugadores (NPC) pueden tomar decisiones basadas en todos los personajes que están actualmente en el juego. [235]

Véase también

Enlaces externos

Escuche este artículo ( 31 minutos )
Icono de Wikipedia hablado
Este archivo de audio se creó a partir de una revisión de este artículo con fecha del 27 de noviembre de 2011 y no refleja ediciones posteriores. (2011-11-27)

Notas

Referencias

  1. ^ Hardesty L (14 de abril de 2017). «Explicación: redes neuronales». Oficina de noticias del MIT. Archivado desde el original el 18 de marzo de 2024. Consultado el 2 de junio de 2022 .
  2. ^ Yang Z, Yang Z (2014). Física biomédica integral. Instituto Karolinska, Estocolmo, Suecia: Elsevier. p. 1. ISBN 978-0-444-53633-4Archivado desde el original el 28 de julio de 2022 . Consultado el 28 de julio de 2022 .
  3. ^ Bishop CM (17 de agosto de 2006). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0-387-31073-2.
  4. ^ ab Vapnik VN, Vapnik VN (1998). La naturaleza de la teoría del aprendizaje estadístico (2.ª edición corregida). Nueva York, Berlín, Heidelberg: Springer. ISBN 978-0-387-94559-0.
  5. ^ ab Ian Goodfellow y Yoshua Bengio y Aaron Courville (2016). Deep Learning. MIT Press. Archivado desde el original el 16 de abril de 2016 . Consultado el 1 de junio de 2016 .
  6. ^ Ferrie, C., Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 978-1-4926-7120-6.
  7. ^ McCulloch W, Walter Pitts (1943). "Un cálculo lógico de ideas inmanentes en la actividad nerviosa". Boletín de biofísica matemática . 5 (4): 115–133. doi :10.1007/BF02478259.
  8. ^ Kleene S (1956). "Representation of Events in Nerve Nets and Finite Automata". Annals of Mathematics Studies. No. 34. Princeton University Press. pp. 3–41. Retrieved 17 June 2017.
  9. ^ Hebb D (1949). The Organization of Behavior. New York: Wiley. ISBN 978-1-135-63190-1.
  10. ^ Haykin (2008) Neural Networks and Learning Machines, 3rd edition
  11. ^ Rosenblatt F (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization in the Brain". Psychological Review. 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029. S2CID 12781225.
  12. ^ Werbos P (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.
  13. ^ Rosenblatt F (1957). "The Perceptron—a perceiving and recognizing automaton". Report 85-460-1. Cornell Aeronautical Laboratory.
  14. ^ Olazaran M (1996). "A Sociological Study of the Official History of the Perceptrons Controversy". Social Studies of Science. 26 (3): 611–659. doi:10.1177/030631296026003005. JSTOR 285702. S2CID 16786738.
  15. ^ a b Joseph RD (1960). Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo.
  16. ^ a b c d e f Schmidhuber J (2022). "Annotated History of Modern AI and Deep Learning". arXiv:2212.11279 [cs.NE].
  17. ^ Farley B, W.A. Clark (1954). "Simulation of Self-Organizing Systems by Digital Computer". IRE Transactions on Information Theory. 4 (4): 76–84. doi:10.1109/TIT.1954.1057468.
  18. ^ Rochester N, J.H. Holland, L.H. Habit, W.L. Duda (1956). "Tests on a cell assembly theory of the action of the brain, using a large digital computer". IRE Transactions on Information Theory. 2 (3): 80–93. doi:10.1109/TIT.1956.1056810.
  19. ^ Russel, Stuart, Norvig, Peter (2010). Artificial Intelligence A Modern Approach (PDF) (3rd ed.). United States of America: Pearson Education. pp. 16–28. ISBN 978-0-13-604259-4.
  20. ^ a b Rosenblatt F (1962). Principles of Neurodynamics. Spartan, New York.
  21. ^ Ivakhnenko AG, Lapa VG (1967). Cybernetics and Forecasting Techniques. American Elsevier Publishing Co. ISBN 978-0-444-00020-0.
  22. ^ Ivakhnenko A (March 1970). "Heuristic self-organization in problems of engineering cybernetics". Automatica. 6 (2): 207–219. doi:10.1016/0005-1098(70)90092-0.
  23. ^ Ivakhnenko A (1971). "Polynomial theory of complex systems" (PDF). IEEE Transactions on Systems, Man, and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. Archived (PDF) from the original on 29 August 2017. Retrieved 5 November 2019.
  24. ^ Robbins H, Monro S (1951). "A Stochastic Approximation Method". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
  25. ^ Amari S (1967). "A theory of adaptive pattern classifier". IEEE Transactions. EC (16): 279–307.
  26. ^ Fukushima K (1969). "Visual feature extraction by a multilayered network of analog threshold elements". IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322–333. doi:10.1109/TSSC.1969.300225.
  27. ^ Sonoda S, Murata N (2017). "Neural network with unbounded activation functions is universal approximator". Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005. S2CID 12149203.
  28. ^ Ramachandran P, Barret Z, Quoc VL (16 October 2017). "Searching for Activation Functions". arXiv:1710.05941 [cs.NE].
  29. ^ Minsky M, Papert S (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 978-0-262-63022-1.
  30. ^ a b Fukushima K (1979). "Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron". Trans. IECE (In Japanese). J62-A (10): 658–665. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
  31. ^ Fukushima K (1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biol. Cybern. 36 (4): 193–202. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
  32. ^ a b c Schmidhuber J (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
  33. ^ Leibniz GW (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir). Open court publishing Company. ISBN 9780598818461.
  34. ^ Kelley HJ (1960). "Gradient theory of optimal flight paths". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
  35. ^ Linnainmaa S (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (in Finnish). University of Helsinki. p. 6–7.
  36. ^ Linnainmaa S (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
  37. ^ Anderson JA, Rosenfeld E, eds. (2000). Talking Nets: An Oral History of Neural Networks. The MIT Press. doi:10.7551/mitpress/6626.003.0016. ISBN 978-0-262-26715-1.
  38. ^ Werbos P (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
  39. ^ Rumelhart DE, Hinton GE, Williams RJ (October 1986). "Learning representations by back-propagating errors". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. ISSN 1476-4687.
  40. ^ Fukushima K, Miyake S (1 January 1982). "Neocognitron: A new algorithm for pattern recognition tolerant of deformations and shifts in position". Pattern Recognition. 15 (6): 455–469. doi:10.1016/0031-3203(82)90024-3. ISSN 0031-3203.
  41. ^ Waibel A (December 1987). Phoneme Recognition Using Time-Delay Neural Networks (PDF). Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan.
  42. ^ Alexander Waibel et al., Phoneme Recognition Using Time-Delay Neural Networks IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 March 1989.
  43. ^ Zhang W (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics.
  44. ^ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989.
  45. ^ Zhang W (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID 20577468.
  46. ^ Zhang W (1991). "Image processing of human corneal endothelium based on a learning network". Applied Optics. 30 (29): 4211–7. Bibcode:1991ApOpt..30.4211Z. doi:10.1364/AO.30.004211. PMID 20706526.
  47. ^ Zhang W (1994). "Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network". Medical Physics. 21 (4): 517–24. Bibcode:1994MedPh..21..517Z. doi:10.1118/1.597177. PMID 8058017.
  48. ^ LeCun Y, Léon Bottou, Yoshua Bengio, Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. S2CID 14542261. Retrieved 7 October 2016.
  49. ^ Qian, Ning, and Terrence J. Sejnowski. "Predicting the secondary structure of globular proteins using neural network models." Journal of molecular biology 202, no. 4 (1988): 865-884.
  50. ^ Bohr, Henrik, Jakob Bohr, Søren Brunak, Rodney MJ Cotterill, Benny Lautrup, Leif Nørskov, Ole H. Olsen, and Steffen B. Petersen. "Protein secondary structure and homology by neural networks The α-helices in rhodopsin." FEBS letters 241, (1988): 223-228
  51. ^ Rost, Burkhard, and Chris Sander. "Prediction of protein secondary structure at better than 70% accuracy." Journal of molecular biology 232, no. 2 (1993): 584-599.
  52. ^ Amari SI (November 1972). "Learning Patterns and Pattern Sequences by Self-Organizing Nets of Threshold Elements". IEEE Transactions on Computers. C-21 (11): 1197–1206. doi:10.1109/T-C.1972.223477. ISSN 0018-9340.
  53. ^ Hopfield JJ (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences. 79 (8): 2554–2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. PMC 346238. PMID 6953413.
  54. ^ Espinosa-Sanchez JM, Gomez-Marin A, de Castro F (5 July 2023). "The Importance of Cajal's and Lorente de Nó's Neuroscience to the Birth of Cybernetics". The Neuroscientist. doi:10.1177/10738584231179932. hdl:10261/348372. ISSN 1073-8584. PMID 37403768.
  55. ^ "reverberating circuit". Oxford Reference. Retrieved 27 July 2024.
  56. ^ McCulloch WS, Pitts W (December 1943). "A logical calculus of the ideas immanent in nervous activity". The Bulletin of Mathematical Biophysics. 5 (4): 115–133. doi:10.1007/BF02478259. ISSN 0007-4985.
  57. ^ Schmidhuber J (April 1991). "Neural Sequence Chunkers" (PDF). TR FKI-148, TU Munich.
  58. ^ Schmidhuber J (1992). "Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)" (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
  59. ^ Schmidhuber J (1993). Habilitation thesis: System modeling and optimization (PDF). Page 150 ff demonstrates credit assignment across the equivalent of 1,200 layers in an unfolded RNN.
  60. ^ a b S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen Archived 2015-03-06 at the Wayback Machine," Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
  61. ^ Hochreiter S, et al. (15 January 2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". In Kolen JF, Kremer SC (eds.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5. Archived from the original on 19 May 2024. Retrieved 26 June 2017.
  62. ^ Sepp Hochreiter, Jürgen Schmidhuber (21 August 1995), Long Short Term Memory, Wikidata Q98967430
  63. ^ Hochreiter S, Schmidhuber J (1 November 1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. PMID 9377276. S2CID 1915014.
  64. ^ Gers F, Schmidhuber J, Cummins F (1999). "Learning to forget: Continual prediction with LSTM". 9th International Conference on Artificial Neural Networks: ICANN '99. Vol. 1999. pp. 850–855. doi:10.1049/cp:19991218. ISBN 0-85296-721-7.
  65. ^ Ackley DH, Hinton GE, Sejnowski TJ (1 January 1985). "A learning algorithm for boltzmann machines". Cognitive Science. 9 (1): 147–169. doi:10.1016/S0364-0213(85)80012-4 (inactive 7 August 2024). ISSN 0364-0213.{{cite journal}}: CS1 maint: DOI inactive as of August 2024 (link)
  66. ^ Smolensky P (1986). "Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory" (PDF). In Rumelhart DE, McLelland JL (eds.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations. MIT Press. pp. 194–281. ISBN 0-262-68053-X.
  67. ^ Peter D, Hinton GE, Neal RM, Zemel RS (1995). "The Helmholtz machine". Neural Computation. 7 (5): 889–904. doi:10.1162/neco.1995.7.5.889. hdl:21.11116/0000-0002-D6D3-E. PMID 7584891. S2CID 1890561. Closed access icon
  68. ^ Hinton GE, Dayan P, Frey BJ, Neal R (26 May 1995). "The wake-sleep algorithm for unsupervised neural networks". Science. 268 (5214): 1158–1161. Bibcode:1995Sci...268.1158H. doi:10.1126/science.7761831. PMID 7761831. S2CID 871473.
  69. ^ 2012 Kurzweil AI Interview Archived 31 August 2018 at the Wayback Machine with Juergen Schmidhuber on the eight competitions won by his Deep Learning team 2009–2012
  70. ^ "How bio-inspired deep learning keeps winning competitions | KurzweilAI". www.kurzweilai.net. Archived from the original on 31 August 2018. Retrieved 16 June 2017.
  71. ^ Cireşan DC, Meier U, Gambardella LM, Schmidhuber J (21 September 2010). "Deep, Big, Simple Neural Nets for Handwritten Digit Recognition". Neural Computation. 22 (12): 3207–3220. arXiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
  72. ^ Ciresan DC, Meier U, Masci J, Gambardella L, Schmidhuber J (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. Archived (PDF) from the original on 29 September 2014. Retrieved 13 June 2017.
  73. ^ Ciresan D, Giusti A, Gambardella LM, Schmidhuber J (2012). Pereira F, Burges CJ, Bottou L, Weinberger KQ (eds.). Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. pp. 2843–2851. Archived (PDF) from the original on 9 August 2017. Retrieved 13 June 2017.
  74. ^ Ciresan D, Giusti A, Gambardella L, Schmidhuber J (2013). "Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks". Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Lecture Notes in Computer Science. Vol. 7908. pp. 411–418. doi:10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID 24579167.
  75. ^ Ciresan D, Meier U, Schmidhuber J (2012). "Multi-column deep neural networks for image classification". 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3642–3649. arXiv:1202.2745. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
  76. ^ Krizhevsky A, Sutskever I, Hinton G (2012). "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. Archived (PDF) from the original on 10 January 2017. Retrieved 24 May 2017.
  77. ^ Simonyan K, Andrew Z (2014). "Very Deep Convolution Networks for Large Scale Image Recognition". arXiv:1409.1556 [cs.CV].
  78. ^ Szegedy C (2015). "Going deeper with convolutions" (PDF). Cvpr2015.
  79. ^ Ng A, Dean J (2012). "Building High-level Features Using Large Scale Unsupervised Learning". arXiv:1112.6209 [cs.LG].
  80. ^ a b Billings SA (2013). Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains. Wiley. ISBN 978-1-119-94359-4.
  81. ^ a b Goodfellow I, Pouget-Abadie J, Mirza M, Xu B, Warde-Farley D, Ozair S, et al. (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). pp. 2672–2680. Archived (PDF) from the original on 22 November 2019. Retrieved 20 August 2019.
  82. ^ Schmidhuber J (1991). "A possibility for implementing curiosity and boredom in model-building neural controllers". Proc. SAB'1991. MIT Press/Bradford Books. pp. 222–227.
  83. ^ Schmidhuber J (2020). "Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)". Neural Networks. 127: 58–66. arXiv:1906.04493. doi:10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
  84. ^ "GAN 2.0: NVIDIA's Hyperrealistic Face Generator". SyncedReview.com. 14 December 2018. Retrieved 3 October 2019.
  85. ^ Karras T, Aila T, Laine S, Lehtinen J (26 February 2018). "Progressive Growing of GANs for Improved Quality, Stability, and Variation". arXiv:1710.10196 [cs.NE].
  86. ^ "Prepare, Don't Panic: Synthetic Media and Deepfakes". witness.org. Archived from the original on 2 December 2020. Retrieved 25 November 2020.
  87. ^ Sohl-Dickstein J, Weiss E, Maheswaranathan N, Ganguli S (1 June 2015). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning. 37. PMLR: 2256–2265.
  88. ^ Simonyan K, Zisserman A (10 April 2015), Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556
  89. ^ He K, Zhang X, Ren S, Sun J (2016). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV].
  90. ^ He K, Zhang X, Ren S, Sun J (10 December 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385.
  91. ^ Srivastava RK, Greff K, Schmidhuber J (2 May 2015). "Highway Networks". arXiv:1505.00387 [cs.LG].
  92. ^ He K, Zhang X, Ren S, Sun J (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  93. ^ Linn A (10 December 2015). "Microsoft researchers win ImageNet computer vision challenge". The AI Blog. Retrieved 29 June 2024.
  94. ^ Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, et al. (12 June 2017). "Attention Is All You Need". arXiv:1706.03762 [cs.CL].
  95. ^ Schmidhuber J (1992). "Learning to control fast-weight memories: an alternative to recurrent nets" (PDF). Neural Computation. 4 (1): 131–139. doi:10.1162/neco.1992.4.1.131. S2CID 16683347.
  96. ^ Katharopoulos A, Vyas A, Pappas N, Fleuret F (2020). "Transformers are RNNs: Fast autoregressive Transformers with linear attention". ICML 2020. PMLR. pp. 5156–5165.
  97. ^ Schlag I, Irie K, Schmidhuber J (2021). "Linear Transformers Are Secretly Fast Weight Programmers". ICML 2021. Springer. pp. 9355–9366.
  98. ^ Wolf T, Debut L, Sanh V, Chaumond J, Delangue C, Moi A, et al. (2020). "Transformers: State-of-the-Art Natural Language Processing". Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations. pp. 38–45. doi:10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
  99. ^ a b Zell A (2003). "chapter 5.2". Simulation neuronaler Netze [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987.
  100. ^ Artificial intelligence (3rd ed.). Addison-Wesley Pub. Co. 1992. ISBN 0-201-53377-4.
  101. ^ Abbod MF (2007). "Application of Artificial Intelligence to the Management of Urological Cancer". The Journal of Urology. 178 (4): 1150–1156. doi:10.1016/j.juro.2007.05.122. PMID 17698099.
  102. ^ Dawson CW (1998). "An artificial neural network approach to rainfall-runoff modelling". Hydrological Sciences Journal. 43 (1): 47–66. Bibcode:1998HydSJ..43...47D. doi:10.1080/02626669809492102.
  103. ^ "The Machine Learning Dictionary". www.cse.unsw.edu.au. Archived from the original on 26 August 2018. Retrieved 4 November 2009.
  104. ^ Ciresan D, Ueli Meier, Jonathan Masci, Luca M. Gambardella, Jurgen Schmidhuber (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). Proceedings of the Twenty-Second International Joint Conference on Artificial Intelligence-Volume Volume Two. 2: 1237–1242. Archived (PDF) from the original on 5 April 2022. Retrieved 7 July 2022.
  105. ^ Zell A (1994). Simulation Neuronaler Netze [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. p. 73. ISBN 3-89319-554-8.
  106. ^ Miljanovic M (February–March 2012). "Comparative analysis of Recurrent and Finite Impulse Response Neural Networks in Time Series Prediction" (PDF). Indian Journal of Computer and Engineering. 3 (1). Archived (PDF) from the original on 19 May 2024. Retrieved 21 August 2019.
  107. ^ Kelleher JD, Mac Namee B, D'Arcy A (2020). "7-8". Fundamentals of machine learning for predictive data analytics: algorithms, worked examples, and case studies (2nd ed.). Cambridge, MA: The MIT Press. ISBN 978-0-262-36110-1. OCLC 1162184998.
  108. ^ Wei J (26 April 2019). "Forget the Learning Rate, Decay Loss". arXiv:1905.00094 [cs.LG].
  109. ^ Li Y, Fu Y, Li H, Zhang SW (1 June 2009). "The Improved Training Algorithm of Back Propagation Neural Network with Self-adaptive Learning Rate". 2009 International Conference on Computational Intelligence and Natural Computing. Vol. 1. pp. 73–76. doi:10.1109/CINC.2009.111. ISBN 978-0-7695-3645-3. S2CID 10557754.
  110. ^ Huang GB, Zhu QY, Siew CK (2006). "Extreme learning machine: theory and applications". Neurocomputing. 70 (1): 489–501. CiteSeerX 10.1.1.217.3692. doi:10.1016/j.neucom.2005.12.126. S2CID 116858.
  111. ^ Widrow B, et al. (2013). "The no-prop algorithm: A new learning algorithm for multilayer neural networks". Neural Networks. 37: 182–188. doi:10.1016/j.neunet.2012.09.020. PMID 23140797.
  112. ^ Ollivier Y, Charpiat G (2015). "Training recurrent networks without backtracking". arXiv:1507.07680 [cs.NE].
  113. ^ Hinton GE (2010). "A Practical Guide to Training Restricted Boltzmann Machines". Tech. Rep. UTML TR 2010-003. Archived from the original on 9 May 2021. Retrieved 27 June 2017.
  114. ^ ESANN. 2009.[full citation needed]
  115. ^ Bernard E (2021). Introduction to machine learning. Champaign: Wolfram Media. p. 9. ISBN 978-1-57955-048-6. Archived from the original on 19 May 2024. Retrieved 22 March 2023.
  116. ^ Bernard E (2021). Introduction to machine learning. Champaign: Wolfram Media. p. 12. ISBN 978-1-57955-048-6. Archived from the original on 19 May 2024. Retrieved 22 March 2023.
  117. ^ Bernard E (2021). Introduction to Machine Learning. Wolfram Media Inc. p. 9. ISBN 978-1-57955-048-6. Archived from the original on 19 May 2024. Retrieved 28 July 2022.
  118. ^ Ojha VK, Abraham A, Snášel V (1 April 2017). "Metaheuristic design of feedforward neural networks: A review of two decades of research". Engineering Applications of Artificial Intelligence. 60: 97–116. arXiv:1705.05584. Bibcode:2017arXiv170505584O. doi:10.1016/j.engappai.2017.01.013. S2CID 27910748.
  119. ^ Dominic, S., Das, R., Whitley, D., Anderson, C. (July 1991). "Genetic reinforcement learning for neural networks". IJCNN-91-Seattle International Joint Conference on Neural Networks. IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, US: IEEE. pp. 71–76. doi:10.1109/IJCNN.1991.155315. ISBN 0-7803-0164-1.
  120. ^ Hoskins J, Himmelblau, D.M. (1992). "Process control via artificial neural networks and reinforcement learning". Computers & Chemical Engineering. 16 (4): 241–251. doi:10.1016/0098-1354(92)80045-B.
  121. ^ Bertsekas D, Tsitsiklis J (1996). Neuro-dynamic programming. Athena Scientific. p. 512. ISBN 978-1-886529-10-6. Archived from the original on 29 June 2017. Retrieved 17 June 2017.
  122. ^ Secomandi N (2000). "Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands". Computers & Operations Research. 27 (11–12): 1201–1225. CiteSeerX 10.1.1.392.4034. doi:10.1016/S0305-0548(99)00146-X.
  123. ^ de Rigo, D., Rizzoli, A. E., Soncini-Sessa, R., Weber, E., Zenesi, P. (2001). "Neuro-dynamic programming for the efficient management of reservoir networks". Proceedings of MODSIM 2001, International Congress on Modelling and Simulation. MODSIM 2001, International Congress on Modelling and Simulation. Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand. doi:10.5281/zenodo.7481. ISBN 0-86740-525-2. Archived from the original on 7 August 2013. Retrieved 29 July 2013.
  124. ^ Damas, M., Salmeron, M., Diaz, A., Ortega, J., Prieto, A., Olivares, G. (2000). "Genetic algorithms and neuro-dynamic programming: application to water supply networks". Proceedings of 2000 Congress on Evolutionary Computation. 2000 Congress on Evolutionary Computation. Vol. 1. La Jolla, California, US: IEEE. pp. 7–14. doi:10.1109/CEC.2000.870269. ISBN 0-7803-6375-2.
  125. ^ Deng G, Ferris, M.C. (2008). "Neuro-dynamic programming for fractionated radiotherapy planning". Optimization in Medicine. Springer Optimization and Its Applications. Vol. 12. pp. 47–70. CiteSeerX 10.1.1.137.8288. doi:10.1007/978-0-387-73299-2_3. ISBN 978-0-387-73298-5.
  126. ^ Bozinovski, S. (1982). "A self-learning system using secondary reinforcement". In R. Trappl (ed.) Cybernetics and Systems Research: Proceedings of the Sixth European Meeting on Cybernetics and Systems Research. North Holland. pp. 397–402. ISBN 978-0-444-86488-8.
  127. ^ Bozinovski, S. (2014) "Modeling mechanisms of cognition-emotion interaction in artificial neural networks, since 1981 Archived 23 March 2019 at the Wayback Machine." Procedia Computer Science p. 255-263
  128. ^ Bozinovski S, Bozinovska L (2001). "Self-learning agents: A connectionist theory of emotion based on crossbar value judgment". Cybernetics and Systems. 32 (6): 637–667. doi:10.1080/01969720118145. S2CID 8944741.
  129. ^ Salimans T, Ho J, Chen X, Sidor S, Sutskever I (7 September 2017). "Evolution Strategies as a Scalable Alternative to Reinforcement Learning". arXiv:1703.03864 [stat.ML].
  130. ^ Such FP, Madhavan V, Conti E, Lehman J, Stanley KO, Clune J (20 April 2018). "Deep Neuroevolution: Genetic Algorithms Are a Competitive Alternative for Training Deep Neural Networks for Reinforcement Learning". arXiv:1712.06567 [cs.NE].
  131. ^ "Artificial intelligence can 'evolve' to solve problems". Science | AAAS. 10 January 2018. Archived from the original on 9 December 2021. Retrieved 7 February 2018.
  132. ^ Turchetti C (2004), Stochastic Models of Neural Networks, Frontiers in artificial intelligence and applications: Knowledge-based intelligent engineering systems, vol. 102, IOS Press, ISBN 978-1-58603-388-0
  133. ^ Jospin LV, Laga H, Boussaid F, Buntine W, Bennamoun M (2022). "Hands-On Bayesian Neural Networks—A Tutorial for Deep Learning Users". IEEE Computational Intelligence Magazine. Vol. 17, no. 2. pp. 29–48. arXiv:2007.06823. doi:10.1109/mci.2022.3155327. ISSN 1556-603X. S2CID 220514248.
  134. ^ de Rigo, D., Castelletti, A., Rizzoli, A. E., Soncini-Sessa, R., Weber, E. (January 2005). "A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management". In Pavel Zítek (ed.). Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine. 16th IFAC World Congress. Vol. 16. Prague, Czech Republic: IFAC. pp. 7–12. doi:10.3182/20050703-6-CZ-1902.02172. hdl:11311/255236. ISBN 978-3-902661-75-3. Archived from the original on 26 April 2012. Retrieved 30 December 2011.
  135. ^ Ferreira C (2006). "Designing Neural Networks Using Gene Expression Programming". In A. Abraham, B. de Baets, M. Köppen, B. Nickolay (eds.). Applied Soft Computing Technologies: The Challenge of Complexity (PDF). Springer-Verlag. pp. 517–536. Archived (PDF) from the original on 19 December 2013. Retrieved 8 October 2012.
  136. ^ Da, Y., Xiurun, G. (July 2005). "An improved PSO-based ANN with simulated annealing technique". In T. Villmann (ed.). New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks. Vol. 63. Elsevier. pp. 527–533. doi:10.1016/j.neucom.2004.07.002. Archived from the original on 25 April 2012. Retrieved 30 December 2011.
  137. ^ Wu, J., Chen, E. (May 2009). "A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network". In Wang, H., Shen, Y., Huang, T., Zeng, Z. (eds.). 6th International Symposium on Neural Networks, ISNN 2009. Lecture Notes in Computer Science. Vol. 5553. Springer. pp. 49–58. doi:10.1007/978-3-642-01513-7_6. ISBN 978-3-642-01215-0. Archived from the original on 31 December 2014. Retrieved 1 January 2012.
  138. ^ a b Ting Qin, Zonghai Chen, Haitao Zhang, Sifu Li, Wei Xiang, Ming Li (2004). "A learning algorithm of CMAC based on RLS" (PDF). Neural Processing Letters. 19 (1): 49–61. doi:10.1023/B:NEPL.0000016847.18175.60. S2CID 6233899. Archived (PDF) from the original on 14 April 2021. Retrieved 30 January 2019.
  139. ^ Ting Qin, Haitao Zhang, Zonghai Chen, Wei Xiang (2005). "Continuous CMAC-QRLS and its systolic array" (PDF). Neural Processing Letters. 22 (1): 1–16. doi:10.1007/s11063-004-2694-0. S2CID 16095286. Archived (PDF) from the original on 18 November 2018. Retrieved 30 January 2019.
  140. ^ LeCun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W, et al. (1989). "Backpropagation Applied to Handwritten Zip Code Recognition". Neural Computation. 1 (4): 541–551. doi:10.1162/neco.1989.1.4.541. S2CID 41312633.
  141. ^ Yann LeCun (2016). Slides on Deep Learning Online Archived 23 April 2016 at the Wayback Machine
  142. ^ Hochreiter S, Schmidhuber J (1 November 1997). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
  143. ^ Sak H, Senior A, Beaufays F (2014). "Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling" (PDF). Archived from the original (PDF) on 24 April 2018.
  144. ^ Li X, Wu X (15 October 2014). "Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition". arXiv:1410.4281 [cs.CL].
  145. ^ Fan Y, Qian Y, Xie F, Soong FK (2014). "TTS synthesis with bidirectional LSTM based Recurrent Neural Networks". Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech: 1964–1968. Retrieved 13 June 2017.
  146. ^ Schmidhuber J (2015). "Deep Learning". Scholarpedia. 10 (11): 85–117. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832.
  147. ^ Zen H, Sak H (2015). "Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis" (PDF). Google.com. ICASSP. pp. 4470–4474. Archived (PDF) from the original on 9 May 2021. Retrieved 27 June 2017.
  148. ^ Fan B, Wang L, Soong FK, Xie L (2015). "Photo-Real Talking Head with Deep Bidirectional LSTM" (PDF). Proceedings of ICASSP. Archived (PDF) from the original on 1 November 2017. Retrieved 27 June 2017.
  149. ^ Silver D, Hubert T, Schrittwieser J, Antonoglou I, Lai M, Guez A, et al. (5 December 2017). "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm". arXiv:1712.01815 [cs.AI].
  150. ^ Probst P, Boulesteix AL, Bischl B (26 February 2018). "Tunability: Importance of Hyperparameters of Machine Learning Algorithms". J. Mach. Learn. Res. 20: 53:1–53:32. S2CID 88515435.
  151. ^ Zoph B, Le QV (4 November 2016). "Neural Architecture Search with Reinforcement Learning". arXiv:1611.01578 [cs.LG].
  152. ^ Haifeng Jin, Qingquan Song, Xia Hu (2019). "Auto-keras: An efficient neural architecture search system". Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. ACM. arXiv:1806.10282. Archived from the original on 21 August 2019. Retrieved 21 August 2019 – via autokeras.com.
  153. ^ Claesen M, De Moor B (2015). "Hyperparameter Search in Machine Learning". arXiv:1502.02127 [cs.LG]. Bibcode:2015arXiv150202127C
  154. ^ Esch R (1990). "Functional Approximation". Handbook of Applied Mathematics (Springer US ed.). Boston, MA: Springer US. pp. 928–987. doi:10.1007/978-1-4684-1423-3_17. ISBN 978-1-4684-1423-3.
  155. ^ Sarstedt M, Moo E (2019). "Regression Analysis". A Concise Guide to Market Research. Springer Texts in Business and Economics. Springer Berlin Heidelberg. pp. 209–256. doi:10.1007/978-3-662-56707-4_7. ISBN 978-3-662-56706-7. S2CID 240396965. Archived from the original on 20 March 2023. Retrieved 20 March 2023.
  156. ^ Tian J, Tan Y, Sun C, Zeng J, Jin Y (December 2016). "A self-adaptive similarity-based fitness approximation for evolutionary optimization". 2016 IEEE Symposium Series on Computational Intelligence (SSCI). pp. 1–8. doi:10.1109/SSCI.2016.7850209. ISBN 978-1-5090-4240-1. S2CID 14948018. Archived from the original on 19 May 2024. Retrieved 22 March 2023.
  157. ^ Alaloul WS, Qureshi AH (2019). "Data Processing Using Artificial Neural Networks". Dynamic Data Assimilation - Beating the Uncertainties. doi:10.5772/intechopen.91935. ISBN 978-1-83968-083-0. S2CID 219735060. Archived from the original on 20 March 2023. Retrieved 20 March 2023.
  158. ^ Pal M, Roy R, Basu J, Bepari MS (2013). "Blind source separation: A review and analysis". 2013 International Conference Oriental COCOSDA held jointly with 2013 Conference on Asian Spoken Language Research and Evaluation (O-COCOSDA/CASLRE). IEEE. pp. 1–5. doi:10.1109/ICSDA.2013.6709849. ISBN 978-1-4799-2378-6. S2CID 37566823. Archived from the original on 20 March 2023. Retrieved 20 March 2023.
  159. ^ Zissis D (October 2015). "A cloud based architecture capable of perceiving and predicting multiple vessel behaviour". Applied Soft Computing. 35: 652–661. doi:10.1016/j.asoc.2015.07.002. Archived from the original on 26 July 2020. Retrieved 18 July 2019.
  160. ^ Sengupta N, Sahidullah, Md, Saha, Goutam (August 2016). "Lung sound classification using cepstral-based statistical features". Computers in Biology and Medicine. 75 (1): 118–129. doi:10.1016/j.compbiomed.2016.05.013. PMID 27286184.
  161. ^ Choy, Christopher B., et al. "3d-r2n2: A unified approach for single and multi-view 3d object reconstruction Archived 26 July 2020 at the Wayback Machine." European conference on computer vision. Springer, Cham, 2016.
  162. ^ Turek, Fred D. (March 2007). "Introduction to Neural Net Machine Vision". Vision Systems Design. 12 (3). Archived from the original on 16 May 2013. Retrieved 5 March 2013.
  163. ^ Maitra DS, Bhattacharya U, Parui SK (August 2015). "CNN based common approach to handwritten character recognition of multiple scripts". 2015 13th International Conference on Document Analysis and Recognition (ICDAR). pp. 1021–1025. doi:10.1109/ICDAR.2015.7333916. ISBN 978-1-4799-1805-8. S2CID 25739012. Archived from the original on 16 October 2023. Retrieved 18 March 2021.
  164. ^ Gessler J (August 2021). "Sensor for food analysis applying impedance spectroscopy and artificial neural networks". RiuNet UPV (1): 8–12. Archived from the original on 21 October 2021. Retrieved 21 October 2021.
  165. ^ French J (2016). "The time traveller's CAPM". Investment Analysts Journal. 46 (2): 81–96. doi:10.1080/10293523.2016.1255469. S2CID 157962452.
  166. ^ Roman M. Balabin, Ekaterina I. Lomakina (2009). "Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies". J. Chem. Phys. 131 (7): 074104. Bibcode:2009JChPh.131g4104B. doi:10.1063/1.3206326. PMID 19708729.
  167. ^ Silver D, et al. (2016). "Mastering the game of Go with deep neural networks and tree search" (PDF). Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. PMID 26819042. S2CID 515925. Archived (PDF) from the original on 23 November 2018. Retrieved 31 January 2019.
  168. ^ Pasick A (27 March 2023). "Artificial Intelligence Glossary: Neural Networks and Other Terms Explained". The New York Times. ISSN 0362-4331. Archived from the original on 1 September 2023. Retrieved 22 April 2023.
  169. ^ Schechner S (15 June 2017). "Facebook Boosts A.I. to Block Terrorist Propaganda". The Wall Street Journal. ISSN 0099-9660. Archived from the original on 19 May 2024. Retrieved 16 June 2017.
  170. ^ Ganesan N (2010). "Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data". International Journal of Computer Applications. 1 (26): 81–97. Bibcode:2010IJCA....1z..81G. doi:10.5120/476-783.
  171. ^ Bottaci L (1997). "Artificial Neural Networks Applied to Outcome Prediction for Colorectal Cancer Patients in Separate Institutions" (PDF). Lancet. 350 (9076). The Lancet: 469–72. doi:10.1016/S0140-6736(96)11196-X. PMID 9274582. S2CID 18182063. Archived from the original (PDF) on 23 November 2018. Retrieved 2 May 2012.
  172. ^ Alizadeh E, Lyons SM, Castle JM, Prasad A (2016). "Measuring systematic changes in invasive cancer cell shape using Zernike moments". Integrative Biology. 8 (11): 1183–1193. doi:10.1039/C6IB00100A. PMID 27735002. Archived from the original on 19 May 2024. Retrieved 28 March 2017.
  173. ^ Lyons S (2016). "Changes in cell shape are correlated with metastatic potential in murine". Biology Open. 5 (3): 289–299. doi:10.1242/bio.013409. PMC 4810736. PMID 26873952.
  174. ^ Nabian MA, Meidani H (28 August 2017). "Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks". Computer-Aided Civil and Infrastructure Engineering. 33 (6): 443–458. arXiv:1708.08551. Bibcode:2017arXiv170808551N. doi:10.1111/mice.12359. S2CID 36661983.
  175. ^ Nabian MA, Meidani H (2018). "Accelerating Stochastic Assessment of Post-Earthquake Transportation Network Connectivity via Machine-Learning-Based Surrogates". Transportation Research Board 97th Annual Meeting. Archived from the original on 9 March 2018. Retrieved 14 March 2018.
  176. ^ Díaz E, Brotons V, Tomás R (September 2018). "Use of artificial neural networks to predict 3-D elastic settlement of foundations on soils with inclined bedrock". Soils and Foundations. 58 (6): 1414–1422. Bibcode:2018SoFou..58.1414D. doi:10.1016/j.sandf.2018.08.001. hdl:10045/81208. ISSN 0038-0806.
  177. ^ Tayebiyan A, Mohammad TA, Ghazali AH, Mashohor S. "Artificial Neural Network for Modelling Rainfall-Runoff". Pertanika Journal of Science & Technology. 24 (2): 319–330. Archived from the original on 17 May 2023. Retrieved 17 May 2023.
  178. ^ Govindaraju RS (1 April 2000). "Artificial Neural Networks in Hydrology. I: Preliminary Concepts". Journal of Hydrologic Engineering. 5 (2): 115–123. doi:10.1061/(ASCE)1084-0699(2000)5:2(115).
  179. ^ Govindaraju RS (1 April 2000). "Artificial Neural Networks in Hydrology. II: Hydrologic Applications". Journal of Hydrologic Engineering. 5 (2): 124–137. doi:10.1061/(ASCE)1084-0699(2000)5:2(124).
  180. ^ Peres DJ, Iuppa C, Cavallaro L, Cancelliere A, Foti E (1 October 2015). "Significant wave height record extension by neural networks and reanalysis wind data". Ocean Modelling. 94: 128–140. Bibcode:2015OcMod..94..128P. doi:10.1016/j.ocemod.2015.08.002.
  181. ^ Dwarakish GS, Rakshith S, Natesan U (2013). "Review on Applications of Neural Network in Coastal Engineering". Artificial Intelligent Systems and Machine Learning. 5 (7): 324–331. Archived from the original on 15 August 2017. Retrieved 5 July 2017.
  182. ^ Ermini L, Catani F, Casagli N (1 March 2005). "Artificial Neural Networks applied to landslide susceptibility assessment". Geomorphology. Geomorphological hazard and human impact in mountain environments. 66 (1): 327–343. Bibcode:2005Geomo..66..327E. doi:10.1016/j.geomorph.2004.09.025.
  183. ^ Nix R, Zhang J (May 2017). "Classification of Android apps and malware using deep neural networks". 2017 International Joint Conference on Neural Networks (IJCNN). pp. 1871–1878. doi:10.1109/IJCNN.2017.7966078. ISBN 978-1-5090-6182-2. S2CID 8838479.
  184. ^ "Detecting Malicious URLs". The systems and networking group at UCSD. Archived from the original on 14 July 2019. Retrieved 15 February 2019.
  185. ^ Homayoun S, Ahmadzadeh M, Hashemi S, Dehghantanha A, Khayami R (2018), Dehghantanha A, Conti M, Dargahi T (eds.), "BoTShark: A Deep Learning Approach for Botnet Traffic Detection", Cyber Threat Intelligence, Advances in Information Security, vol. 70, Springer International Publishing, pp. 137–153, doi:10.1007/978-3-319-73951-9_7, ISBN 978-3-319-73951-9
  186. ^ Ghosh, Reilly (January 1994). "Credit card fraud detection with a neural-network". Proceedings of the Twenty-Seventh Hawaii International Conference on System Sciences HICSS-94. Vol. 3. pp. 621–630. doi:10.1109/HICSS.1994.323314. ISBN 978-0-8186-5090-1. S2CID 13260377.
  187. ^ Ananthaswamy A (19 April 2021). "Latest Neural Nets Solve World's Hardest Equations Faster Than Ever Before". Quanta Magazine. Archived from the original on 19 May 2024. Retrieved 12 May 2021.
  188. ^ "AI has cracked a key mathematical puzzle for understanding our world". MIT Technology Review. Archived from the original on 19 May 2024. Retrieved 19 November 2020.
  189. ^ "Caltech Open-Sources AI for Solving Partial Differential Equations". InfoQ. Archived from the original on 25 January 2021. Retrieved 20 January 2021.
  190. ^ Nagy A (28 June 2019). "Variational Quantum Monte Carlo Method with a Neural-Network Ansatz for Open Quantum Systems". Physical Review Letters. 122 (25): 250501. arXiv:1902.09483. Bibcode:2019PhRvL.122y0501N. doi:10.1103/PhysRevLett.122.250501. PMID 31347886. S2CID 119074378.
  191. ^ Yoshioka N, Hamazaki R (28 June 2019). "Constructing neural stationary states for open quantum many-body systems". Physical Review B. 99 (21): 214306. arXiv:1902.07006. Bibcode:2019PhRvB..99u4306Y. doi:10.1103/PhysRevB.99.214306. S2CID 119470636.
  192. ^ Hartmann MJ, Carleo G (28 June 2019). "Neural-Network Approach to Dissipative Quantum Many-Body Dynamics". Physical Review Letters. 122 (25): 250502. arXiv:1902.05131. Bibcode:2019PhRvL.122y0502H. doi:10.1103/PhysRevLett.122.250502. PMID 31347862. S2CID 119357494.
  193. ^ Vicentini F, Biella A, Regnault N, Ciuti C (28 June 2019). "Variational Neural-Network Ansatz for Steady States in Open Quantum Systems". Physical Review Letters. 122 (25): 250503. arXiv:1902.10104. Bibcode:2019PhRvL.122y0503V. doi:10.1103/PhysRevLett.122.250503. PMID 31347877. S2CID 119504484.
  194. ^ Forrest MD (April 2015). "Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster". BMC Neuroscience. 16 (27): 27. doi:10.1186/s12868-015-0162-6. PMC 4417229. PMID 25928094.
  195. ^ Wieczorek S, Filipiak D, Filipowska A (2018). "Semantic Image-Based Profiling of Users' Interests with Neural Networks". Studies on the Semantic Web. 36 (Emerging Topics in Semantic Technologies). doi:10.3233/978-1-61499-894-5-179. Archived from the original on 19 May 2024. Retrieved 20 January 2024.
  196. ^ Merchant A, Batzner S, Schoenholz SS, Aykol M, Cheon G, Cubuk ED (December 2023). "Scaling deep learning for materials discovery". Nature. 624 (7990): 80–85. Bibcode:2023Natur.624...80M. doi:10.1038/s41586-023-06735-9. ISSN 1476-4687. PMC 10700131. PMID 38030720.
  197. ^ Siegelmann H, Sontag E (1991). "Turing computability with neural nets" (PDF). Appl. Math. Lett. 4 (6): 77–80. doi:10.1016/0893-9659(91)90080-F. Archived (PDF) from the original on 19 May 2024. Retrieved 10 January 2017.
  198. ^ Bains S (3 November 1998). "Analog computer trumps Turing model". EE Times. Archived from the original on 11 May 2023. Retrieved 11 May 2023.
  199. ^ Balcázar J (July 1997). "Computational Power of Neural Networks: A Kolmogorov Complexity Characterization". IEEE Transactions on Information Theory. 43 (4): 1175–1183. CiteSeerX 10.1.1.411.7782. doi:10.1109/18.605580.
  200. ^ a b MacKay DJ (2003). Information Theory, Inference, and Learning Algorithms (PDF). Cambridge University Press. ISBN 978-0-521-64298-9. Archived (PDF) from the original on 19 October 2016. Retrieved 11 June 2016.
  201. ^ Cover T (1965). "Geometrical and Statistical Properties of Systems of Linear Inequalities with Applications in Pattern Recognition" (PDF). IEEE Transactions on Electronic Computers. EC-14 (3). IEEE: 326–334. doi:10.1109/PGEC.1965.264137. Archived (PDF) from the original on 5 March 2016. Retrieved 10 March 2020.
  202. ^ Gerald F (2019). "Reproducibility and Experimental Design for Machine Learning on Audio and Multimedia Data". Proceedings of the 27th ACM International Conference on Multimedia. ACM. pp. 2709–2710. doi:10.1145/3343031.3350545. ISBN 978-1-4503-6889-6. S2CID 204837170.
  203. ^ "Stop tinkering, start measuring! Predictable experimental design of Neural Network experiments". The Tensorflow Meter. Archived from the original on 18 April 2022. Retrieved 10 March 2020.
  204. ^ Lee J, Xiao L, Schoenholz SS, Bahri Y, Novak R, Sohl-Dickstein J, et al. (2020). "Wide neural networks of any depth evolve as linear models under gradient descent". Journal of Statistical Mechanics: Theory and Experiment. 2020 (12): 124002. arXiv:1902.06720. Bibcode:2020JSMTE2020l4002L. doi:10.1088/1742-5468/abc62b. S2CID 62841516.
  205. ^ Arthur Jacot, Franck Gabriel, Clement Hongler (2018). Neural Tangent Kernel: Convergence and Generalization in Neural Networks (PDF). 32nd Conference on Neural Information Processing Systems (NeurIPS 2018), Montreal, Canada. Archived (PDF) from the original on 22 June 2022. Retrieved 4 June 2022.
  206. ^ Xu ZJ, Zhang Y, Xiao Y (2019). "Training Behavior of Deep Neural Network in Frequency Domain". In Gedeon T, Wong K, Lee M (eds.). Neural Information Processing. Lecture Notes in Computer Science. Vol. 11953. Springer, Cham. pp. 264–274. arXiv:1807.01251. doi:10.1007/978-3-030-36708-4_22. ISBN 978-3-030-36707-7. S2CID 49562099.
  207. ^ Nasim Rahaman, Aristide Baratin, Devansh Arpit, Felix Draxler, Min Lin, Fred Hamprecht, et al. (2019). "On the Spectral Bias of Neural Networks" (PDF). Proceedings of the 36th International Conference on Machine Learning. 97: 5301–5310. arXiv:1806.08734. Archived (PDF) from the original on 22 October 2022. Retrieved 4 June 2022.
  208. ^ Zhi-Qin John Xu, Yaoyu Zhang, Tao Luo, Yanyang Xiao, Zheng Ma (2020). "Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks". Communications in Computational Physics. 28 (5): 1746–1767. arXiv:1901.06523. Bibcode:2020CCoPh..28.1746X. doi:10.4208/cicp.OA-2020-0085. S2CID 58981616.
  209. ^ Tao Luo, Zheng Ma, Zhi-Qin John Xu, Yaoyu Zhang (2019). "Theory of the Frequency Principle for General Deep Neural Networks". arXiv:1906.09235 [cs.LG].
  210. ^ Xu ZJ, Zhou H (18 May 2021). "Deep Frequency Principle Towards Understanding Why Deeper Learning is Faster". Proceedings of the AAAI Conference on Artificial Intelligence. 35 (12): 10541–10550. arXiv:2007.14313. doi:10.1609/aaai.v35i12.17261. ISSN 2374-3468. S2CID 220831156. Archived from the original on 5 October 2021. Retrieved 5 October 2021.
  211. ^ Parisi GI, Kemker R, Part JL, Kanan C, Wermter S (1 May 2019). "Continual lifelong learning with neural networks: A review". Neural Networks. 113: 54–71. arXiv:1802.07569. doi:10.1016/j.neunet.2019.01.012. ISSN 0893-6080. PMID 30780045.
  212. ^ Dean Pomerleau, "Knowledge-based Training of Artificial Neural Networks for Autonomous Robot Driving"
  213. ^ Dewdney AK (1 April 1997). Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley. p. 82. ISBN 978-0-471-10806-1.
  214. ^ NASA – Dryden Flight Research Center – News Room: News Releases: NASA NEURAL NETWORK PROJECT PASSES MILESTONE Archived 2 April 2010 at the Wayback Machine. Nasa.gov. Retrieved on 20 November 2013.
  215. ^ "Roger Bridgman's defence of neural networks". Archived from the original on 19 March 2012. Retrieved 12 July 2010.
  216. ^ "Scaling Learning Algorithms towards {AI} - LISA - Publications - Aigaion 2.0". www.iro.umontreal.ca.
  217. ^ D. J. Felleman and D. C. Van Essen, "Distributed hierarchical processing in the primate cerebral cortex," Cerebral Cortex, 1, pp. 1–47, 1991.
  218. ^ J. Weng, "Natural and Artificial Intelligence: Introduction to Computational Brain-Mind Archived 19 May 2024 at the Wayback Machine," BMI Press, ISBN 978-0-9858757-2-5, 2012.
  219. ^ a b Edwards C (25 June 2015). "Growing pains for deep learning". Communications of the ACM. 58 (7): 14–16. doi:10.1145/2771283. S2CID 11026540.
  220. ^ "The Bitter Lesson". www.incompleteideas.net. Retrieved 7 August 2024.
  221. ^ Cade Metz (18 May 2016). "Google Built Its Very Own Chips to Power Its AI Bots". Wired. Archived from the original on 13 January 2018. Retrieved 5 March 2017.
  222. ^ "Scaling Learning Algorithms towards AI" (PDF). Archived (PDF) from the original on 12 August 2022. Retrieved 6 July 2022.
  223. ^ Tahmasebi, Hezarkhani (2012). "A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation". Computers & Geosciences. 42: 18–27. Bibcode:2012CG.....42...18T. doi:10.1016/j.cageo.2012.02.004. PMC 4268588. PMID 25540468.
  224. ^ Sun and Bookman, 1990
  225. ^ a b Norori N, Hu Q, Aellen FM, Faraci FD, Tzovara A (October 2021). "Addressing bias in big data and AI for health care: A call for open science". Patterns. 2 (10): 100347. doi:10.1016/j.patter.2021.100347. PMC 8515002. PMID 34693373.
  226. ^ a b Carina W (27 October 2022). "Failing at Face Value: The Effect of Biased Facial Recognition Technology on Racial Discrimination in Criminal Justice". Scientific and Social Research. 4 (10): 29–40. doi:10.26689/ssr.v4i10.4402. ISSN 2661-4332.
  227. ^ a b Chang X (13 September 2023). "Gender Bias in Hiring: An Analysis of the Impact of Amazon's Recruiting Algorithm". Advances in Economics, Management and Political Sciences. 23 (1): 134–140. doi:10.54254/2754-1169/23/20230367. ISSN 2754-1169. Archived from the original on 9 December 2023. Retrieved 9 December 2023.
  228. ^ Kortylewski A, Egger B, Schneider A, Gerig T, Morel-Forster A, Vetter T (June 2019). "Analyzing and Reducing the Damage of Dataset Bias to Face Recognition with Synthetic Data". 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) (PDF). IEEE. pp. 2261–2268. doi:10.1109/cvprw.2019.00279. ISBN 978-1-7281-2506-0. S2CID 198183828. Archived (PDF) from the original on 19 May 2024. Retrieved 30 December 2023.
  229. ^ a b c d e f Huang Y (2009). "Advances in Artificial Neural Networks – Methodological Development and Application". Algorithms. 2 (3): 973–1007. doi:10.3390/algor2030973. ISSN 1999-4893.
  230. ^ a b c d e Kariri E, Louati H, Louati A, Masmoudi F (2023). "Exploring the Advancements and Future Research Directions of Artificial Neural Networks: A Text Mining Approach". Applied Sciences. 13 (5): 3186. doi:10.3390/app13053186. ISSN 2076-3417.
  231. ^ a b Fui-Hoon Nah F, Zheng R, Cai J, Siau K, Chen L (3 July 2023). "Generative AI and ChatGPT: Applications, challenges, and AI-human collaboration". Journal of Information Technology Case and Application Research. 25 (3): 277–304. doi:10.1080/15228053.2023.2233814. ISSN 1522-8053.
  232. ^ "DALL-E 2's Failures Are the Most Interesting Thing About It - IEEE Spectrum". IEEE. Archived from the original on 15 July 2022. Retrieved 9 December 2023.
  233. ^ Briot JP (January 2021). "From artificial neural networks to deep learning for music generation: history, concepts and trends". Neural Computing and Applications. 33 (1): 39–65. doi:10.1007/s00521-020-05399-0. ISSN 0941-0643.
  234. ^ Chow PS (6 July 2020). "Ghost in the (Hollywood) machine: Emergent applications of artificial intelligence in the film industry". NECSUS_European Journal of Media Studies. doi:10.25969/MEDIAREP/14307. ISSN 2213-0217.
  235. ^ Yu X, He S, Gao Y, Yang J, Sha L, Zhang Y, et al. (June 2010). "Dynamic difficulty adjustment of game AI for video game Dead-End". The 3rd International Conference on Information Sciences and Interaction Sciences. IEEE. pp. 583–587. doi:10.1109/icicis.2010.5534761. ISBN 978-1-4244-7384-7. S2CID 17555595.

Bibliography