Red neuronal (aprendizaje automático)

En aprendizaje automático , una red neuronal (también red neuronal artificial o red neuronal , abreviada ANN o NN ) es un modelo inspirado en la organización neuronal que se encuentra en las redes neuronales biológicas en los cerebros de los animales . ^[1]^[2]

Una ANN está formada por unidades o nodos conectados llamados neuronas artificiales , que modelan vagamente las neuronas del cerebro. Estos están conectados por bordes , que modelan las sinapsis en el cerebro. Una neurona artificial recibe señales de neuronas conectadas, luego las procesa y envía señales a otras neuronas conectadas. La "señal" es un número real , y la salida de cada neurona se calcula mediante alguna función no lineal de la suma de sus entradas, llamada función de activación . Las neuronas y los bordes suelen tener un peso que se ajusta a medida que avanza el aprendizaje. El peso aumenta o disminuye la intensidad de la señal en una conexión.

Normalmente, las neuronas se agregan en capas. Diferentes capas pueden realizar diferentes transformaciones en sus entradas. Las señales viajan desde la primera capa (la capa de entrada ) hasta la última capa (la capa de salida ), posiblemente pasando a través de múltiples capas intermedias ( capas ocultas ). Una red suele denominarse red neuronal profunda si tiene al menos 2 capas ocultas. ^[3]

Las redes neuronales artificiales se utilizan para modelado predictivo , control adaptativo y otras aplicaciones en las que se pueden entrenar a través de un conjunto de datos. También se utilizan para resolver problemas de inteligencia artificial . Las redes pueden aprender de la experiencia y derivar conclusiones de un conjunto de información complejo y aparentemente no relacionado.

Capacitación

Las redes neuronales normalmente se entrenan mediante la minimización empírica de riesgos . Este método se basa en la idea de optimizar los parámetros de la red para minimizar la diferencia, o riesgo empírico, entre la salida prevista y los valores objetivo reales en un conjunto de datos determinado. ^[4] Los métodos basados en gradientes, como la retropropagación, se suelen utilizar para estimar los parámetros de la red. ^[4] Durante la fase de entrenamiento, las RNA aprenden de los datos de entrenamiento etiquetados actualizando iterativamente sus parámetros para minimizar una función de pérdida definida . ^[5] Este método permite que la red generalice a datos invisibles.

Historia

Históricamente, las computadoras digitales evolucionaron a partir del modelo de von Neumann y funcionan mediante la ejecución de instrucciones explícitas mediante el acceso a la memoria por parte de varios procesadores. Las redes neuronales, por otro lado, se originaron a partir de esfuerzos por modelar el procesamiento de información en sistemas biológicos a través del marco del conexionismo . A diferencia del modelo de von Neumann, la computación conexionista no separa memoria y procesamiento.

El tipo más simple de red neuronal feedforward (FNN) es una red lineal, que consta de una única capa de nodos de salida; las entradas se alimentan directamente a las salidas a través de una serie de pesos. La suma de los productos de los pesos y las entradas se calcula en cada nodo. Los errores cuadráticos medios entre estas salidas calculadas y los valores objetivo dados se minimizan mediante la creación de un ajuste en las ponderaciones. Esta técnica se conoce desde hace más de dos siglos como método de mínimos cuadrados o regresión lineal . Legendre (1805) y Gauss (1795) lo utilizaron como medio para encontrar un buen ajuste lineal aproximado a un conjunto de puntos para la predicción del movimiento planetario. ^[7]^[8]^[9]^[10]^[11]

Warren McCulloch y Walter Pitts ^[12] (1943) también consideraron un modelo computacional sin aprendizaje para redes neuronales. ^[13]

A finales de la década de 1940, DO Hebb ^[14] creó una hipótesis de aprendizaje basada en el mecanismo de plasticidad neuronal que se conoció como aprendizaje hebbiano . El aprendizaje hebbiano se considera una regla de aprendizaje no supervisada "típica" y sus variantes posteriores fueron los primeros modelos de potenciación a largo plazo . Estas ideas comenzaron a aplicarse a modelos computacionales en 1948 con las " máquinas no organizadas " de Turing. Farley y Wesley A. Clark ^[15] fueron los primeros en simular una red hebbiana en 1954 en el MIT. Utilizaban máquinas computacionales, entonces llamadas "calculadoras". ^{Rochester, Holland, Habit y Duda [16]} crearon otras máquinas computacionales de redes neuronales en 1956. En 1958, el psicólogo Frank Rosenblatt inventó el perceptrón , la primera red neuronal artificial implementada, ^[17]^[18]^[19]^{[20 ] financiado por la}Oficina de Investigación Naval de los Estados Unidos . ^[21]

La invención del perceptrón generó entusiasmo público por la investigación en redes neuronales artificiales, lo que provocó que el gobierno de EE. UU. aumentara drásticamente la financiación para la investigación del aprendizaje profundo. Esto condujo a "la edad de oro de la IA", impulsada por las afirmaciones optimistas de los científicos informáticos sobre la capacidad de los perceptrones para emular la inteligencia humana. ^[22] Por ejemplo, en 1957 Herbert Simon dijo la famosa frase: ^[22]

No es mi objetivo sorprenderlos o escandalizarlos, pero la forma más sencilla que puedo resumir es decir que ahora hay en el mundo máquinas que piensan, que aprenden y que crean. Además, su capacidad para hacer estas cosas aumentará rápidamente hasta que, en un futuro visible, la variedad de problemas que pueden manejar será coextensiva con la gama a la que se ha aplicado la mente humana.

Sin embargo, este no fue el caso ya que la investigación se estancó en los Estados Unidos tras el trabajo de Minsky y Papert (1969), ^[23] quienes descubrieron que los perceptrones básicos eran incapaces de procesar el circuito exclusivo-o y que las computadoras carecían de potencia suficiente para entrenar redes neuronales útiles. Esto, junto con otros factores como el informe Lighthill de 1973 de James Lighthill que afirma que la investigación en Inteligencia Artificial no ha "producido el gran impacto que se prometió entonces", bloqueando la financiación de la investigación en el campo de la IA en todas las universidades del mundo excepto dos. Reino Unido y en muchas instituciones importantes de todo el mundo. ^[24] Esto marcó el comienzo de una era llamada el Invierno de la IA con una reducción de la investigación sobre el conexionismo debido a una disminución en la financiación gubernamental y un mayor énfasis en la inteligencia artificial simbólica en los Estados Unidos y otros países occidentales. ^[25]^[24]

Sin embargo, durante la era del invierno de la IA, la investigación fuera de Estados Unidos continuó, especialmente en Europa del Este. Cuando se publicó el libro de Minsky y Papert sobre perceptrones , ya se conocían métodos para entrenar perceptrones multicapa (MLP). El primer MLP de aprendizaje profundo fue publicado por Alexey Grigorevich Ivakhnenko y Valentin Lapa en 1965, como Group Method of Data Handling . ^[26]^[27]^[28] El primer MLP de aprendizaje profundo entrenado mediante descenso de gradiente estocástico ^[29] fue publicado en 1967 por Shun'ichi Amari. ^[30]^[31] En experimentos informáticos realizados por Saito, estudiante de Amari, un MLP de cinco capas con dos capas modificables aprendió representaciones internas útiles para clasificar clases de patrones no linealmente separables. ^[31]

Los mapas autoorganizados (SOM) fueron descritos por Teuvo Kohonen en 1982. ^[32]^[33] Los SOM son redes neuronales de inspiración neurofisiológica ^{[34] que aprenden representaciones}de baja dimensión de datos de alta dimensión preservando al mismo tiempo la estructura topológica de los datos. Se forman mediante el aprendizaje competitivo . ^[32]

La arquitectura de red neuronal convolucional (CNN) con capas convolucionales y capas de reducción de resolución fue introducida por Kunihiko Fukushima en 1980. ^[35] La llamó neocognitrón . En 1969, también introdujo la función de activación ReLU (unidad lineal rectificada) . ^[36]^[10] El rectificador se ha convertido en la función de activación más popular para CNN y redes neuronales profundas en general. ^[37] Las CNN se han convertido en una herramienta esencial para la visión por computadora .

Una clave en los avances posteriores en la investigación de redes neuronales artificiales fue el algoritmo de retropropagación , una aplicación eficiente de la regla de la cadena de Leibniz (1673) ^[38] a redes de nodos diferenciables. ^[10] También se le conoce como modo inverso de diferenciación automática o acumulación inversa , debido a Seppo Linnainmaa (1970). ^[39]^[40]^[41]^[42]^[10] El término "errores de retropropagación" fue introducido en 1962 por Frank Rosenblatt, ^[43]^[10] pero no implementó este procedimiento, aunque Henry J. Kelley ^[44] y Bryson ^[45] tenían precursores continuos de retropropagación basados en programación dinámica ^[26]^[46]^[47]^[48] ya en 1960-1961 en el contexto de la teoría del control . ^[10] En 1973, Dreyfus utilizó la retropropagación para adaptar los parámetros de los controladores en proporción a los gradientes de error. ^[49] En 1982, Paul Werbos aplicó la retropropagación a los MLP en la forma que se ha convertido en estándar. ^[50]^[46] En 1986, Rumelhart , Hinton y Williams demostraron que la retropropagación aprendía representaciones internas interesantes de palabras como vectores de características cuando se entrenaba para predecir la siguiente palabra en una secuencia. ^[51]

A finales de los años 1970 y principios de los 1980, surgió brevemente el interés en investigar teóricamente el modelo de Ising creado por Wilhelm Lenz (1920) y Ernst Ising (1925) ^[52] en relación con las topologías de los árboles de Cayley y las grandes redes neuronales . El modelo de Ising es esencialmente una red neuronal recurrente artificial (RNN) sin aprendizaje que consta de elementos de umbral similares a neuronas. ^[10] En 1972, Shun'ichi Amari describió una versión adaptativa de esta arquitectura, ^[53]^[10] En 1981, Peter Barth resolvió exactamente el modelo de Ising para el caso general de árboles Cayley cerrados (con bucles) con un relación de ramificación arbitraria ^[54] y se encontró que exhibe un comportamiento de transición de fase inusual en sus correlaciones sitio-sitio de largo alcance y ápice local. ^[55]^[56]John Hopfield popularizó esta arquitectura en 1982, ^[57] y ahora se la conoce como red Hopfield .

La red neuronal de retardo de tiempo (TDNN) de Alex Waibel (1987) combinó convoluciones, reparto de peso y retropropagación. ^[58]^[59] En 1988, Wei Zhang et al. aplicó retropropagación a una CNN (un Neocognitron simplificado con interconexiones convolucionales entre las capas de características de la imagen y la última capa completamente conectada) para el reconocimiento del alfabeto. ^[60]^[61] En 1989, Yann LeCun et al. entrenó a una CNN para reconocer códigos postales escritos a mano en el correo. ^[62] En 1992, Juan Weng et al. introdujeron la agrupación máxima para CNN. para ayudar con la invariancia de cambio mínimo y la tolerancia a la deformación para ayudar al reconocimiento de objetos 3D . ^[63]^[64]^[65] LeNet-5 (1998), una CNN de 7 niveles de Yann LeCun et al., ^[66] que clasifica dígitos, fue aplicada por varios bancos para reconocer números escritos a mano en cheques digitalizados en Imágenes de 32x32 píxeles.

Desde 1988 en adelante, ^[67]^[68] el uso de redes neuronales transformó el campo de la predicción de la estructura de las proteínas , en particular cuando las primeras redes en cascada se entrenaron en perfiles (matrices) producidos por múltiples alineamientos de secuencias . ^[69]

En 1991, la tesis de diploma de Sepp Hochreiter ^[70] identificó y analizó el problema del gradiente evanescente ^[70]^{[71] y propuso conexiones}residuales recurrentes para resolverlo. Su director, Juergen Schmidhuber, calificó su tesis como "uno de los documentos más importantes de la historia del aprendizaje automático" . ^[10]

En 1991, Juergen Schmidhuber publicó redes neuronales adversarias que compiten entre sí en forma de un juego de suma cero , donde la ganancia de una red es la pérdida de la otra. ^[72]^[73]^[74] La primera red es un modelo generativo que modela una distribución de probabilidad sobre patrones de salida. La segunda red aprende mediante descenso de gradiente a predecir las reacciones del entorno a estos patrones. A esto se le llamó "curiosidad artificial".

En 1992, Juergen Schmidhuber propuso una jerarquía de RNN preentrenados un nivel a la vez mediante aprendizaje autosupervisado . ^[75] Utiliza codificación predictiva para aprender representaciones internas en múltiples escalas de tiempo autoorganizadas. Esto puede facilitar sustancialmente el aprendizaje profundo posterior. La jerarquía RNN se puede colapsar en un solo RNN, destilando una red fragmentadora de nivel superior en una red automatizadora de nivel inferior . ^[75]^[10] En el mismo año también publicó una alternativa a los RNN ^[76] que es un precursor de un transformador lineal . ^[77]^[78]^[10] Introduce el concepto de focos internos de atención : ^[79] una red neuronal lenta aprende mediante descenso de gradiente a controlar los pesos rápidos de otra red neuronal a través de productos externos de patrones de activación autogenerados.

El desarrollo de la integración a muy gran escala (VLSI) de semiconductores de óxido metálico (MOS ), en forma de tecnología MOS complementaria (CMOS), permitió aumentar el número de transistores MOS en la electrónica digital . Esto proporcionó más potencia de procesamiento para el desarrollo de redes neuronales artificiales prácticas en los años 1980. ^[80]

Los primeros éxitos de las redes neuronales incluyeron la predicción del mercado de valores y, en 1995, un automóvil (en su mayoría) autónomo. ^[un]^[81]

En 1997, Sepp Hochreite y Juergen Schmidhuber introdujeron el método de aprendizaje profundo llamado memoria a largo plazo (LSTM), publicado en Neural Computation. ^[82] Las redes neuronales recurrentes de LSTM pueden aprender tareas de "aprendizaje muy profundo" ^[83] con rutas largas de asignación de créditos que requieren recuerdos de eventos que sucedieron miles de pasos de tiempo discretos antes. El "vanilla LSTM" con puerta de olvido fue presentado en 1999 por Felix Gers , Schmidhuber y Fred Cummins. ^[84]

Geoffrey Hinton et al. (2006) propusieron aprender una representación de alto nivel utilizando capas sucesivas de variables latentes binarias o de valor real con una máquina de Boltzmann restringida ^[85] para modelar cada capa. En 2012, Ng y Dean crearon una red que aprendió a reconocer conceptos de nivel superior, como los gatos, solo viendo imágenes sin etiquetar. ^[86] El entrenamiento previo no supervisado y el aumento de la potencia informática de las GPU y la computación distribuida permitieron el uso de redes más grandes, particularmente en problemas de reconocimiento visual y de imágenes, lo que se conoció como "aprendizaje profundo". ^[5]

Se pueden utilizar variantes del algoritmo de retropropagación , así como métodos no supervisados de Geoff Hinton y colegas de la Universidad de Toronto , para entrenar arquitecturas neuronales profundas y altamente no lineales, ^[87] similares al Neocognitron de 1980 de Kunihiko Fukushima , ^{[88 ]} y la "arquitectura estándar de la visión", ^[89] inspirada en las células simples y complejas identificadas por David H. Hubel y Torsten Wiesel en la corteza visual primaria .

Se han creado dispositivos computacionales en CMOS tanto para simulación biofísica como para computación neuromórfica . Esfuerzos más recientes son prometedores para la creación de nanodispositivos para análisis y convolución de componentes principales a muy gran escala . ^[90] Si tienen éxito, estos esfuerzos podrían marcar el comienzo de una nueva era de la computación neuronal que es un paso más allá de la computación digital, ^[91] porque depende del aprendizaje en lugar de la programación y porque es fundamentalmente analógica en lugar de digital , a pesar de que las primeras instancias De hecho, puede ser con dispositivos digitales CMOS.

Ciresan y colegas (2010) ^[92] demostraron que a pesar del problema del gradiente que desaparece , las GPU hacen factible la retropropagación para redes neuronales de alimentación directa de muchas capas. ^[93] Entre 2009 y 2012, las RNA comenzaron a ganar premios en concursos de reconocimiento de imágenes, acercándose al desempeño a nivel humano en diversas tareas, inicialmente en reconocimiento de patrones y reconocimiento de escritura a mano . ^[94]^[95] Por ejemplo, la memoria bidireccional y multidimensional a largo plazo (LSTM) ^[96]^[97] de Graves et al. Ganó en 2009 tres concursos de reconocimiento de escritura manuscrita conectada sin ningún conocimiento previo de los tres idiomas que se van a aprender. ^[96]^[97]

Ciresan y sus colegas construyeron los primeros reconocedores de patrones para lograr un rendimiento humano competitivo/sobrehumano ^[98] en puntos de referencia como el reconocimiento de señales de tráfico (IJCNN 2012).

La función de base radial y las redes wavelet se introdujeron en 2013. Se puede demostrar que ofrecen las mejores propiedades de aproximación y se han aplicado en aplicaciones de clasificación e identificación de sistemas no lineales . ^[99]

En 2014, Ian Goodfellow et al utilizaron el principio de la red adversarial en una red generativa adversarial (GAN) . ^[100] Aquí, la red adversaria (discriminador) genera un valor entre 1 y 0 dependiendo de la probabilidad de que la salida de la primera red (generador) esté en un conjunto determinado. Esto se puede utilizar para crear deepfakes realistas . ^[101]StyleGAN (2018) de Nvidia logra una excelente calidad de imagen ^[102] basado en Progressive GAN de Tero Karras, Timo Aila, Samuli Laine y Jaakko Lehtinen. ^[103] Aquí el generador GAN crece de pequeña a gran escala de forma piramidal.

En 2015, Rupesh Kumar Srivastava, Klaus Greff y Schmidhuber utilizaron el principio LSTM para crear la red Highway , una red neuronal feedforward con cientos de capas, mucho más profunda que las redes anteriores. ^[104]^[105] 7 meses después, Kaiming He, Xiangyu Zhang; Shaoqing Ren y Jian Sun ganaron el concurso ImageNet 2015 con una variante de red de autopistas con puertas abiertas o sin puertas llamada Red neuronal residual . ^[106]

En 2017, Ashish Vaswani et al. presentó la arquitectura Transformer moderna en su artículo "La atención es todo lo que necesita". ^[107] Combina esto con un operador softmax y una matriz de proyección. ^[10] Los transformadores se han convertido cada vez más en el modelo elegido para el procesamiento del lenguaje natural . ^[108] Muchos modelos modernos de lenguajes grandes, como ChatGPT , GPT-4 y BERT , lo utilizan. Los transformadores también se utilizan cada vez más en la visión por ordenador . ^[109]

Ramenzanpour et al. demostró en 2020 que las técnicas analíticas y computacionales derivadas de la física estadística de sistemas desordenados pueden extenderse a problemas a gran escala, incluido el aprendizaje automático, por ejemplo, para analizar el espacio de peso de redes neuronales profundas. ^[110]

Modelos

Neurona y axón mielinizado, con flujo de señales desde las entradas en las dendritas hasta las salidas en las terminales del axón.

Las RNA comenzaron como un intento de explotar la arquitectura del cerebro humano para realizar tareas con las que los algoritmos convencionales tenían poco éxito. Pronto se reorientaron hacia la mejora de los resultados empíricos, abandonando los intentos de permanecer fieles a sus precursores biológicos. Las RNA tienen la capacidad de aprender y modelar no linealidades y relaciones complejas. Esto se logra conectando neuronas en varios patrones, permitiendo que la salida de algunas neuronas se convierta en la entrada de otras. La red forma un gráfico dirigido y ponderado . ^[111]

Una red neuronal artificial consta de neuronas simuladas. Cada neurona está conectada a otros nodos a través de enlaces como una conexión biológica axón-sinapsis-dendrita. Todos los nodos conectados por enlaces toman algunos datos y los utilizan para realizar operaciones y tareas específicas con los datos. Cada enlace tiene un peso, que determina la fuerza de la influencia de un nodo sobre otro, ^[112] permitiendo que los pesos elijan la señal entre las neuronas.

Neuronas artificiales

Las RNA están compuestas de neuronas artificiales que conceptualmente se derivan de neuronas biológicas . Cada neurona artificial tiene entradas y produce una única salida que puede enviarse a muchas otras neuronas. ^[113] Las entradas pueden ser los valores característicos de una muestra de datos externos, como imágenes o documentos, o pueden ser las salidas de otras neuronas. Las salidas de las neuronas de salida finales de la red neuronal realizan la tarea, como reconocer un objeto en una imagen.

Para encontrar la salida de la neurona tomamos la suma ponderada de todas las entradas, ponderada por los pesos de las conexiones de las entradas a la neurona. Agregamos un término de sesgo a esta suma. ^[114] Esta suma ponderada a veces se denomina activación . Esta suma ponderada luego pasa a través de una función de activación (generalmente no lineal) para producir la salida. Las entradas iniciales son datos externos, como imágenes y documentos. Los resultados finales realizan la tarea, como reconocer un objeto en una imagen. ^[115]

Organización

Las neuronas suelen estar organizadas en múltiples capas, especialmente en el aprendizaje profundo . Las neuronas de una capa se conectan sólo con las neuronas de las capas inmediatamente anterior e inmediatamente posterior. La capa que recibe datos externos es la capa de entrada . La capa que produce el resultado final es la capa de salida . Entre ellos hay cero o más capas ocultas . También se utilizan redes de una sola capa y sin capas. Entre dos capas, son posibles múltiples patrones de conexión. Pueden estar "completamente conectadas", con cada neurona de una capa conectada a cada neurona de la siguiente capa. Pueden ser agrupaciones , donde un grupo de neuronas en una capa se conecta a una sola neurona en la siguiente capa, reduciendo así la cantidad de neuronas en esa capa. ^[116] Las neuronas que solo tienen tales conexiones forman un gráfico acíclico dirigido y se conocen como redes de avance . ^[117] Alternativamente, las redes que permiten conexiones entre neuronas en la misma capa o en capas anteriores se conocen como redes recurrentes . ^[118]

Hiperparámetro

Un hiperparámetro es un parámetro constante cuyo valor se establece antes de que comience el proceso de aprendizaje. Los valores de los parámetros se obtienen mediante aprendizaje. Ejemplos de hiperparámetros incluyen la tasa de aprendizaje , la cantidad de capas ocultas y el tamaño del lote. ^[119] Los valores de algunos hiperparámetros pueden depender de los de otros hiperparámetros. Por ejemplo, el tamaño de algunas capas puede depender del número total de capas.

Aprendiendo

El aprendizaje es la adaptación de la red para manejar mejor una tarea considerando observaciones de muestras. El aprendizaje implica ajustar los pesos (y los umbrales opcionales) de la red para mejorar la precisión del resultado. Esto se hace minimizando los errores observados. El aprendizaje es completo cuando examinar observaciones adicionales no reduce de manera útil la tasa de error. Incluso después del aprendizaje, la tasa de error normalmente no llega a 0. Si después del aprendizaje, la tasa de error es demasiado alta, normalmente es necesario rediseñar la red. En la práctica, esto se hace definiendo una función de costos que se evalúa periódicamente durante el aprendizaje. Mientras su producción siga disminuyendo, el aprendizaje continúa. El costo se define frecuentemente como una estadística cuyo valor sólo puede ser aproximado. Los resultados son en realidad números, por lo que cuando el error es bajo, la diferencia entre el resultado (casi con seguridad un gato) y la respuesta correcta (gato) es pequeña. El aprendizaje intenta reducir el total de las diferencias entre las observaciones. La mayoría de los modelos de aprendizaje pueden verse como una aplicación directa de la teoría de la optimización y la estimación estadística . ^[111]^[120]

Tasa de aprendizaje

La tasa de aprendizaje define el tamaño de los pasos correctivos que toma el modelo para ajustar los errores en cada observación. ^[121] Una tasa de aprendizaje alta acorta el tiempo de entrenamiento, pero con una precisión final menor, mientras que una tasa de aprendizaje más baja lleva más tiempo, pero con el potencial de una mayor precisión. Optimizaciones como Quickprop tienen como objetivo principal acelerar la minimización de errores, mientras que otras mejoras intentan principalmente aumentar la confiabilidad. Para evitar oscilaciones dentro de la red, como la alternancia de pesos de conexión, y mejorar la tasa de convergencia, los refinamientos utilizan una tasa de aprendizaje adaptativo que aumenta o disminuye según corresponda. ^[122] El concepto de impulso permite ponderar el equilibrio entre el gradiente y el cambio anterior de manera que el ajuste de ponderación dependa hasta cierto punto del cambio anterior. Un impulso cercano a 0 enfatiza el gradiente, mientras que un valor cercano a 1 enfatiza el último cambio.

función de costo

Si bien es posible definir una función de costos ad hoc , frecuentemente la elección está determinada por las propiedades deseables de la función (como la convexidad ) o porque surge del modelo (por ejemplo, en un modelo probabilístico, la probabilidad posterior del modelo se puede utilizar como inversa). costo).

Propagación hacia atrás

La retropropagación es un método utilizado para ajustar los pesos de las conexiones para compensar cada error encontrado durante el aprendizaje. La cantidad de error se divide efectivamente entre las conexiones. Técnicamente, backprop calcula el gradiente (la derivada) de la función de costo asociada con un estado determinado con respecto a los pesos. Las actualizaciones de peso se pueden realizar mediante descenso de gradiente estocástico u otros métodos, como máquinas de aprendizaje extremas , ^[123] redes "sin apoyo", ^[124] entrenamiento sin retroceso, ^[125] redes "sin peso", ^[126]^{[127 ]} y redes neuronales no conexionistas . ^{[ cita necesaria ]}

Paradigmas de aprendizaje

El aprendizaje automático se suele dividir en tres paradigmas de aprendizaje principales: aprendizaje supervisado , ^[128] aprendizaje no supervisado ^[129] y aprendizaje por refuerzo . ^[130] Cada uno corresponde a una tarea de aprendizaje particular.

Aprendizaje supervisado

El aprendizaje supervisado utiliza un conjunto de entradas emparejadas y salidas deseadas. La tarea de aprendizaje es producir el resultado deseado para cada entrada. En este caso, la función de costos está relacionada con la eliminación de deducciones incorrectas. ^[131] Un costo comúnmente utilizado es el error cuadrático medio , que intenta minimizar el error cuadrático promedio entre la salida de la red y la salida deseada. Las tareas adecuadas para el aprendizaje supervisado son el reconocimiento de patrones (también conocido como clasificación) y la regresión (también conocida como aproximación de funciones). El aprendizaje supervisado también es aplicable a datos secuenciales (por ejemplo, para reconocimiento de escritura, voz y gestos ). Esto se puede considerar como un aprendizaje con un "maestro", en forma de una función que proporciona retroalimentación continua sobre la calidad de las soluciones obtenidas hasta el momento.

Aprendizaje sin supervisión

En el aprendizaje no supervisado , los datos de entrada se proporcionan junto con la función de costo, alguna función de los datos y la salida de la red. La función de costos depende de la tarea (el dominio del modelo) y de cualquier supuesto a priori (las propiedades implícitas del modelo, sus parámetros y las variables observadas). Como ejemplo trivial, considere el modelo donde es una constante y el costo . Minimizar este costo produce un valor de que es igual a la media de los datos. La función de costos puede ser mucho más complicada. Su forma depende de la aplicación: por ejemplo, en compresión podría estar relacionado con la información mutua entre y , mientras que en el modelado estadístico, podría estar relacionado con la probabilidad posterior del modelo dados los datos (tenga en cuenta que en ambos ejemplos , esas cantidades se maximizarían en lugar de minimizarse). Las tareas que caen dentro del paradigma del aprendizaje no supervisado son en general problemas de estimación ; las aplicaciones incluyen agrupamiento , estimación de distribuciones estadísticas , compresión y filtrado . $\textstyle x$ $\textstyle f(x)=a$ $\textstyle a$ $\textstyle C=E[(x-f(x))^{2}]$ $\textstyle a$ $\textstyle x$ $\textstyle f(x)$

Aprendizaje reforzado

En aplicaciones como los videojuegos, un actor realiza una serie de acciones y recibe una respuesta generalmente impredecible del entorno después de cada una. El objetivo es ganar el juego, es decir, generar las respuestas más positivas (de menor coste). En el aprendizaje por refuerzo , el objetivo es ponderar la red (idear una política) para realizar acciones que minimicen el costo a largo plazo (acumulado esperado). En cada momento el agente realiza una acción y el entorno genera una observación y un costo instantáneo , de acuerdo con algunas reglas (generalmente desconocidas). Las reglas y el coste a largo plazo normalmente sólo pueden estimarse. En cualquier momento, el agente decide si explorar nuevas acciones para descubrir sus costos o aprovechar el aprendizaje previo para proceder más rápidamente.

Formalmente, el entorno se modela como un proceso de decisión de Markov (MDP) con estados y acciones . Debido a que las transiciones de estado no se conocen, en su lugar se utilizan distribuciones de probabilidad: la distribución de costos instantáneos , la distribución de observaciones y la distribución de transición , mientras que una política se define como la distribución condicional sobre acciones dadas las observaciones. En conjunto, los dos definen una cadena de Markov (MC). El objetivo es descubrir el MC de menor coste. $\textstyle {s_{1},...,s_{n}}\in S$ $\textstyle {a_{1},...,a_{m}}\in A$ $\textstyle P(c_{t}|s_{t})$ $\textstyle P(x_{t}|s_{t})$ $\textstyle P(s_{t+1}|s_{t},a_{t})$

Las RNA sirven como componente de aprendizaje en dichas aplicaciones. ^[132]^[133] La programación dinámica junto con RNA (que brindan programación neurodinámica ) ^[134] se ha aplicado a problemas como los relacionados con el enrutamiento de vehículos , ^[135] videojuegos, gestión de recursos naturales ^[136]^[137] y medicina ^{[ 138]} debido a la capacidad de las RNA para mitigar las pérdidas de precisión incluso cuando se reduce la densidad de la red de discretización para aproximar numéricamente la solución de problemas de control. Las tareas que caen dentro del paradigma del aprendizaje por refuerzo son los problemas de control, los juegos y otras tareas secuenciales de toma de decisiones.

Auto aprendizaje

El autoaprendizaje en redes neuronales se introdujo en 1982 junto con una red neuronal capaz de autoaprendizaje denominada matriz adaptativa de barra cruzada (CAA). ^[139] Es un sistema con una sola entrada, situación s, y una sola salida, acción (o comportamiento) a. No cuenta con asesoramiento externo ni refuerzo externo del entorno. El CAA calcula, de forma transversal, tanto las decisiones sobre acciones como las emociones (sentimientos) sobre situaciones encontradas. El sistema está impulsado por la interacción entre la cognición y la emoción. ^[140] Dada la matriz de memoria, W =||w(a,s)||, el algoritmo de autoaprendizaje de barra cruzada en cada iteración realiza el siguiente cálculo:

 En la situación s realice la acción a; Recibir situaciones de consecuencia'; Calcular la emoción de estar en situación de consecuencia v(s'); Actualizar la memoria de la barra transversal w'(a,s) = w(a,s) + v(s').

El valor retropropagado (refuerzo secundario) es la emoción hacia la situación consecuencia. El CAA existe en dos entornos, uno es el entorno conductual donde se comporta, y el otro es el entorno genético, de donde inicialmente y sólo una vez recibe emociones iniciales a punto de encontrarse en situaciones en el entorno conductual. Habiendo recibido el vector genómico (vector de especie) del entorno genético, el CAA aprenderá un comportamiento de búsqueda de objetivos, en un entorno conductual que contiene situaciones tanto deseables como indeseables. ^[141]

Neuroevolución

La neuroevolución puede crear topologías y pesos de redes neuronales utilizando computación evolutiva . Es competitivo con enfoques sofisticados de descenso de gradiente ^{[ cita requerida ]} . Una ventaja de la neuroevolución es que puede ser menos propensa a quedar atrapada en "callejones sin salida". ^[142]

Red neuronal estocástica

Las redes neuronales estocásticas que se originan a partir de los modelos Sherrington-Kirkpatrick son un tipo de red neuronal artificial construida introduciendo variaciones aleatorias en la red, ya sea dando a las neuronas artificiales de la red funciones de transferencia estocásticas o dándoles pesos estocásticos. Esto los convierte en herramientas útiles para problemas de optimización , ya que las fluctuaciones aleatorias ayudan a la red a escapar de los mínimos locales . ^[143] Las redes neuronales estocásticas entrenadas utilizando un enfoque bayesiano se conocen como redes neuronales bayesianas . ^[144]

Otro

En un marco bayesiano , se elige una distribución sobre el conjunto de modelos permitidos para minimizar el costo. Los métodos evolutivos , ^[145] programación de expresión genética , ^[146] recocido simulado , ^[147] maximización de expectativas , métodos no paramétricos y optimización de enjambre de partículas ^[148] son otros algoritmos de aprendizaje. La recursividad convergente es un algoritmo de aprendizaje para redes neuronales del controlador de articulación del modelo cerebeloso (CMAC). ^[149]^[150]

Modos

Hay dos modos de aprendizaje disponibles: estocástico y por lotes. En el aprendizaje estocástico, cada entrada crea un ajuste de peso. En el aprendizaje por lotes, los pesos se ajustan en función de un lote de entradas, acumulando errores a lo largo del lote. El aprendizaje estocástico introduce "ruido" en el proceso, utilizando el gradiente local calculado a partir de un punto de datos; esto reduce la posibilidad de que la red se atasque en los mínimos locales. Sin embargo, el aprendizaje por lotes normalmente produce un descenso más rápido y estable a un mínimo local, ya que cada actualización se realiza en la dirección del error promedio del lote. Un compromiso común es utilizar "minilotes", lotes pequeños con muestras en cada lote seleccionadas estocásticamente de todo el conjunto de datos.

Tipos

Las RNA han evolucionado hasta convertirse en una amplia familia de técnicas que han avanzado en el estado del arte en múltiples dominios. Los tipos más simples tienen uno o más componentes estáticos, incluido el número de unidades, el número de capas, los pesos unitarios y la topología . Los tipos dinámicos permiten que uno o más de ellos evolucionen mediante el aprendizaje. Esto último es mucho más complicado pero puede acortar los períodos de aprendizaje y producir mejores resultados. Algunos tipos permiten/requieren que el operador "supervise" el aprendizaje, mientras que otros funcionan de forma independiente. Algunos tipos funcionan exclusivamente en hardware, mientras que otros son puramente software y se ejecutan en computadoras de uso general.

Algunos de los principales avances incluyen:

Redes neuronales convolucionales que han demostrado ser particularmente exitosas en el procesamiento de datos visuales y otros datos bidimensionales; ^[151]^[152] donde la memoria a largo plazo evita el problema del gradiente de desaparición ^[153] y puede manejar señales que tienen una combinación de componentes de baja y alta frecuencia que ayudan al reconocimiento del habla con un amplio vocabulario, ^[154]^[155 ] -síntesis de voz, ^[156]^[46]^[157] y cabezas parlantes fotorrealistas; ^[158]
Redes competitivas, como las redes generativas adversarias en las que múltiples redes (de diferente estructura) compiten entre sí, en tareas como ganar un juego ^[159] o engañar al oponente sobre la autenticidad de una entrada. ^[100]

Diseño de red

El uso de redes neuronales artificiales requiere comprender sus características.

Elección del modelo: Depende de la representación de los datos y de la aplicación. Los parámetros del modelo incluyen el número, el tipo y la conectividad de las capas de red, así como el tamaño de cada una y el tipo de conexión (completa, agrupada, etc.). Los modelos demasiado complejos aprenden lentamente.
Algoritmo de aprendizaje : existen numerosas compensaciones entre los algoritmos de aprendizaje. Casi cualquier algoritmo funcionará bien con los hiperparámetros correctos ^[160] para entrenar en un conjunto de datos en particular. Sin embargo, seleccionar y ajustar un algoritmo para entrenar con datos invisibles requiere una experimentación significativa.
Robustez : si el modelo, la función de costos y el algoritmo de aprendizaje se seleccionan adecuadamente, la ANN resultante puede volverse robusta.

La búsqueda de arquitectura neuronal (NAS) utiliza el aprendizaje automático para automatizar el diseño de ANN. Diversos enfoques de NAS han diseñado redes que se comparan bien con los sistemas diseñados manualmente. El algoritmo de búsqueda básico consiste en proponer un modelo candidato, evaluarlo frente a un conjunto de datos y utilizar los resultados como retroalimentación para enseñar a la red NAS. ^[161] Los sistemas disponibles incluyen AutoML y AutoKeras. ^[162] La biblioteca scikit-learn proporciona funciones para ayudar a construir una red profunda desde cero. Luego podemos implementar una red profunda con TensorFlow o Keras .

Los hiperparámetros también deben definirse como parte del diseño (no se aprenden), gobernando cuestiones como cuántas neuronas hay en cada capa, tasa de aprendizaje, paso, zancada, profundidad, campo receptivo y relleno (para CNN), ^{etc. 163]}

El fragmento de código de Python proporciona una descripción general de la función de entrenamiento, que utiliza el conjunto de datos de entrenamiento, la cantidad de unidades de capa oculta, la tasa de aprendizaje y la cantidad de iteraciones como parámetros:

def  tren ( X ,  y ,  n_hidden ,  tasa_de_aprendizaje ,  n_iter ): metro ,  n_entrada  =  X. forma # 1. ponderaciones y sesgos de inicialización aleatoria w1  =  np . aleatorio . randn ( n_entrada ,  n_oculto ) b1  =  np . ceros (( 1 ,  n_hidden )) w2  =  np . aleatorio . randn ( n_oculto ,  1 ) b2  =  np . ceros (( 1 ,  1 )) # 2. En cada iteración, alimente todas las capas con los pesos y sesgos más recientes. para  i  en  el rango ( n_iter  +  1 ): z2  =  np . punto ( X ,  w1 )  +  b1 a2  =  sigmoide ( z2 ) z3  =  np . punto ( a2 ,  w2 )  +  b2 a3  =  z3 dz3  =  a3  -  y dw2  =  np . punto ( a2 . T ,  dz3 ) db2  =  np . suma ( dz3 ,  eje = 0 ,  keepdims = Verdadero ) dz2  =  np . punto ( dz3 ,  w2 . T )  *  derivada_sigmoidea ( z2 ) dw1  =  np . punto ( X . T ,  dz2 ) db1  =  np . suma ( dz2 ,  eje = 0 ) # 3. actualizar pesos y sesgos con gradientes w1  -=  tasa_aprendizaje  *  dw1  /  m w2  -=  tasa_aprendizaje  *  dw2  /  m b1  -=  tasa_aprendizaje  *  db1  /  m b2  -=  tasa_aprendizaje  *  db2  /  m si  yo  %  1000  ==  0 : print ( "Época" ,  i ,  "pérdida:" ,  np . significa ( np . cuadrado ( dz3 ))) modelo  =  { "w1" :  w1 ,  "b1" :  b1 ,  "w2" :  w2 ,  "b2" :  b2 }  modelo de devolución

^{[ cita necesaria ]}

Aplicaciones

Debido a su capacidad para reproducir y modelar procesos no lineales, las redes neuronales artificiales han encontrado aplicaciones en muchas disciplinas. Éstas incluyen:

Aproximación de funciones , ^[164] o análisis de regresión , ^[165] (incluida la predicción de series de tiempo , aproximación de aptitud , ^[166] y modelado)
Procesamiento de datos ^[167] (incluido filtrado, agrupación, separación ciega de fuentes , ^[168] y compresión)
Identificación y control de sistemas no lineales ^[99] (incluido control de vehículos, predicción de trayectorias, ^[169] control adaptativo , control de procesos y gestión de recursos naturales )
Reconocimiento de patrones (incluidos sistemas de radar, identificación de rostros , clasificación de señales, ^[170] detección de novedades , reconstrucción 3D , ^[171] reconocimiento de objetos y toma de decisiones secuencial ^[172] )
Reconocimiento de secuencia (incluido reconocimiento de gestos , voz y texto escrito e impreso ^[173] )
Análisis de datos del sensor ^[174] (incluido el análisis de imágenes )
Robótica (incluida la dirección de manipuladores y prótesis )
Minería de datos (incluido el descubrimiento de conocimientos en bases de datos )
Finanzas ^[175] (como modelos ex ante para pronósticos financieros específicos a largo plazo y mercados financieros artificiales )
Química cuántica ^[176]
Juego general ^[177]
IA generativa ^[178]
Visualización de datos
Máquina traductora
Filtrado de redes sociales ^[179]
Filtrado de spam de correo electrónico
Diagnostico medico

Las RNA se han utilizado para diagnosticar varios tipos de cánceres ^[180]^[181] y para distinguir líneas celulares cancerosas altamente invasivas de líneas menos invasivas utilizando únicamente información sobre la forma de las células. ^[182]^[183]

Las RNA se han utilizado para acelerar el análisis de confiabilidad de infraestructuras sujetas a desastres naturales ^[184]^[185] y para predecir asentamientos de cimientos. ^[186] También puede ser útil mitigar las inundaciones mediante el uso de RNA para modelar la lluvia y la escorrentía. ^[187] Las RNA también se han utilizado para construir modelos de caja negra en geociencia : hidrología , ^[188]^[189] modelado oceánico e ingeniería costera , ^[190]^[191] y geomorfología . ^[192] Las RNA se han empleado en ciberseguridad , con el objetivo de discriminar entre actividades legítimas y maliciosas. Por ejemplo, el aprendizaje automático se ha utilizado para clasificar el malware de Android, ^[193] para identificar dominios que pertenecen a actores de amenazas y para detectar URL que representan un riesgo para la seguridad. ^[194] Se están realizando investigaciones sobre sistemas ANN diseñados para pruebas de penetración, para detectar botnets, ^[195] fraudes con tarjetas de crédito ^[196] e intrusiones en la red.

Las RNA se han propuesto como una herramienta para resolver ecuaciones diferenciales parciales en física ^[197]^[198]^{[199] y simular las propiedades de}sistemas cuánticos abiertos de muchos cuerpos . ^[200]^[201]^[202]^[203] En la investigación del cerebro, las RNA han estudiado el comportamiento a corto plazo de neuronas individuales , ^[204] la dinámica de los circuitos neuronales surge de las interacciones entre neuronas individuales y cómo el comportamiento puede surgir de módulos neuronales abstractos que representan subsistemas completos. Los estudios consideraron la plasticidad a largo y corto plazo de los sistemas neuronales y su relación con el aprendizaje y la memoria desde la neurona individual hasta el nivel del sistema.

Es posible crear un perfil de intereses de un usuario a partir de imágenes, utilizando redes neuronales artificiales entrenadas para el reconocimiento de objetos. ^[205]

Propiedades teóricas

Potencia de cálculo

El perceptrón multicapa es un aproximador de funciones universal , como lo demuestra el teorema de aproximación universal . Sin embargo, la prueba no es constructiva en cuanto al número de neuronas necesarias, la topología de la red, los pesos y los parámetros de aprendizaje.

Una arquitectura recurrente específica con pesos con valores racionales (a diferencia de pesos con valores numéricos reales de precisión total ) tiene el poder de una máquina de Turing universal , ^[206] que utiliza un número finito de neuronas y conexiones lineales estándar. Además, el uso de valores irracionales para los pesos da como resultado una máquina con poder de SuperTuring . ^[207]^[208]^{[ verificación fallida ]}

Capacidad

La propiedad de "capacidad" de un modelo corresponde a su capacidad para modelar cualquier función determinada. Está relacionado con la cantidad de información que se puede almacenar en la red y con la noción de complejidad. La comunidad conoce dos nociones de capacidad. La capacidad de información y la dimensión VC. La capacidad de información de un perceptrón se analiza intensamente en el libro de Sir David MacKay ^[209] , que resume el trabajo de Thomas Cover. ^[210] La capacidad de una red de neuronas estándar (no convolucionales) puede derivarse de cuatro reglas ^[211] que se derivan de entender una neurona como un elemento eléctrico. La capacidad de información captura las funciones modelables por la red dado cualquier dato como entrada. La segunda noción es la dimensión VC . VC Dimension utiliza los principios de la teoría de la medida y encuentra la capacidad máxima en las mejores circunstancias posibles. Es decir, dados los datos de entrada en una forma específica. Como se señala en ^[209] , la dimensión VC para entradas arbitrarias es la mitad de la capacidad de información de un perceptrón. La dimensión VC para puntos arbitrarios a veces se denomina capacidad de memoria. ^[212]

Convergencia

Es posible que los modelos no converjan consistentemente en una única solución, en primer lugar porque pueden existir mínimos locales, dependiendo de la función de costos y del modelo. En segundo lugar, es posible que el método de optimización utilizado no garantice la convergencia cuando comienza lejos de cualquier mínimo local. En tercer lugar, para datos o parámetros suficientemente grandes, algunos métodos resultan poco prácticos.

Otra cuestión que vale la pena mencionar es que el entrenamiento puede cruzar algún punto de silla que puede llevar la convergencia en la dirección equivocada.

El comportamiento de convergencia de ciertos tipos de arquitecturas ANN se comprende mejor que otros. Cuando el ancho de la red se acerca al infinito, la ANN está bien descrita por su expansión de Taylor de primer orden durante el entrenamiento y, por lo tanto, hereda el comportamiento de convergencia de los modelos afines . ^[213]^[214] Otro ejemplo es cuando los parámetros son pequeños, se observa que las RNA a menudo se ajustan a funciones objetivo de frecuencias bajas a altas. Este comportamiento se conoce como sesgo espectral o principio de frecuencia de las redes neuronales. ^[215]^[216]^[217]^[218] Este fenómeno es opuesto al comportamiento de algunos esquemas numéricos iterativos bien estudiados, como el método de Jacobi . Se ha observado que las redes neuronales más profundas están más sesgadas hacia funciones de baja frecuencia. ^[219]

Generalización y estadística.

Las aplicaciones cuyo objetivo es crear un sistema que se generalice bien a ejemplos invisibles se enfrentan a la posibilidad de un sobreentrenamiento. Esto surge en sistemas complicados o sobreespecificados cuando la capacidad de la red excede significativamente los parámetros libres necesarios. Dos enfoques abordan el sobreentrenamiento. La primera es utilizar validación cruzada y técnicas similares para comprobar la presencia de sobreentrenamiento y seleccionar hiperparámetros para minimizar el error de generalización.

El segundo es utilizar alguna forma de regularización . Este concepto surge en un marco probabilístico (bayesiano), donde la regularización se puede realizar seleccionando una probabilidad previa mayor en lugar de modelos más simples; pero también en la teoría del aprendizaje estadístico, donde el objetivo es minimizar dos cantidades: el "riesgo empírico" y el "riesgo estructural", que corresponde aproximadamente al error en el conjunto de entrenamiento y al error previsto en datos no vistos debido al sobreajuste.

Las redes neuronales supervisadas que utilizan una función de costo de error cuadrático medio (MSE) pueden utilizar métodos estadísticos formales para determinar la confianza del modelo entrenado. El MSE de un conjunto de validación se puede utilizar como estimación de la varianza. Luego, este valor se puede utilizar para calcular el intervalo de confianza de la salida de la red, suponiendo una distribución normal . Un análisis de confianza realizado de esta manera es estadísticamente válido siempre que la distribución de probabilidad de salida permanezca igual y la red no se modifique.

Al asignar una función de activación softmax , una generalización de la función logística , en la capa de salida de la red neuronal (o un componente softmax en una red basada en componentes) para variables objetivo categóricas, las salidas se pueden interpretar como probabilidades posteriores. Esto es útil en la clasificación ya que proporciona una medida de certeza sobre las clasificaciones.

La función de activación de softmax es:

y_{i}={\frac {e^{x_{i}}}{\sum _{j=1}^{c}e^{x_{j}}}}

Crítica

Capacitación

Una crítica común a las redes neuronales, particularmente en robótica, es que requieren demasiadas muestras de entrenamiento para su funcionamiento en el mundo real. ^[220] Cualquier máquina de aprendizaje necesita suficientes ejemplos representativos para capturar la estructura subyacente que le permita generalizar a nuevos casos. Las posibles soluciones incluyen ejemplos de entrenamiento aleatorios, mediante el uso de un algoritmo de optimización numérica que no da pasos demasiado grandes al cambiar las conexiones de red siguiendo un ejemplo, agrupando ejemplos en los llamados minilotes y/o introduciendo un algoritmo de mínimos cuadrados recursivo para CMAC. . ^[149] Dean Pomerleau utiliza una red neuronal para entrenar un vehículo robótico para conducir en múltiples tipos de carreteras (un solo carril, varios carriles, tierra, etc.), y una gran cantidad de su investigación se dedica a extrapolar múltiples escenarios de entrenamiento de una única experiencia de entrenamiento y preservar la diversidad de entrenamientos pasados para que el sistema no se sobreentrene (si, por ejemplo, se le presenta una serie de giros a la derecha, no debería aprender a girar siempre a la derecha). ^[221]

Teoría

Una afirmación central ^{[ cita necesaria ]} de las RNA es que incorporan principios generales nuevos y poderosos para procesar información. Estos principios están mal definidos. A menudo lo afirma ^{[ ¿quién? ]} que emergen de la propia red. Esto permite describir la asociación estadística simple (la función básica de las redes neuronales artificiales) como aprendizaje o reconocimiento. En 1997, Alexander Dewdney , ex columnista de Scientific American , comentó que, como resultado, las redes neuronales artificiales tienen una "cualidad de algo por nada, que imparte un aura peculiar de pereza y una clara falta de curiosidad sobre qué tan buenas son". Los sistemas informáticos lo son. No interviene ninguna mano (o mente) humana; las soluciones se encuentran como por arte de magia; y nadie, al parecer, ha aprendido nada". ^[222] Una respuesta a Dewdney es que las redes neuronales se han utilizado con éxito para manejar muchas tareas complejas y diversas, que van desde volar aviones de forma autónoma ^[223] hasta detectar fraudes con tarjetas de crédito y dominar el juego de Go .

El escritor de tecnología Roger Bridgman comentó:

Las redes neuronales, por ejemplo, están en el banquillo no sólo porque han sido exageradas (¿qué no?), sino también porque se podría crear una red exitosa sin comprender cómo funciona: el conjunto de números que capturan su El comportamiento sería con toda probabilidad "una tabla opaca e ilegible... sin valor como recurso científico".
A pesar de su enfática declaración de que la ciencia no es tecnología, Dewdney parece aquí poner en la picota a las redes neuronales como mala ciencia cuando la mayoría de quienes las diseñan simplemente intentan ser buenos ingenieros. Aún así valdría la pena tener una tabla ilegible que una máquina útil pudiera leer. ^[224]

Si bien es cierto que analizar lo aprendido por una red neuronal artificial es difícil, es mucho más fácil hacerlo que analizar lo aprendido por una red neuronal biológica. Además, el énfasis reciente en la explicabilidad de la IA ha contribuido al desarrollo de métodos, en particular aquellos basados en mecanismos de atención , para visualizar y explicar las redes neuronales aprendidas. Además, los investigadores involucrados en la exploración de algoritmos de aprendizaje para redes neuronales están descubriendo gradualmente principios genéricos que permiten que una máquina de aprendizaje tenga éxito. Por ejemplo, Bengio y LeCun (2007) escribieron un artículo sobre el aprendizaje local versus el no local, así como sobre la arquitectura superficial versus profunda. ^[225]

Los cerebros biológicos utilizan circuitos tanto superficiales como profundos, según lo informado por la anatomía del cerebro, ^[226] mostrando una amplia variedad de invariancia. Weng ^[227] argumentó que el cerebro se autoconecta en gran medida de acuerdo con las estadísticas de señales y, por lo tanto, una cascada en serie no puede captar todas las dependencias estadísticas importantes.

Hardware

Las redes neuronales grandes y eficaces requieren recursos informáticos considerables. ^[228] Si bien el cerebro tiene hardware diseñado para la tarea de procesar señales a través de un gráfico de neuronas, simular incluso una neurona simplificada en la arquitectura de von Neumann puede consumir grandes cantidades de memoria y almacenamiento. Además, el diseñador a menudo necesita transmitir señales a través de muchas de estas conexiones y sus neuronas asociadas, lo que requiere una enorme potencia y tiempo de CPU .

Schmidhuber señaló que el resurgimiento de las redes neuronales en el siglo XXI se puede atribuir en gran medida a los avances en el hardware: de 1991 a 2015, la potencia informática, especialmente la proporcionada por GPGPU (en GPU ), se ha multiplicado por un millón, lo que hace que la Algoritmo de retropropagación estándar factible para entrenar redes que son varias capas más profundas que antes. ^[26] El uso de aceleradores como FPGA y GPU puede reducir los tiempos de entrenamiento de meses a días. ^[228]

La ingeniería neuromórfica o una red neuronal física aborda la dificultad del hardware directamente, mediante la construcción de chips que no son de von Neumann para implementar directamente redes neuronales en los circuitos. Otro tipo de chip optimizado para el procesamiento de redes neuronales se llama Unidad de Procesamiento Tensorial o TPU. ^[229]

Contraejemplos prácticos

Analizar lo aprendido por una RNA es mucho más fácil que analizar lo aprendido por una red neuronal biológica. Además, los investigadores involucrados en la exploración de algoritmos de aprendizaje para redes neuronales están descubriendo gradualmente principios generales que permiten que una máquina de aprendizaje tenga éxito. Por ejemplo, aprendizaje local versus no local y arquitectura superficial versus profunda. ^[230]

Enfoques híbridos

Los defensores de los modelos híbridos (que combinan redes neuronales y enfoques simbólicos) dicen que dicha mezcla puede captar mejor los mecanismos de la mente humana. ^[231]^[232]

Sesgo del conjunto de datos

Las redes neuronales dependen de la calidad de los datos con los que están entrenadas, por lo que los datos de baja calidad con una representatividad desequilibrada pueden conducir al aprendizaje del modelo y perpetuar los sesgos sociales. ^[233]^[234] Estos sesgos heredados se vuelven especialmente críticos cuando las RNA se integran en escenarios del mundo real donde los datos de entrenamiento pueden estar desequilibrados debido a la escasez de datos para una raza, género u otro atributo específico. ^[233] Este desequilibrio puede dar como resultado que el modelo tenga una representación y comprensión inadecuadas de los grupos subrepresentados, lo que lleva a resultados discriminatorios que exasperan las desigualdades sociales, especialmente en aplicaciones como el reconocimiento facial , los procesos de contratación y la aplicación de la ley . ^[234]^[235] Por ejemplo, en 2018, Amazon tuvo que descartar una herramienta de contratación porque el modelo favorecía a los hombres sobre las mujeres para trabajos en ingeniería de software debido al mayor número de trabajadores masculinos en el campo. ^[235] El programa penalizaría cualquier currículum con la palabra "mujer" o el nombre de cualquier universidad para mujeres. Sin embargo, el uso de datos sintéticos puede ayudar a reducir el sesgo de los conjuntos de datos y aumentar la representación en los conjuntos de datos. ^[236]

Galería

Una red neuronal artificial feedforward de una sola capa. Las flechas que se originan en se omiten para mayor claridad. Hay p entradas a esta red y q salidas. En este sistema, el valor de la salida q, se calcula como $\scriptstyle x_{2}$ $y_{q}$ $\scriptstyle y_{q}=K*(\sum _{i}(x_{i}*w_{iq})-b_{q}).$
Una red neuronal artificial de dos capas
Una red neuronal artificial
Un gráfico de dependencia de ANN
Una red neuronal artificial feedforward de una sola capa con 4 entradas, 6 nodos ocultos y 2 salidas. Dado el estado de posición y la dirección, genera valores de control basados en la rueda.
Una red neuronal artificial feedforward de dos capas con 8 entradas, 2x8 nodos ocultos y 2 salidas. Dado el estado de posición, la dirección y otros valores ambientales, genera valores de control basados en el propulsor.
Estructura de canalización paralela de la red neuronal CMAC. Este algoritmo de aprendizaje puede converger en un solo paso.

Avances recientes y direcciones futuras

Las redes neuronales artificiales (RNA) han experimentado avances significativos, particularmente en su capacidad para modelar sistemas complejos, manejar grandes conjuntos de datos y adaptarse a diversos tipos de aplicaciones. Su evolución en las últimas décadas ha estado marcada por una amplia gama de aplicaciones en campos como el procesamiento de imágenes, el reconocimiento de voz, el procesamiento del lenguaje natural, las finanzas y la medicina.

Procesamiento de imágenes

En el ámbito del procesamiento de imágenes, las RNA se emplean en tareas como clasificación de imágenes, reconocimiento de objetos y segmentación de imágenes. Por ejemplo, las redes neuronales convolucionales profundas (CNN) han sido importantes en el reconocimiento de dígitos escritos a mano, logrando un rendimiento de última generación. ^[237] Esto demuestra la capacidad de las RNA para procesar e interpretar de manera efectiva información visual compleja, lo que lleva a avances en campos que van desde la vigilancia automatizada hasta las imágenes médicas. ^[237]

Reconocimiento de voz

Al modelar señales de voz, las RNA se utilizan para tareas como la identificación del hablante y la conversión de voz a texto. Las arquitecturas de redes neuronales profundas han introducido mejoras significativas en el reconocimiento continuo de voz de gran vocabulario, superando a las técnicas tradicionales. ^[237]^[238] Estos avances han permitido el desarrollo de sistemas activados por voz más precisos y eficientes, mejorando las interfaces de usuario en productos tecnológicos.

Procesamiento natural del lenguaje

En el procesamiento del lenguaje natural, las RNA se utilizan para tareas como clasificación de texto, análisis de sentimientos y traducción automática. Han permitido el desarrollo de modelos que pueden traducir con precisión entre idiomas, comprender el contexto y el sentimiento en los datos textuales y categorizar el texto según el contenido. ^[237]^[238] Esto tiene implicaciones para el servicio al cliente automatizado, la moderación de contenido y las tecnologías de comprensión del lenguaje.

Sistemas de control

En el dominio de los sistemas de control, las RNA se utilizan para modelar sistemas dinámicos para tareas como la identificación del sistema, el diseño de control y la optimización. Por ejemplo, las redes neuronales de retroalimentación profunda son importantes en las aplicaciones de control e identificación de sistemas.

Finanzas

Las ANN se utilizan para la predicción del mercado de valores y la calificación crediticia :

Al invertir, las RNA pueden procesar grandes cantidades de datos financieros, reconocer patrones complejos y pronosticar tendencias del mercado de valores, ayudando a los inversores y administradores de riesgos a tomar decisiones informadas. ^[237]
En la calificación crediticia, las ANN ofrecen evaluaciones personalizadas de la solvencia basadas en datos, lo que mejora la precisión de las predicciones de incumplimiento y automatiza el proceso de préstamo. ^[238]

Las RNA requieren datos de alta calidad y un ajuste cuidadoso, y su naturaleza de "caja negra" puede plantear desafíos en la interpretación. Sin embargo, los avances en curso sugieren que las RNA continúan desempeñando un papel en las finanzas, ofreciendo conocimientos valiosos y mejorando las estrategias de gestión de riesgos .

Medicamento

Las RNA pueden procesar y analizar grandes conjuntos de datos médicos. Mejoran la precisión del diagnóstico, especialmente al interpretar imágenes médicas complejas para la detección temprana de enfermedades y al predecir los resultados de los pacientes para una planificación de tratamiento personalizada. ^[238] En el descubrimiento de fármacos, las RNA aceleran la identificación de posibles fármacos candidatos y predicen su eficacia y seguridad, lo que reduce significativamente el tiempo y los costos de desarrollo. ^[237] Además, su aplicación en la medicina personalizada y el análisis de datos sanitarios permite terapias personalizadas y una gestión eficiente de la atención al paciente. ^[238] La investigación en curso tiene como objetivo abordar los desafíos pendientes, como la privacidad de los datos y la interpretabilidad del modelo, así como ampliar el alcance de las aplicaciones de RNA en medicina.

Creación de contenido

Las ANN, como las redes generativas adversarias ( GAN ) y los transformadores , se utilizan para la creación de contenido en numerosas industrias. ^[239] Esto se debe a que los modelos de aprendizaje profundo pueden aprender el estilo de un artista o músico a partir de enormes conjuntos de datos y generar obras de arte y composiciones musicales completamente nuevas. Por ejemplo, DALL-E es una red neuronal profunda entrenada en 650 millones de pares de imágenes y textos en Internet que puede crear obras de arte basadas en el texto ingresado por el usuario. ^[240] En el campo de la música, los transformadores se utilizan para crear música original para comerciales y documentales a través de empresas como AIVA y Jukedeck . ^[241] En la industria del marketing se utilizan modelos generativos para crear anuncios personalizados para los consumidores. ^[239] Además, las principales empresas cinematográficas se están asociando con empresas de tecnología para analizar el éxito financiero de una película, como la asociación entre Warner Bros y la empresa de tecnología Cinelytic establecida en 2020. ^[242] Además, las redes neuronales han encontrado usos en los videojuegos. creación, donde los personajes no jugadores (NPC) pueden tomar decisiones basadas en todos los personajes actualmente en el juego. ^[243]

Ver también

enlaces externos

Escuche este artículo ( 31 minutos )

Este archivo de audio se creó a partir de una revisión de este artículo con fecha del 27 de noviembre de 2011 y no refleja ediciones posteriores.

Una breve introducción a las redes neuronales (D. Kriesel): manuscrito bilingüe ilustrado sobre redes neuronales artificiales; Temas hasta el momento: perceptrones, retropropagación, funciones de base radial, redes neuronales recurrentes, mapas autoorganizados, redes de Hopfield.
Revisión de redes neuronales en ciencia de materiales
Tutorial de Redes Neuronales Artificiales en tres idiomas (Univ. Politécnica de Madrid)
Otra introducción a ANN
Próxima generación de redes neuronales - Google Tech Talks
Rendimiento de las redes neuronales
Redes neuronales e información
Sanderson, Grant (5 de octubre de 2017). "¿Pero qué es una red neuronal?". 3Azul1Marrón . Archivado desde el original el 7 de noviembre de 2021, a través de YouTube .

Notas

^ La dirección del " No Hands Across America " de 1995 requirió "sólo unas pocas ayudas humanas".

Referencias

^ Hardesty, Larry (14 de abril de 2017). "Explicado: redes neuronales". Oficina de noticias del MIT . Consultado el 2 de junio de 2022 .
^ Yang, ZR; Yang, Z. (2014). Física Biomédica Integral. Instituto Karolinska, Estocolmo, Suecia: Elsevier. pag. 1.ISBN 978-0-444-53633-4. Archivado desde el original el 28 de julio de 2022 . Consultado el 28 de julio de 2022 .
^ Obispo, Christopher M. (17 de agosto de 2006). Reconocimiento de patrones y aprendizaje automático . Nueva York: Springer. ISBN 978-0-387-31073-2.
^ ab Vapnik, Vladimir N.; Vapnik, Vladimir Naumovich (1998). La naturaleza de la teoría del aprendizaje estadístico (Segunda edición impresa corregida). Nueva York Berlín Heidelberg: Springer. ISBN 978-0-387-94559-0.
^ ab Ian Goodfellow, Yoshua Bengio y Aaron Courville (2016). Aprendizaje profundo. Prensa del MIT. Archivado desde el original el 16 de abril de 2016 . Consultado el 1 de junio de 2016 .
^ Ferrie, C.; Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 978-1-4926-7120-6.
^ Mansfield Merriman, "Una lista de escritos relacionados con el método de mínimos cuadrados"
^ Stigler, Stephen M. (1981). "Gauss y la invención de los mínimos cuadrados". Ana. Estadística . 9 (3): 465–474. doi : 10.1214/aos/1176345451 .
^ Bretscher, Otto (1995). Álgebra lineal con aplicaciones (3ª ed.). Upper Saddle River, Nueva Jersey: Prentice Hall.
^ abcdefghijkl Schmidhuber, Juergen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ Stigler, Stephen M. (1986). La historia de la estadística: la medición de la incertidumbre antes de 1900 . Cambridge: Harvard. ISBN 0-674-40340-1.
^ McCulloch, Warren; Walter Pitts (1943). "Un cálculo lógico de ideas inmanentes a la actividad nerviosa". Boletín de Biofísica Matemática . 5 (4): 115-133. doi :10.1007/BF02478259.
^ Kleene, Carolina del Sur (1956). "Representación de eventos en redes nerviosas y autómatas finitos". Anales de estudios de matemáticas . No. 34. Prensa de la Universidad de Princeton. págs. 3–41 . Consultado el 17 de junio de 2017 .
^ Hebb, Donald (1949). La organización del comportamiento. Nueva York: Wiley. ISBN 978-1-135-63190-1.
^ Farley, BG; WA Clark (1954). "Simulación de sistemas autoorganizados por ordenador digital". Transacciones IRE sobre teoría de la información . 4 (4): 76–84. doi :10.1109/TIT.1954.1057468.
^ Rochester, N.; JH Holland, LH Habit y WL Duda (1956). "Pruebas sobre una teoría del ensamblaje celular de la acción del cerebro, utilizando una gran computadora digital". Transacciones IRE sobre teoría de la información . 2 (3): 80–93. doi :10.1109/TIT.1956.1056810.
^ Haykin (2008) Redes neuronales y máquinas de aprendizaje, tercera edición
^ Rosenblatt, F. (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y organización de información en el cerebro". Revisión psicológica . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi :10.1037/h0042519. PMID 13602029. S2CID 12781225.
^ Werbos, PJ (1975). Más allá de la regresión: nuevas herramientas de predicción y análisis en las ciencias del comportamiento.
^ Rosenblatt, Frank (1957). "El perceptrón: un autómata que percibe y reconoce". Informe 85-460-1 . Laboratorio Aeronáutico de Cornell.
^ Olazarán, Mikel (1996). "Un estudio sociológico de la historia oficial de la controversia de los perceptrones". Estudios Sociales de la Ciencia . 26 (3): 611–659. doi :10.1177/030631296026003005. JSTOR 285702. S2CID 16786738.
^ ab Russel, Estuardo; Norvig, Peter (2010). Inteligencia artificial: un enfoque moderno (PDF) (3ª ed.). Estados Unidos de América: Pearson Education. págs. 16-28. ISBN 978-0-13-604259-4.
^ Minsky, Marvin; Papert, Seymour (1969). Perceptrones: una introducción a la geometría computacional. Prensa del MIT. ISBN 978-0-262-63022-1.
^ ab Russell, Stuart J.; Norvig, Peter (2021). Inteligencia artificial: un enfoque moderno . Serie Pearson en Inteligencia Artificial. Ming-wei Chang, Jacob Devlin, Anca Dragan, David Forsyth, Ian Goodfellow, Jitendra Malik, Vikash Mansinghka, Judea Pearl, Michael J. Wooldridge (4ª ed.). Hoboken, Nueva Jersey: Pearson. ISBN 978-0-13-461099-3.
^ Giacaglia, GP (2 de noviembre de 2022). Hacer pensar las cosas. Holloway. ISBN 978-1-952120-41-1. Consultado el 29 de diciembre de 2023 .
^ abc Schmidhuber, J. (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85-117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Ivakhnenko, AG (1973). Dispositivos cibernéticos de predicción. Corporación de Información CCM.
^ Ivakhnenko, AG; Lapa, Valentin Grigorevich (1967). Cibernética y técnicas de previsión. Pub americano Elsevier. Co.
^ Robbins, H .; Monro, S. (1951). "Un método de aproximación estocástica". Los anales de la estadística matemática . 22 (3): 400. doi : 10.1214/aoms/1177729586 .
^ Amari, Shun'ichi (1967). "Una teoría del clasificador de patrones adaptativos". Transacciones IEEE . CE (16): 279–307.
^ ab Schmidhuber, Juergen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
^ ab Kohonen, Teuvo; Honkela, Timo (2007). "Red Kohonen". Scholarpedia . 2 (1): 1568. Código bibliográfico : 2007SchpJ...2.1568K. doi : 10.4249/scholarpedia.1568 .
^ Kohonen, Teuvo (1982). "Formación autoorganizada de mapas de características topológicamente correctos". Cibernética biológica . 43 (1): 59–69. doi :10.1007/bf00337288. S2CID 206775459.
^ Von der Malsburg, C (1973). "Autoorganización de células sensibles a la orientación en la corteza estriada". Kybernetik . 14 (2): 85-100. doi :10.1007/bf00288907. PMID 4786750. S2CID 3351573.
^ Fukushima, Kunihiko (1980). "Neocognitron: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones que no se ve afectado por el cambio de posición" (PDF) . Cibernética biológica . 36 (4): 193–202. doi :10.1007/BF00344251. PMID 7370364. S2CID 206775608 . Consultado el 16 de noviembre de 2013 .
^ Fukushima, K. (1969). "Extracción de características visuales mediante una red multicapa de elementos de umbral analógicos". Transacciones IEEE sobre ciencia de sistemas y cibernética . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [cs.NE].
^ Leibniz, Gottfried Wilhelm Freiherr von (1920). Los primeros manuscritos matemáticos de Leibniz: traducidos de los textos latinos publicados por Carl Immanuel Gerhardt con notas críticas e históricas (Leibniz publicó la regla de la cadena en una memoria de 1676). Compañía editorial de corte abierta. ISBN 978-0-598-81846-1.
^ Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. págs. 6–7.
^ Linnainmaa, Seppo (1976). "Expansión de Taylor del error de redondeo acumulado". BIT Matemáticas Numéricas . 16 (2): 146–160. doi :10.1007/bf01931367. S2CID 122357351.
^ Griewank, Andreas (2012). "¿Quién inventó el modo inverso de diferenciación?". Historias de optimización . Documenta Matematica, Volumen Extra ISMP. págs. 389–400. S2CID 15568746.
^ Griewank, Andreas; Walther, Andrea (2008). Evaluación de derivados: principios y técnicas de diferenciación algorítmica, segunda edición. SIAM. ISBN 978-0-89871-776-1.
^ Rosenblatt, Frank (1962). Principios de neurodinámica . Espartano, Nueva York.
^ Kelley, Henry J. (1960). "Teoría del gradiente de rutas de vuelo óptimas". Diario ARS . 30 (10): 947–954. doi : 10.2514/8.5282.
^ "Un método de gradiente para optimizar los procesos de asignación de varias etapas". Actas de la Universidad de Harvard. Simposio sobre computadoras digitales y sus aplicaciones . Abril de 1961.
^ abc Schmidhuber, Jürgen (2015). "Aprendizaje profundo". Scholarpedia . 10 (11): 85-117. Código Bib : 2015SchpJ..1032832S. doi : 10.4249/scholarpedia.32832 .
^ Dreyfus, Stuart E. (1 de septiembre de 1990). "Redes neuronales artificiales, retropropagación y procedimiento de gradiente de Kelley-Bryson". Revista de orientación, control y dinámica . 13 (5): 926–928. Código bibliográfico : 1990JGCD...13..926D. doi :10.2514/3.25422. ISSN 0731-5090.
^ Mizutani, E.; Dreyfus, SE ; Nishio, K. (2000). "Sobre la derivación de la retropropagación de MLP a partir de la fórmula del gradiente de control óptimo de Kelley-Bryson y su aplicación". Actas de la conferencia conjunta internacional IEEE-INNS-ENNS sobre redes neuronales. IJCNN 2000. Computación neuronal: nuevos desafíos y perspectivas para el nuevo milenio . IEEE. págs. 167-172 vol.2. doi :10.1109/ijcnn.2000.857892. ISBN 0-7695-0619-4. S2CID 351146.
^ Dreyfus, Estuardo (1973). "La solución computacional de problemas de control óptimo con desfase temporal". Transacciones IEEE sobre control automático . 18 (4): 383–385. doi :10.1109/tac.1973.1100330.
^ Werbos, Paul (1982). «Aplicaciones de los avances en análisis de sensibilidad no lineal» (PDF) . Modelado y optimización de sistemas . Saltador. págs. 762–770. Archivado (PDF) desde el original el 14 de abril de 2016 . Consultado el 2 de julio de 2017 .
^ David E. Rumelhart, Geoffrey E. Hinton y Ronald J. Williams, "Aprendizaje de representaciones mediante errores de retropropagación Archivado el 8 de marzo de 2021 en Wayback Machine ", Nature , 323, páginas 533–536 1986.
^ Pincel, Stephen G. (1967). "Historia del modelo Lenz-Ising". Reseñas de Física Moderna . 39 (4): 883–893. Código bibliográfico : 1967RvMP...39..883B. doi :10.1103/RevModPhys.39.883.
^ Amari, Shun-Ichi (1972). "Patrones de aprendizaje y secuencias de patrones mediante redes autoorganizadas de elementos de umbral". Transacciones IEEE . C (21): 1197-1206.
^ Barth, Peter F. (1981). Cooperatividad y comportamiento de transición de grandes redes neuronales (tesis de maestría). Burlington: Universidad de Vermont. OCLC 8231704.
^ Krizan, JE; Barth, PF ; Glasser, ML (1983). "Transiciones de fase exactas para el modelo Ising en el árbol Cayley cerrado". Física . North-Holland Publishing Co. 119A : 230–242. doi :10.1016/0378-4371(83)90157-7.
^ Glasser, ML; Goldberg, M. (1983), "El modelo de Ising en un árbol de Cayley cerrado", Physica , 117A (2–3): 670–672, Bibcode :1983PhyA..117..670G, doi :10.1016/0378-4371( 83)90138-3
^ Hopfield, JJ (1982). "Redes neuronales y sistemas físicos con habilidades computacionales colectivas emergentes". Procedimientos de la Academia Nacional de Ciencias . 79 (8): 2554–2558. Código bibliográfico : 1982PNAS...79.2554H. doi : 10.1073/pnas.79.8.2554 . PMC 346238 . PMID 6953413.
^ Waibel, Alex (diciembre de 1987). "Reconocimiento de fonemas mediante redes neuronales con retardo de tiempo ". Reunión del Instituto de Ingenieros Eléctricos, de la Información y las Comunicaciones (IEICE). Tokio, Japón.
^ Alexander Waibel et al., Reconocimiento de fonemas mediante redes neuronales con retardo de tiempo Transacciones IEEE sobre acústica, habla y procesamiento de señales, volumen 37, núm. 3, págs. 328. - 339 de marzo de 1989.
^ Zhang, Wei (1988). "Red neuronal de reconocimiento de patrones de cambio invariante y su arquitectura óptica". Actas de la conferencia anual de la Sociedad Japonesa de Física Aplicada .
^ Zhang, Wei (1990). "Modelo de procesamiento distribuido paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica". Óptica Aplicada . 29 (32): 4790–7. Código Bib : 1990ApOpt..29.4790Z. doi :10.1364/AO.29.004790. PMID 20577468.
^ LeCun y otros. , "Retropropagación aplicada al reconocimiento de códigos postales escritos a mano", Neural Computation , 1, págs. 541–551, 1989.
^ J. Weng, N. Ahuja y TS Huang, "Cresceptron: una red neuronal autoorganizada que crece de forma adaptativa Archivado el 21 de septiembre de 2017 en Wayback Machine ", Proc. Conferencia conjunta internacional sobre redes neuronales , Baltimore, Maryland, vol I, págs. 576–581, junio de 1992.
^ J. Weng, N. Ahuja y TS Huang, "Aprendizaje del reconocimiento y segmentación de objetos tridimensionales a partir de imágenes bidimensionales Archivado el 21 de septiembre de 2017 en Wayback Machine ", Proc. IV Congreso Internacional. Computer Vision , Berlín, Alemania, págs. 121-128, mayo de 1993.
^ J. Weng, N. Ahuja y TS Huang, "Reconocimiento y segmentación del aprendizaje mediante Cresceptron Archivado el 25 de enero de 2021 en Wayback Machine ", International Journal of Computer Vision , vol. 25, núm. 2, págs. 105-139, noviembre de 1997.
^ LeCun, Yann; León Bottou; Yoshua Bengio; Patricio Haffner (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" (PDF) . Actas del IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . doi :10.1109/5.726791. S2CID 14542261 . Consultado el 7 de octubre de 2016 .
^ Qian, Ning y Terrence J. Sejnowski. "Predecir la estructura secundaria de proteínas globulares mediante modelos de redes neuronales". Revista de biología molecular 202, no. 4 (1988): 865-884.
^ Bohr, Henrik, Jakob Bohr, Søren Brunak, Rodney MJ Cotterill, Benny Lautrup, Leif Nørskov, Ole H. Olsen y Steffen B. Petersen. "Estructura secundaria de proteínas y homología por redes neuronales. Las hélices α en rodopsina". Cartas FEBS 241, (1988): 223-228
^ Rost, Burkhard y Chris Sander. "Predicción de la estructura secundaria de proteínas con una precisión superior al 70%". Revista de biología molecular 232, no. 2 (1993): 584-599.
^ ab S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen Archivado el 6 de marzo de 2015 en Wayback Machine ", Tesis de diploma. Instituto f. Informática, Universidad Técnica. Munich. Asesor: J. Schmidhuber , 1991.
^ Hochreiter, S.; et al. (15 de enero de 2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo". En Kolen, John F.; Kremer, Stefan C. (eds.). Una guía de campo para redes dinámicas recurrentes . John Wiley e hijos. ISBN 978-0-7803-5369-5.
^ Schmidhuber, Jürgen (1991). "Una posibilidad para implementar la curiosidad y el aburrimiento en los controladores neuronales de construcción de modelos". Proc. SAB'1991 . Prensa del MIT/Libros Bradford. págs. 222-227.
^ Schmidhuber, Jürgen (2010). "Teoría formal de la creatividad, la diversión y la motivación intrínseca (1990-2010)". Transacciones IEEE sobre desarrollo mental autónomo . 2 (3): 230–247. doi :10.1109/TAMD.2010.2056368. S2CID 234198.
^ Schmidhuber, Jürgen (2020). "Las redes generativas adversas son casos especiales de curiosidad artificial (1990) y también están estrechamente relacionadas con la minimización de la previsibilidad (1991)". Redes neuronales . 127 : 58–66. arXiv : 1906.04493 . doi :10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
^ ab Schmidhuber, Jürgen (1992). "Aprendizaje de secuencias extendidas y complejas utilizando el principio de compresión histórica" (PDF) . Computación neuronal . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID 18271205.
^ Schmidhuber, Jürgen (1 de noviembre de 1992). "Aprender a controlar los recuerdos de peso rápido: una alternativa a las redes recurrentes". Computación neuronal . 4 (1): 131-139. doi :10.1162/neco.1992.4.1.131. S2CID 16683347.
^ Schlag, Imanol; Irie, Kazuki; Schmidhuber, Jürgen (2021). "Los transformadores lineales son programadores de peso secretamente rápidos". ICML 2021 . Saltador. págs. 9355–9366.
^ Choromanski, Krzysztof; Likhosherstov, Valerii; Dohan, David; Canción, Xingyou; Gane, Andreea; Sarlos, Tamas; Hawkins, Peter; Davis, Jared; Mohiuddin, Afroz; Káiser, Lukasz; Belanger, David; Colwell, Lucy; Weller, Adrián (2020). "Repensar la atención con los artistas intérpretes o ejecutantes". arXiv : 2009.14794 [cs.CL].
^ Schmidhuber, Jürgen (1993). "Reducir la relación entre la complejidad del aprendizaje y el número de variables que varían en el tiempo en redes totalmente recurrentes". ICANN 1993 . Saltador. págs. 460–463.
^ Hidromiel, Carver A .; Ismail, Mohammed (8 de mayo de 1989). Implementación VLSI analógica de sistemas neuronales (PDF) . Serie Internacional Kluwer en Ingeniería e Informática. vol. 80. Norwell, MA: Editores académicos de Kluwer . doi :10.1007/978-1-4613-1639-8. ISBN 978-1-4613-1639-8. Archivado (PDF) desde el original el 6 de noviembre de 2019 . Consultado el 24 de enero de 2020 .
^ Domingos, Pedro (22 de septiembre de 2015). "Capítulo 4". El algoritmo maestro: cómo la búsqueda de la máquina de aprendizaje definitiva rehará nuestro mundo . Libros básicos . ISBN 978-0-465-06570-7.
^ Hochreiter, Sepp; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
^ Schmidhuber, J. (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85-117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Gers, Félix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Aprender a olvidar: predicción continua con LSTM". 9ª Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99 . vol. 1999, págs. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
^ Smolensky, P. (1986). "Procesamiento de información en sistemas dinámicos: fundamentos de la teoría de la armonía". En DE Rumelhart; JL McClelland; Grupo de Investigación PDP (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición. vol. 1. págs. 194–281. ISBN 978-0-262-68053-0.
^ Ng, Andrés; Decano, Jeff (2012). "Creación de funciones de alto nivel mediante aprendizaje no supervisado a gran escala". arXiv : 1112.6209 [cs.LG].
^ Hinton, GE ; Osindero, S.; Teh, Y. (2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Computación neuronal . 18 (7): 1527-1554. CiteSeerX 10.1.1.76.1541 . doi :10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950.
^ Fukushima, K. (1980). "Neocognitron: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones que no se ve afectado por el cambio de posición". Cibernética biológica . 36 (4): 93-202. doi :10.1007/BF00344251. PMID 7370364. S2CID 206775608.
^ Riesenhuber, M.; Poggio, T. (1999). "Modelos jerárquicos de reconocimiento de objetos en la corteza". Neurociencia de la Naturaleza . 2 (11): 1019-1025. doi :10.1038/14819. PMID 10526343. S2CID 8920227.
^ Yang, JJ; et al. (2008). "Mecanismo de conmutación memristivo para nanodispositivos de metal/óxido/metal". Nat. Nanotecnología. 3 (7): 429–433. doi :10.1038/nnano.2008.160. PMID 18654568.
^ Strukov, DB; et al. (2008). "Se encontró el memristor faltante". Naturaleza . 453 (7191): 80–83. Código Bib :2008Natur.453...80S. doi : 10.1038/naturaleza06932. PMID 18451858. S2CID 4367148.
^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca María; Schmidhuber, Jürgen (21 de septiembre de 2010). "Redes neuronales profundas, grandes y simples para el reconocimiento de dígitos escritos a mano". Computación neuronal . 22 (12): 3207–3220. arXiv : 1003.0358 . doi :10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
^ Dominik Scherer, Andreas C. Müller y Sven Behnke: "Evaluación de operaciones de agrupación en arquitecturas convolucionales para el reconocimiento de objetos Archivado el 3 de abril de 2018 en Wayback Machine ", en la vigésima conferencia internacional sobre redes neuronales artificiales (ICANN) , págs. , 2010. doi :10.1007/978-3-642-15825-4_10.
^ Entrevista de Kurzweil AI 2012 Archivada el 31 de agosto de 2018 en Wayback Machine con Juergen Schmidhuber sobre las ocho competencias ganadas por su equipo de aprendizaje profundo 2009-2012
^ "Cómo el aprendizaje profundo bioinspirado sigue ganando concursos | KurzweilAI". www.kurzweilai.net . Archivado desde el original el 31 de agosto de 2018 . Consultado el 16 de junio de 2017 .
^ ab Graves, Alex; Schmidhuber, Jürgen (2009). "Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales" (PDF) . En Koller, D.; Schuurmans, Dale; Bengio, Yoshua; Bottou, L. (eds.). Avances en los sistemas de procesamiento de información neuronal 21 (NIPS 2008). Fundación de Sistemas de Procesamiento de Información Neural (NIPS). págs. 545–552. ISBN 978-1-60560-949-2.
^ ab Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (mayo de 2009). "Un novedoso sistema conexionista para el reconocimiento de escritura a mano sin restricciones" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 31 (5): 855–868. CiteSeerX 10.1.1.139.4502 . doi :10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860. S2CID 14635907. Archivado (PDF) desde el original el 2 de enero de 2014 . Consultado el 30 de julio de 2014 .
^ Ciresano, Dan; Meier, U.; Schmidhuber, J. (junio de 2012). "Redes neuronales profundas de varias columnas para clasificación de imágenes". Conferencia IEEE 2012 sobre visión por computadora y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . Código Bib : 2012arXiv1202.2745C. CiteSeerX 10.1.1.300.3283 . doi :10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
^ ab Billings, SA (2013). Identificación de sistemas no lineales: métodos NARMAX en los dominios de tiempo, frecuencia y espacio-temporal . Wiley. ISBN 978-1-119-94359-4.
^ ab Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aarón; Bengio, Yoshua (2014). Redes generativas adversarias (PDF) . Actas de la Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS 2014). págs. 2672–2680. Archivado (PDF) desde el original el 22 de noviembre de 2019 . Consultado el 20 de agosto de 2019 .
^ "Prepárese, que no cunda el pánico: medios sintéticos y deepfakes". testigo.org. Archivado desde el original el 2 de diciembre de 2020 . Consultado el 25 de noviembre de 2020 .
^ "GAN 2.0: generador de rostros hiperrealista de NVIDIA". SyncedReview.com . 14 de diciembre de 2018 . Consultado el 3 de octubre de 2019 .
^ Karras, Tero; Aila, Timo; Laine, Samuli; Lehtinen, Jaakko (1 de octubre de 2017). "Crecimiento progresivo de GAN para mejorar la calidad, la estabilidad y la variación". arXiv : 1710.10196 [cs.NE].
^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 de mayo de 2015). "Redes de Carreteras". arXiv : 1505.00387 [cs.LG].
^ Srivastava, Rupesh K; Greff, Klaus; Schmidhuber, Jürgen (2015). "Entrenamiento de redes muy profundas". Avances en los sistemas de procesamiento de información neuronal . Curran Associates, Inc. 28 : 2377–2385.
^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2016). Aprendizaje residual profundo para el reconocimiento de imágenes. Conferencia IEEE 2016 sobre visión por computadora y reconocimiento de patrones (CVPR) . Las Vegas, NV, EE. UU.: IEEE. págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, León; Gómez, Aidán N.; Káiser, Lukasz; Polosukhin, Illia (12 de junio de 2017). "Todo lo que necesita es atención". arXiv : 1706.03762 [cs.CL].
^ Lobo, Thomas; Debut, Lisandro; Sanh, Víctor; Chaumond, Julien; Delangue, Clemente; Yo, Antonio; Cistac, Pierric; Rault, Tim; Louf, Rémi; Funtowicz, Morgan; Davison, Joe; Shleifer, Sam; Von Platen, Patrick; Mamá, Clara; Jernita, Yacine; Plu, Julien; Xu, Canwen; Le Scao, Teven; Gugger, Sylvain; Drama, Mariama; Lhoest, Quentin; Rush, Alejandro (2020). "Transformers: procesamiento del lenguaje natural de última generación". Actas de la Conferencia de 2020 sobre métodos empíricos en el procesamiento del lenguaje natural: demostraciones de sistemas . págs. 38–45. doi :10.18653/v1/2020.emnlp-demos.6. S2CID 208117506.
^ Él, Cheng (31 de diciembre de 2021). "Transformador en CV". Transformador en CV . Hacia la ciencia de datos.
^ [Ramezanpour, A.; Haz, AL; Chen, JH; Mashaghi, A. Física estadística para diagnóstico médico: algoritmos de aprendizaje, inferencia y optimización. Diagnóstico 2020, 10, 972.]
^ ab Zell, Andreas (2003). "capítulo 5.2". Simulación neuronaler Netze [ Simulación de redes neuronales ] (en alemán) (1ª ed.). Addison-Wesley. ISBN 978-3-89319-554-1. OCLC 249017987.
^ Inteligencia artificial (3ª ed.). Pub Addison-Wesley. Co. 1992. ISBN 0-201-53377-4.
^ Abad, Maysam F. (2007). "Aplicación de la Inteligencia Artificial al Manejo del Cáncer Urológico". La Revista de Urología . 178 (4): 1150-1156. doi :10.1016/j.juro.2007.05.122. PMID 17698099.
^ Dawson, Christian W. (1998). "Un enfoque de red neuronal artificial para la modelización de precipitaciones y escorrentía". Revista de Ciencias Hidrológicas . 43 (1): 47–66. Código Bib : 1998HydSJ..43...47D. doi : 10.1080/02626669809492102 .
^ "El diccionario de aprendizaje automático". www.cse.unsw.edu.au. Archivado desde el original el 26 de agosto de 2018 . Consultado el 4 de noviembre de 2009 .
^ Ciresano, Dan; Ueli Meier; Jonathan Masci; Luca M. Gambardella; Jürgen Schmidhuber (2011). "Redes neuronales convolucionales flexibles y de alto rendimiento para clasificación de imágenes" (PDF) . Actas de la vigésima segunda conferencia internacional conjunta sobre inteligencia artificial, volumen dos . 2 : 1237-1242. Archivado (PDF) desde el original el 5 de abril de 2022 . Consultado el 7 de julio de 2022 .
^ Zell, Andreas (1994). Simulación Neuronaler Netze [ Simulación de redes neuronales ] (en alemán) (1ª ed.). Addison-Wesley. pag. 73.ISBN 3-89319-554-8.
^ Miljanovic, Milos (febrero-marzo de 2012). "Análisis comparativo de redes neuronales de respuesta a impulsos finitos y recurrentes en la predicción de series temporales" (PDF) . Revista india de informática e ingeniería . 3 (1).
^ Lau, Suki (10 de julio de 2017). "Un recorrido por la red neuronal convolucional: ajuste de hiperparámetros". Medio . Archivado desde el original el 4 de febrero de 2023 . Consultado el 23 de agosto de 2019 .
^ Kelleher, John D.; Mac Namee, Brian; D'Arcy, Aoife (2020). "7-8". Fundamentos del aprendizaje automático para el análisis de datos predictivos: algoritmos, ejemplos resueltos y estudios de casos (2ª ed.). Cambridge, MA: The MIT Press. ISBN 978-0-262-36110-1. OCLC 1162184998.
^ Wei, Jiakai (26 de abril de 2019). "Olvídese de la tasa de aprendizaje, la pérdida por deterioro". arXiv : 1905.00094 [cs.LG].
^ Li, Y.; Fu, Y.; Li, H.; Zhang, SW (1 de junio de 2009). "El algoritmo de entrenamiento mejorado de la red neuronal de retropropagación con tasa de aprendizaje autoadaptativa". 2009 Congreso Internacional sobre Inteligencia Computacional y Computación Natural . vol. 1. págs. 73–76. doi :10.1109/CINC.2009.111. ISBN 978-0-7695-3645-3. S2CID 10557754.
^ Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Máquina de aprendizaje extremo: teoría y aplicaciones". Neurocomputación . 70 (1): 489–501. CiteSeerX 10.1.1.217.3692 . doi : 10.1016/j.neucom.2005.12.126. S2CID 116858.
^ Viuda, Bernard; et al. (2013). "El algoritmo sin accesorios: un nuevo algoritmo de aprendizaje para redes neuronales multicapa". Redes neuronales . 37 : 182–188. doi :10.1016/j.neunet.2012.09.020. PMID 23140797.
^ Ollivier, Yann; Charpiat, Guillaume (2015). "Formación de redes recurrentes sin retroceso". arXiv : 1507.07680 [cs.NE].
^ Hinton, GE (2010). "Una guía práctica para el entrenamiento de máquinas Boltzmann restringidas". Tecnología. Representante UTML TR 2010-003 . Archivado desde el original el 9 de mayo de 2021 . Consultado el 27 de junio de 2017 .
^ ESANN. 2009. ^{[ cita completa necesaria ]}
^ Bernard, Etienne (2021). Introducción al aprendizaje automático. Champaña: Wolfram Media. pag. 9.ISBN 978-1-57955-048-6. Consultado el 22 de marzo de 2023 .
^ Bernard, Etienne (2021). Introducción al aprendizaje automático. Champaña: Wolfram Media. pag. 12.ISBN 978-1-57955-048-6. Consultado el 22 de marzo de 2023 .
^ Bernard, Etienne (2021). Introducción al aprendizaje automático. Wolfram Media Inc. pág. 9.ISBN 978-1-579550-48-6.
^ Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 de abril de 2017). "Diseño metaheurístico de redes neuronales feedforward: una revisión de dos décadas de investigación". Aplicaciones de ingeniería de la inteligencia artificial . 60 : 97-116. arXiv : 1705.05584 . Código Bib : 2017arXiv170505584O. doi : 10.1016/j.engappai.2017.01.013. S2CID 27910748.
^ Domingo, S.; Das, R.; Whitley, D.; Anderson, C. (julio de 1991). "Aprendizaje por refuerzo genético para redes neuronales" . IJCNN-91-Conferencia conjunta internacional de Seattle sobre redes neuronales . IJCNN-91-Conferencia conjunta internacional de Seattle sobre redes neuronales. Seattle, Washington, Estados Unidos: IEEE. págs. 71–76. doi :10.1109/IJCNN.1991.155315. ISBN 0-7803-0164-1.
^ Hoskins, JC; Himmelblau, DM (1992). "Control de procesos mediante redes neuronales artificiales y aprendizaje por refuerzo". Informática e Ingeniería Química . 16 (4): 241–251. doi :10.1016/0098-1354(92)80045-B.
^ Bertsekas, DP; Tsitsiklis, JN (1996). Programación neurodinámica. Atenas científica. pag. 512.ISBN 978-1-886529-10-6. Archivado desde el original el 29 de junio de 2017 . Consultado el 17 de junio de 2017 .
^ Secomandi, Nicola (2000). "Comparación de algoritmos de programación neurodinámica para el problema de rutas de vehículos con demandas estocásticas". Investigación de operaciones y computadoras . 27 (11-12): 1201-1225. CiteSeerX 10.1.1.392.4034 . doi :10.1016/S0305-0548(99)00146-X.
^ de Rigo, D.; Rizzoli, AE; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). "Programación neurodinámica para la gestión eficiente de redes de embalses". Actas de MODSIM 2001, Congreso Internacional sobre Modelado y Simulación . MODSIM 2001, Congreso Internacional de Modelado y Simulación. Canberra, Australia: Sociedad de Modelado y Simulación de Australia y Nueva Zelanda. doi :10.5281/zenodo.7481. ISBN 0-86740-525-2. Archivado desde el original el 7 de agosto de 2013 . Consultado el 29 de julio de 2013 .
^ Damas, M.; Salmerón, M.; Díaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). "Algoritmos genéticos y programación neurodinámica: aplicación a las redes de abastecimiento de agua". Actas del Congreso de 2000 sobre Computación Evolutiva . 2000 Congreso de Computación Evolutiva. vol. 1. La Jolla, California, Estados Unidos: IEEE. págs. 7-14. doi :10.1109/CEC.2000.870269. ISBN 0-7803-6375-2.
^ Deng, Geng; Ferris, MC (2008). "Programación neurodinámica para la planificación de radioterapia fraccionada". Optimización en Medicina . Optimización Springer y sus aplicaciones. vol. 12. págs. 47–70. CiteSeerX 10.1.1.137.8288 . doi :10.1007/978-0-387-73299-2_3. ISBN 978-0-387-73298-5.
^ Bozinovski, S. (1982). "Un sistema de autoaprendizaje mediante refuerzo secundario". En R. Trappl (ed.) Investigación en cibernética y sistemas: Actas de la sexta reunión europea sobre investigación en cibernética y sistemas. Holanda del Norte. págs. 397–402. ISBN 978-0-444-86488-8 .
^ Bozinovski, S. (2014) "Modelado de mecanismos de interacción cognición-emoción en redes neuronales artificiales, desde 1981 Archivado el 23 de marzo de 2019 en Wayback Machine ". Procedia Ciencias de la Computación pág. 255-263
^ Bozinovski, Stevo; Bozinovska, Liljana (2001). "Agentes de autoaprendizaje: una teoría conexionista de la emoción basada en el juicio de valor transversal". Cibernética y Sistemas . 32 (6): 637–667. doi :10.1080/01969720118145. S2CID 8944741.
^ "La inteligencia artificial puede 'evolucionar' para resolver problemas". Ciencia | AAAS . 10 de enero de 2018. Archivado desde el original el 9 de diciembre de 2021 . Consultado el 7 de febrero de 2018 .
^ Turchetti, Claudio (2004), Modelos estocásticos de redes neuronales , Fronteras en inteligencia artificial y aplicaciones: sistemas de ingeniería inteligentes basados en el conocimiento, vol. 102, Prensa IOS, ISBN 978-1-58603-388-0
^ Jospin, Laurent Valentín; Laga, Hamid; Boussaid, Farid; Buntine, Wray; Bennamoun, Mohammed (2022). "Redes neuronales bayesianas prácticas: un tutorial para usuarios de aprendizaje profundo". Revista de Inteligencia Computacional IEEE . vol. 17, núm. 2. págs. 29–48. arXiv : 2007.06823 . doi :10.1109/mci.2022.3155327. ISSN 1556-603X. S2CID 220514248.
^ de Rigo, D.; Castelletti, A.; Rizzoli, AE; Soncini-Sessa, R.; Weber, E. (enero de 2005). "Una técnica de mejora selectiva para fijar la programación neurodinámica en la gestión de redes de recursos hídricos". En Pavel Zítek (ed.). Actas del 16º Congreso Mundial de la IFAC - IFAC-PapersOnLine . 16º Congreso Mundial de la IFAC. vol. 16. Praga, República Checa: IFAC. págs. 7-12. doi :10.3182/20050703-6-CZ-1902.02172. hdl : 11311/255236 . ISBN 978-3-902661-75-3. Archivado desde el original el 26 de abril de 2012 . Consultado el 30 de diciembre de 2011 .
^ Ferreira, C. (2006). "Diseño de redes neuronales mediante programación de expresión genética". En A. Abraham; B. de Baets; M. Köppen; B. Nickolay (eds.). Tecnologías de informática blanda aplicadas: el desafío de la complejidad (PDF) . Springer-Verlag. págs. 517–536. Archivado (PDF) desde el original el 19 de diciembre de 2013 . Consultado el 8 de octubre de 2012 .
^ Papá, Y.; Xiurun, G. (julio de 2005). "Una ANN mejorada basada en PSO con técnica de recocido simulado". En T. Villmann (ed.). Nuevos aspectos de la neurocomputación: XI Simposio europeo sobre redes neuronales artificiales . vol. 63. Elsevier. págs. 527–533. doi :10.1016/j.neucom.2004.07.002. Archivado desde el original el 25 de abril de 2012 . Consultado el 30 de diciembre de 2011 .
^ Wu, J.; Chen, E. (mayo de 2009). "Un nuevo conjunto de regresión no paramétrica para el pronóstico de precipitaciones utilizando una técnica de optimización de enjambre de partículas junto con una red neuronal artificial". En Wang, H.; Shen, Y.; Huang, T.; Zeng, Z. (eds.). VI Simposio Internacional sobre Redes Neuronales, ISNN 2009 . Apuntes de conferencias sobre informática. vol. 5553. Saltador. págs. 49–58. doi :10.1007/978-3-642-01513-7_6. ISBN 978-3-642-01215-0. Archivado desde el original el 31 de diciembre de 2014 . Consultado el 1 de enero de 2012 .
^ ab Ting Qin; Zonghai Chen; Haitao Zhang; Sifu Li; Wei Xiang; Ming Li (2004). "Un algoritmo de aprendizaje de CMAC basado en RLS" (PDF) . Cartas de procesamiento neuronal . 19 (1): 49–61. doi :10.1023/B:NEPL.0000016847.18175.60. S2CID 6233899. Archivado (PDF) desde el original el 14 de abril de 2021 . Consultado el 30 de enero de 2019 .
^ Ting Qin; Haitao Zhang; Zonghai Chen; Wei Xiang (2005). «CMAC-QRLS continua y su matriz sistólica» (PDF) . Cartas de procesamiento neuronal . 22 (1): 1–16. doi :10.1007/s11063-004-2694-0. S2CID 16095286. Archivado (PDF) desde el original el 18 de noviembre de 2018 . Consultado el 30 de enero de 2019 .
^ LeCun Y, Boser B, Denker JS, Henderson D, Howard RE, Hubbard W, Jackel LD (1989). "Retropropagación aplicada al reconocimiento de códigos postales escritos a mano". Computación neuronal . 1 (4): 541–551. doi :10.1162/neco.1989.1.4.541. S2CID 41312633.
^ Yann LeCun (2016). Diapositivas sobre aprendizaje profundo en línea Archivado el 23 de abril de 2016 en Wayback Machine.
^ Hochreiter, Sepp ; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
^ Sak, Hasim; Mayor, Andrés; Beaufays, Françoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a corto plazo para modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
^ Li, Xiangang; Wu, Xihong (15 de octubre de 2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria a largo plazo para el reconocimiento de voz de gran vocabulario". arXiv : 1410.4281 [cs.CL].
^ Fan, Y.; Qian, Y.; Xie, F.; Soong, FK (2014). "Síntesis TTS con redes neuronales recurrentes bidireccionales basadas en LSTM". Actas de la Conferencia Anual de la Asociación Internacional de Comunicación del Habla, Interspeech : 1964–1968 . Consultado el 13 de junio de 2017 .
^ Zen, Heiga; Sak, Hasim (2015). "Red neuronal recurrente unidireccional de memoria a corto plazo con capa de salida recurrente para síntesis de voz de baja latencia" (PDF) . Google.com . ICASP. págs. 4470–4474. Archivado (PDF) desde el original el 9 de mayo de 2021 . Consultado el 27 de junio de 2017 .
^ Fanático, Bo; Wang, Lijuan; Pronto, Frank K.; Xie, Lei (2015). "Cabeza parlante fotorrealista con LSTM bidireccional profundo" (PDF) . Actas del ICASSP . Archivado (PDF) desde el original el 1 de noviembre de 2017 . Consultado el 27 de junio de 2017 .
^ Plata, David ; Hubert, Thomas; Schrittwieser, Julián; Antonoglou, Ioannis; Lai, Mateo; Guez, Arturo; Lanctot, Marc; Sifré, Laurent; Kumaran, Dharshan ; Graepel, Thore; Lillicrap, Timoteo; Simonyan, Karen; Hassabis, Demis (5 de diciembre de 2017). "Dominar el ajedrez y el shogi mediante el juego autónomo con un algoritmo de aprendizaje por refuerzo general". arXiv : 1712.01815 [cs.AI].
^ Probst, Philipp; Boulesteix, Anne-Laure; Bischl, Bernd (26 de febrero de 2018). "Ajustabilidad: importancia de los hiperparámetros de los algoritmos de aprendizaje automático". J. Mach. Aprender. Res . 20 : 53:1–53:32. S2CID 88515435.
^ Zoph, Barret; Le, Quoc V. (4 de noviembre de 2016). "Búsqueda de arquitectura neuronal con aprendizaje por refuerzo". arXiv : 1611.01578 [cs.LG].
^ Haifeng Jin; Canción de Qingquan; Xia Hu (2019). "Auto-keras: un sistema eficiente de búsqueda de arquitectura neuronal". Actas de la 25ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos . ACM. arXiv : 1806.10282 . Archivado desde el original el 21 de agosto de 2019 . Consultado el 21 de agosto de 2019 a través de autokeras.com.
^ Claesen, Marc; De Moor, Bart (2015). "Búsqueda de hiperparámetros en aprendizaje automático". arXiv : 1502.02127 [cs.LG]. Código Bib : 2015arXiv150202127C
^ Esch, Robin (1990). "Aproximación funcional". Manual de Matemáticas Aplicadas (Springer US ed.). Boston, MA: Springer EE. UU. págs. 928–987. doi :10.1007/978-1-4684-1423-3_17. ISBN 978-1-4684-1423-3.
^ Sarstedt, Marko; Moo, Erik (2019). "Análisis de regresión". Una guía concisa para la investigación de mercados . Textos de Springer sobre economía y negocios. Springer Berlín Heidelberg. págs. 209–256. doi :10.1007/978-3-662-56707-4_7. ISBN 978-3-662-56706-7. S2CID 240396965.
^ Tian, Jie; Bronceado, Yin; Sol, Chaoli; Zeng, Jianchao; Jin, Yaochu (diciembre de 2016). "Una aproximación de aptitud autoadaptativa basada en similitudes para la optimización evolutiva". Serie de simposios IEEE 2016 sobre inteligencia computacional (SSCI) . págs. 1–8. doi :10.1109/SSCI.2016.7850209. ISBN 978-1-5090-4240-1. S2CID 14948018.
^ Alaloul, Wesam Salah; Qureshi, Abdul Hannan (2019). "Procesamiento de datos mediante redes neuronales artificiales". Asimilación dinámica de datos: superar las incertidumbres . doi :10.5772/intechopen.91935. ISBN 978-1-83968-083-0. S2CID 219735060.
^ Amigo, Madhab; Roy, Rajib; Basú, Joyanta; Bepari, Milton S. (2013). "Separación de fuentes ciegas: una revisión y análisis". Conferencia Internacional COCOSDA Oriental de 2013 celebrada conjuntamente con la Conferencia de 2013 sobre Investigación y Evaluación del Lenguaje Hablado Asiático (O-COCOSDA/CASLRE) . IEEE. págs. 1 a 5. doi :10.1109/ICSDA.2013.6709849. ISBN 978-1-4799-2378-6. S2CID 37566823.
^ Zissis, Dimitrios (octubre de 2015). "Una arquitectura basada en la nube capaz de percibir y predecir el comportamiento de múltiples embarcaciones". Computación blanda aplicada . 35 : 652–661. doi :10.1016/j.asoc.2015.07.002. Archivado desde el original el 26 de julio de 2020 . Consultado el 18 de julio de 2019 .
^ Sengupta, Nandini; Sahidullah, Maryland; Saha, Goutam (agosto de 2016). "Clasificación del sonido pulmonar mediante características estadísticas basadas en cepstral". Computadoras en Biología y Medicina . 75 (1): 118-129. doi :10.1016/j.compbiomed.2016.05.013. PMID 27286184.
^ Choy, Christopher B. y col. "3d-r2n2: un enfoque unificado para la reconstrucción de objetos 3D de vista única y múltiple Archivado el 26 de julio de 2020 en Wayback Machine ". Conferencia europea sobre visión por ordenador. Springer, Cham, 2016.
^ Turek, Fred D. (marzo de 2007). "Introducción a la visión artificial de redes neuronales". Diseño de Sistemas de Visión . 12 (3). Archivado desde el original el 16 de mayo de 2013 . Consultado el 5 de marzo de 2013 .
^ Maitra, DS; Bhattacharya, U.; Parui, SK (agosto de 2015). "Enfoque común basado en CNN para el reconocimiento de caracteres escritos a mano de múltiples guiones". 2015 13ª Conferencia Internacional sobre Análisis y Reconocimiento de Documentos (ICDAR) . págs. 1021-1025. doi :10.1109/ICDAR.2015.7333916. ISBN 978-1-4799-1805-8. S2CID 25739012.
^ Gessler, Josef (agosto de 2021). "Sensor para análisis de alimentos aplicando espectroscopia de impedancia y redes neuronales artificiales". RiuNet UPV (1): 8–12. Archivado desde el original el 21 de octubre de 2021 . Consultado el 21 de octubre de 2021 .
^ Francés, Jordania (2016). "El CAPM del viajero en el tiempo". Revista de analistas de inversiones . 46 (2): 81–96. doi :10.1080/10293523.2016.1255469. S2CID 157962452.
^ Romano M. Balabin; Ekaterina I. Lomakina (2009). "Enfoque de red neuronal para datos de química cuántica: predicción precisa de las energías de la teoría funcional de la densidad". J. química. Física. 131 (7): 074104. Código bibliográfico : 2009JChPh.131g4104B. doi : 10.1063/1.3206326. PMID 19708729.
^ Plata, David; et al. (2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles" (PDF) . Naturaleza . 529 (7587): 484–489. Código Bib :2016Natur.529..484S. doi : 10.1038/naturaleza16961. PMID 26819042. S2CID 515925. Archivado (PDF) desde el original el 23 de noviembre de 2018 . Consultado el 31 de enero de 2019 .
^ Pasick, Adam (27 de marzo de 2023). "Glosario de inteligencia artificial: explicaciones de redes neuronales y otros términos". Los New York Times . ISSN 0362-4331 . Consultado el 22 de abril de 2023 .
^ Schechner, Sam (15 de junio de 2017). "Facebook impulsa la inteligencia artificial para bloquear la propaganda terrorista". El periodico de Wall Street . ISSN 0099-9660 . Consultado el 16 de junio de 2017 .
^ Ganesan, N (2010). "Aplicación de redes neuronales en el diagnóstico de enfermedades cancerosas utilizando datos demográficos". Revista Internacional de Aplicaciones Informáticas . 1 (26): 81–97. Código Bib : 2010IJCA....1z..81G. doi : 10.5120/476-783 .
^ Bottaci, Leonardo (1997). "Redes neuronales artificiales aplicadas a la predicción de resultados para pacientes con cáncer colorrectal en instituciones separadas" (PDF) . Lanceta . La lanceta. 350 (9076): 469–72. doi :10.1016/S0140-6736(96)11196-X. PMID 9274582. S2CID 18182063. Archivado desde el original (PDF) el 23 de noviembre de 2018 . Consultado el 2 de mayo de 2012 .
^ Alizadeh, Elaheh; Lyons, Samantha M; Castillo, Jordania M; Prasad, Ashok (2016). "Medición de cambios sistemáticos en la forma de las células cancerosas invasivas utilizando momentos de Zernike". Biología Integrativa . 8 (11): 1183-1193. doi :10.1039/C6IB00100A. PMID 27735002.
^ Lyon, Samantha (2016). "Los cambios en la forma de las células se correlacionan con el potencial metastásico en murinos". Biología Abierta . 5 (3): 289–299. doi :10.1242/bio.013409. PMC 4810736 . PMID 26873952.
^ Nabian, Mohammad Amin; Meidani, Hadi (28 de agosto de 2017). "Aprendizaje profundo para el análisis de confiabilidad acelerado de redes de infraestructura". Ingeniería Civil y de Infraestructuras Asistida por Computador . 33 (6): 443–458. arXiv : 1708.08551 . Código Bib : 2017arXiv170808551N. doi : 10.1111/ratones.12359. S2CID 36661983.
^ Nabian, Mohammad Amin; Meidani, Hadi (2018). "Acelerar la evaluación estocástica de la conectividad de la red de transporte posterior al terremoto a través de sustitutos basados en el aprendizaje automático". 97ª reunión anual de la Junta de Investigación del Transporte . Archivado desde el original el 9 de marzo de 2018 . Consultado el 14 de marzo de 2018 .
^ Díaz, E.; Brotones, V.; Tomás, R. (septiembre 2018). "Uso de redes neuronales artificiales para predecir el asentamiento elástico tridimensional de cimentaciones en suelos con lecho rocoso inclinado". Suelos y Cimentaciones . 58 (6): 1414-1422. Código Bib : 2018SoFou..58.1414D. doi : 10.1016/j.sandf.2018.08.001 . hdl : 10045/81208 . ISSN 0038-0806.
^ Tayebiyan, A.; Mohamed, TA; Ghazali, AH; Mashohor, S. "Red neuronal artificial para modelar precipitaciones y escorrentías". Revista Pertanika de ciencia y tecnología . 24 (2): 319–330.
^ Govindaraju, Rao S. (1 de abril de 2000). "Redes Neuronales Artificiales en Hidrología. I: Conceptos Preliminares". Revista de Ingeniería Hidrológica . 5 (2): 115-123. doi :10.1061/(ASCE)1084-0699(2000)5:2(115).
^ Govindaraju, Rao S. (1 de abril de 2000). "Redes neuronales artificiales en hidrología. II: Aplicaciones hidrológicas". Revista de Ingeniería Hidrológica . 5 (2): 124-137. doi :10.1061/(ASCE)1084-0699(2000)5:2(124).
^ Peres, DJ; Iuppa, C.; Cavallaro, L.; Cancelliere, A.; Foti, E. (1 de octubre de 2015). "Extensión significativa del registro de altura de las olas mediante redes neuronales y reanálisis de datos del viento". Modelado oceánico . 94 : 128-140. Código Bib : 2015OcMod..94..128P. doi :10.1016/j.ocemod.2015.08.002.
^ Enano, GS; Rakshith, Shetty; Natesan, Usha (2013). "Revisión sobre Aplicaciones de Redes Neuronales en Ingeniería Costera". Sistemas Inteligentes Artificiales y Aprendizaje Automático . 5 (7): 324–331. Archivado desde el original el 15 de agosto de 2017 . Consultado el 5 de julio de 2017 .
^ Ermini, Leonardo; Catani, Filippo; Casagli, Nicola (1 de marzo de 2005). "Redes neuronales artificiales aplicadas a la evaluación de la susceptibilidad a deslizamientos de tierra". Geomorfología . Amenaza geomorfológica e impacto humano en ambientes montañosos. 66 (1): 327–343. Código bibliográfico : 2005Geomo..66..327E. doi :10.1016/j.geomorph.2004.09.025.
^ Nix, R.; Zhang, J. (mayo de 2017). "Clasificación de aplicaciones y malware de Android mediante redes neuronales profundas". 2017 Conferencia conjunta internacional sobre redes neuronales (IJCNN) . págs. 1871–1878. doi :10.1109/IJCNN.2017.7966078. ISBN 978-1-5090-6182-2. S2CID 8838479.
^ "Detección de URL maliciosas". El grupo de sistemas y redes de UCSD . Archivado desde el original el 14 de julio de 2019 . Consultado el 15 de febrero de 2019 .
^ Homayoun, Sajad; Ahmadzadeh, Marzieh; Hashemi, Sattar; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali; Conti, Mauro; Dargahi, Tooska (eds.), "BoTShark: un enfoque de aprendizaje profundo para la detección de tráfico de botnets", Cyber Threat Intelligence , avances en seguridad de la información, Springer International Publishing, vol. 70, págs. 137-153, doi :10.1007/978-3-319-73951-9_7, ISBN 978-3-319-73951-9
^ Ghosh y Reilly (enero de 1994). "Detección de fraude con tarjetas de crédito con red neuronal". Actas de la Vigésima Séptima Conferencia Internacional de Hawái sobre Ciencias de Sistemas HICSS-94 . vol. 3. págs. 621–630. doi :10.1109/HICSS.1994.323314. ISBN 978-0-8186-5090-1. S2CID 13260377.
^ Ananthaswamy, Anil (19 de abril de 2021). "Las últimas redes neuronales resuelven las ecuaciones más difíciles del mundo más rápido que nunca". Revista Quanta . Consultado el 12 de mayo de 2021 .
^ "La IA ha resuelto un rompecabezas matemático clave para comprender nuestro mundo". Revisión de tecnología del MIT . Consultado el 19 de noviembre de 2020 .
^ "IA de código abierto de Caltech para resolver ecuaciones diferenciales parciales". InfoQ . Archivado desde el original el 25 de enero de 2021 . Consultado el 20 de enero de 2021 .
^ Nagy, Alexandra (28 de junio de 2019). "Método de Monte Carlo cuántico variacional con un Ansatz de red neuronal para sistemas cuánticos abiertos". Cartas de revisión física . 122 (25): 250501. arXiv : 1902.09483 . Código Bib : 2019PhRvL.122y0501N. doi :10.1103/PhysRevLett.122.250501. PMID 31347886. S2CID 119074378.
^ Yoshioka, Nobuyuki; Hamazaki, Ryusuke (28 de junio de 2019). "Construcción de estados estacionarios neuronales para sistemas cuánticos abiertos de muchos cuerpos". Revisión física B. 99 (21): 214306. arXiv : 1902.07006 . Código Bib : 2019PhRvB..99u4306Y. doi : 10.1103/PhysRevB.99.214306. S2CID 119470636.
^ Hartmann, Michael J.; Carleo, Giuseppe (28 de junio de 2019). "Enfoque de red neuronal para la dinámica cuántica disipativa de muchos cuerpos". Cartas de revisión física . 122 (25): 250502. arXiv : 1902.05131 . Código Bib : 2019PhRvL.122y0502H. doi : 10.1103/PhysRevLett.122.250502. PMID 31347862. S2CID 119357494.
^ Vicentini, Filippo; Biella, Alberto; Regnault, Nicolás; Ciuti, Cristiano (28 de junio de 2019). "Ansatz de red neuronal variacional para estados estacionarios en sistemas cuánticos abiertos". Cartas de revisión física . 122 (25): 250503. arXiv : 1902.10104 . Código Bib : 2019PhRvL.122y0503V. doi : 10.1103/PhysRevLett.122.250503. PMID 31347877. S2CID 119504484.
^ Forrest MD (abril de 2015). "Simulación de la acción del alcohol sobre un modelo detallado de neuronas de Purkinje y un modelo sustituto más simple que se ejecuta> 400 veces más rápido". BMC Neurociencia . 16 (27): 27. doi : 10.1186/s12868-015-0162-6 . PMC 4417229 . PMID 25928094.
^ Wieczorek, Szymon; Filipiak, Dominik; Filipowska, Agata (2018). "Perfiles semánticos basados en imágenes de los intereses de los usuarios con redes neuronales". Estudios sobre la Web Semántica . 36 (Temas emergentes en tecnologías semánticas). doi :10.3233/978-1-61499-894-5-179.
^ Siegelmann, HT; Sontag, ED (1991). "Turing computabilidad con redes neuronales" (PDF) . Aplica. Matemáticas. Lett . 4 (6): 77–80. doi :10.1016/0893-9659(91)90080-F.
^ Bains, Sunny (3 de noviembre de 1998). "La computadora analógica supera al modelo de Turing". Tiempos EE.UU. Consultado el 11 de mayo de 2023 .
^ Balcázar, José (julio de 1997). "Poder computacional de las redes neuronales: una caracterización de la complejidad de Kolmogorov". Transacciones IEEE sobre teoría de la información . 43 (4): 1175-1183. CiteSeerX 10.1.1.411.7782 . doi : 10.1109/18.605580.
^ ab MacKay, David JC (2003). Teoría de la información, inferencia y algoritmos de aprendizaje (PDF) . Prensa de la Universidad de Cambridge . ISBN 978-0-521-64298-9. Archivado (PDF) desde el original el 19 de octubre de 2016 . Consultado el 11 de junio de 2016 .
^ Portada, Thomas (1965). "Propiedades geométricas y estadísticas de sistemas de desigualdades lineales con aplicaciones en reconocimiento de patrones" (PDF) . Transacciones IEEE en computadoras electrónicas . IEEE . CE-14 (3): 326–334. doi :10.1109/PGEC.1965.264137. Archivado (PDF) desde el original el 5 de marzo de 2016 . Consultado el 10 de marzo de 2020 .
^ Gerald, Friedland (2019). "Reproducibilidad y diseño experimental para aprendizaje automático sobre datos de audio y multimedia". Actas de la 27ª Conferencia Internacional ACM sobre Multimedia . ACM . págs. 2709-2710. doi :10.1145/3343031.3350545. ISBN 978-1-4503-6889-6. S2CID 204837170.
^ "¡Deje de jugar, comience a medir! Diseño experimental predecible de experimentos de redes neuronales". El medidor Tensorflow . Archivado desde el original el 18 de abril de 2022 . Consultado el 10 de marzo de 2020 .
^ Lee, Jaehoon; Xiao, Lechao; Schoenholz, Samuel S.; Bahri, Yasamán; Novak, romano; Sohl-Dickstein, Jascha; Pennington, Jeffrey (2020). "Las redes neuronales amplias de cualquier profundidad evolucionan como modelos lineales bajo descenso de gradiente". Revista de Mecánica Estadística: Teoría y Experimento . 2020 (12): 124002. arXiv : 1902.06720 . Código Bib : 2020JSMTE2020l4002L. doi :10.1088/1742-5468/abc62b. S2CID 62841516.
^ Arturo Jacot; Franck Gabriel; Clemente Hongler (2018). Núcleo tangente neuronal: convergencia y generalización en redes neuronales (PDF) . 32.a Conferencia sobre sistemas de procesamiento de información neuronal (NeurIPS 2018), Montreal, Canadá. Archivado (PDF) desde el original el 22 de junio de 2022 . Consultado el 4 de junio de 2022 .
^ Xu ZJ, Zhang Y, Xiao Y (2019). "Entrenamiento del comportamiento de la red neuronal profunda en el dominio de la frecuencia". En Gedeon T, Wong K, Lee M (eds.). Procesamiento de información neuronal . Apuntes de conferencias sobre informática. vol. 11953. Springer, Cham. págs. 264-274. arXiv : 1807.01251 . doi :10.1007/978-3-030-36708-4_22. ISBN 978-3-030-36707-7. S2CID 49562099.
^ Nasim Rahaman; Aristide Baratin; Devansh Arpit; Félix Draxler; Min Lin; Fred Hamprecht; Yoshua Bengio; Aaron Courville (2019). "Sobre el sesgo espectral de las redes neuronales" (PDF) . Actas de la 36ª Conferencia Internacional sobre Aprendizaje Automático . 97 : 5301–5310. arXiv : 1806.08734 . Archivado (PDF) desde el original el 22 de octubre de 2022 . Consultado el 4 de junio de 2022 .
^ Zhi-Qin John Xu; Yaoyu Zhang; Tao Luo; Yanyang Xiao; Zheng Ma (2020). "Principio de frecuencia: el análisis de Fourier arroja luz sobre las redes neuronales profundas". Comunicaciones en Física Computacional . 28 (5): 1746-1767. arXiv : 1901.06523 . Código Bib : 2020CCoPh..28.1746X. doi :10.4208/cicp.OA-2020-0085. S2CID 58981616.
^ Tao Luo; Zheng Ma; Zhi-Qin John Xu; Yaoyu Zhang (2019). "Teoría del principio de frecuencia para redes neuronales profundas generales". arXiv : 1906.09235 [cs.LG].
^ Xu, Zhiqin Juan; Zhou, Hanxu (18 de mayo de 2021). "Principio de frecuencia profunda para comprender por qué el aprendizaje más profundo es más rápido". Actas de la Conferencia AAAI sobre Inteligencia Artificial . 35 (12): 10541–10550. arXiv : 2007.14313 . doi : 10.1609/aaai.v35i12.17261. ISSN 2374-3468. S2CID 220831156. Archivado desde el original el 5 de octubre de 2021 . Consultado el 5 de octubre de 2021 .
^ Parisi, alemán I.; Kemker, Ronald; Parte, José L.; Kanan, Christopher; Wermter, Stefan (1 de mayo de 2019). "Aprendizaje continuo durante toda la vida con redes neuronales: una revisión". Redes neuronales . 113 : 54–71. arXiv : 1802.07569 . doi : 10.1016/j.neunet.2019.01.012 . ISSN 0893-6080. PMID 30780045.
^ Dean Pomerleau, "Entrenamiento basado en conocimientos de redes neuronales artificiales para la conducción autónoma de robots"
^ Dewdney, AK (1 de abril de 1997). Sí, no tenemos neutrones: un recorrido revelador por los vericuetos de la mala ciencia. Wiley. pag. 82.ISBN 978-0-471-10806-1.
^ NASA - Dryden Flight Research Center - Sala de prensa: Comunicados de prensa: EL PROYECTO DE RED NEURAL DE LA NASA SUPERA UN HITO Archivado el 2 de abril de 2010 en Wayback Machine . Nasa.gov. Recuperado el 20 de noviembre de 2013.
^ "La defensa de las redes neuronales de Roger Bridgman". Archivado desde el original el 19 de marzo de 2012 . Consultado el 12 de julio de 2010 .
^ "Ampliación de los algoritmos de aprendizaje hacia la {IA} - LISA - Publicaciones - Aigaion 2.0". www.iro.umontreal.ca .
^ DJ Felleman y DC Van Essen, "Procesamiento jerárquico distribuido en la corteza cerebral de primates", Cerebral Cortex , 1, págs. 1–47, 1991.
^ J. Weng, "Inteligencia natural y artificial: introducción a la mente-cerebro computacional", BMI Press, ISBN 978-0-9858757-2-5 , 2012.
^ ab Edwards, Chris (25 de junio de 2015). "Dolores de crecimiento para el aprendizaje profundo". Comunicaciones de la ACM . 58 (7): 14-16. doi :10.1145/2771283. S2CID 11026540.
^ Cade Metz (18 de mayo de 2016). "Google construyó sus propios chips para impulsar sus robots de inteligencia artificial". Cableado . Archivado desde el original el 13 de enero de 2018 . Consultado el 5 de marzo de 2017 .
^ "Ampliación de los algoritmos de aprendizaje hacia la IA" (PDF) . Archivado (PDF) desde el original el 12 de agosto de 2022 . Consultado el 6 de julio de 2022 .
^ Tahmasebi; Hezarkhani (2012). "Un algoritmo híbrido de redes neuronales, lógica difusa y genético para la estimación de calificaciones". Computadoras y geociencias . 42 : 18-27. Código Bib : 2012CG.....42...18T. doi : 10.1016/j.cageo.2012.02.004. PMC 4268588 . PMID 25540468.
^ Sol y Bookman, 1990
^ ab Norori, Natalia; Hu, Qiyang; Aellen, Florencia Marcelle; Faraci, Francesca Dalia; Tzovara, Athina (octubre de 2021). "Abordar el sesgo en big data y la inteligencia artificial para la atención médica: un llamado a la ciencia abierta". Patrones . 2 (10): 100347. doi : 10.1016/j.patter.2021.100347 .
^ ab Carina, Wang (27 de octubre de 2022). "Fracasar al pie de la letra: el efecto de la tecnología de reconocimiento facial sesgada sobre la discriminación racial en la justicia penal". Investigación Científica y Social . 4 (10): 29–40. doi : 10.26689/ssr.v4i10.4402 . ISSN 2661-4332.
^ ab Chang, Xinyu (13 de septiembre de 2023). "Sesgo de género en la contratación: un análisis del impacto del algoritmo de contratación de Amazon". Avances en Economía, Gestión y Ciencias Políticas . 23 (1): 134-140. doi : 10.54254/2754-1169/23/20230367 . ISSN 2754-1169.
^ Kortylewski, Adán; Egger, Bernhard; Schneider, Andreas; Gerig, Thomas; Morel-Forster, Andreas; Vetter, Thomas (junio de 2019). "Análisis y reducción del daño del sesgo del conjunto de datos para enfrentar el reconocimiento con datos sintéticos". Conferencia IEEE/CVF de 2019 sobre talleres de reconocimiento de patrones y visión por computadora (CVPRW) (PDF) . IEEE. págs. 2261–2268. doi :10.1109/cvprw.2019.00279. ISBN 978-1-7281-2506-0. S2CID 198183828.
^ abcdef Huang, Yanbo (2009). "Avances en redes neuronales artificiales - Desarrollo y aplicación metodológica". Algoritmos . 2 (3): 973–1007. doi : 10.3390/algor2030973 . ISSN 1999-4893.
^ abcde Kariri, Elham; Louati, Hassen; Louati, Ali; Masmoudi, Fatma (2023). "Explorando los avances y las direcciones de investigación futuras de las redes neuronales artificiales: un enfoque de minería de textos". Ciencias Aplicadas . 13 (5): 3186. doi : 10.3390/app13053186 . ISSN 2076-3417.
^ ab Fui-Hoon Nah, Fiona; Zheng, Ruilin; Cai, Jingyuan; Siau, Keng; Chen, Langtao (3 de julio de 2023). "IA generativa y ChatGPT: aplicaciones, desafíos y colaboración entre IA y humanos". Revista de investigación de aplicaciones y casos de tecnología de la información . 25 (3): 277–304. doi : 10.1080/15228053.2023.2233814 . ISSN 1522-8053.
^ "Las fallas de DALL-E 2 son lo más interesante: IEEE Spectrum". espectro.ieee.org . Consultado el 9 de diciembre de 2023 .
^ Briot, Jean-Pierre (enero de 2021). "De las redes neuronales artificiales al aprendizaje profundo para la generación musical: historia, conceptos y tendencias". Computación neuronal y aplicaciones . 33 (1): 39–65. doi : 10.1007/s00521-020-05399-0 . ISSN 0941-0643.
^ Chow, Pei-Sze (6 de julio de 2020). "Fantasma en la máquina (de Hollywood): aplicaciones emergentes de la inteligencia artificial en la industria cinematográfica". NECSUS_Revista Europea de Estudios de Medios . doi :10.25969/MEDIAREP/14307. ISSN 2213-0217.
^ Yu, Xinrui; Él, Suoju; Gao, Yuan; Yang, Jiajian; Sha, Lingdao; Zhang, Yidan; Ai, Zhaobo (junio de 2010). "Ajuste dinámico de la dificultad de la IA del juego para el videojuego Dead-End". El III Congreso Internacional de Ciencias de la Información y Ciencias de la Interacción . IEEE. págs. 583–587. doi :10.1109/icicis.2010.5534761. ISBN 978-1-4244-7384-7. S2CID 17555595.

Bibliografía

Bhadeshia HKDH (1999). "Redes neuronales en ciencia de materiales" (PDF) . ISIJ Internacional . 39 (10): 966–979. doi :10.2355/isijinternational.39.966.
Obispo, Christopher M. (1995). Redes neuronales para reconocimiento de patrones . Prensa de Clarendon. ISBN 978-0-19-853849-3. OCLC 33101074.
Borgelt, Christian (2003). Neuro-Fuzzy-Systeme: von den Grundlagen künstlicher Neuronaler Netze zur Kopplung mit Fuzzy-Systemen . Vereg. ISBN 978-3-528-25265-6. OCLC 76538146.
Cybenko, GV (2006). "Aproximación por superposiciones de una función sigmoidal". En van Schuppen, Jan H. (ed.). Matemáticas de Control, Señales y Sistemas . Springer Internacional. págs. 303–314.PDF
Dewdney, Alaska (1997). Sí, no tenemos neutrones: un recorrido revelador por los vericuetos de la mala ciencia . Nueva York: Wiley. ISBN 978-0-471-10806-1. OCLC 35558945.
Duda, Richard O.; Hart, Peter Elliot; Cigüeña, David G. (2001). Clasificación de patrones (2 ed.). Wiley. ISBN 978-0-471-05669-0. OCLC 41347061.
Egmont-Petersen, M.; de Ridder, D.; Händels, H. (2002). "Procesamiento de imágenes con redes neuronales: una revisión". Reconocimiento de patrones . 35 (10): 2279–2301. CiteSeerX 10.1.1.21.5444 . doi :10.1016/S0031-3203(01)00178-9.
Fahlman, S.; Lebière, C (1991). "La arquitectura de aprendizaje de correlación en cascada" (PDF) . Archivado desde el original (PDF) el 3 de mayo de 2013 . Consultado el 28 de agosto de 2006 .
- creado para la Fundación Nacional de Ciencias , Número de contrato EET-8716324, y la Agencia de Proyectos de Investigación Avanzada de Defensa (DOD), Orden ARPA No. 4976 bajo el Contrato F33615-87-C-1499.
Gurney, Kevin (1997). Una introducción a las redes neuronales . Prensa de la UCL. ISBN 978-1-85728-673-1. OCLC 37875698.
Haykin, Simon S. (1999). Redes neuronales: una base integral . Prentice Hall. ISBN 978-0-13-273350-2. OCLC 38908586.
Hertz, J.; Palmer, Richard G.; Krogh, Anders S. (1991). Introducción a la teoría de la computación neuronal . Addison-Wesley. ISBN 978-0-201-51560-2. OCLC 21522159.
Teoría de la información, inferencia y algoritmos de aprendizaje . Prensa de la Universidad de Cambridge. 25 de septiembre de 2003. Bibcode : 2003itil.book.....M. ISBN 978-0-521-64298-9. OCLC 52377690.
Kruse, Rudolf; Borgelt, cristiano; Klawonn, F.; Moewes, cristiano; Steinbrecher, Matías; Celebrado, Pascal (2013). Inteligencia computacional: una introducción metodológica . Saltador. ISBN 978-1-4471-5012-1. OCLC 837524179.
Lawrence, Jeanette (1994). Introducción a las redes neuronales: diseño, teoría y aplicaciones . Software científico de California. ISBN 978-1-883157-00-5. OCLC 32179420.
Maestros, Timoteo (1994). Procesamiento de señales e imágenes con redes neuronales: un libro de consulta de C++ . J. Wiley. ISBN 978-0-471-04963-0. OCLC 29877717.
Maurer, Harald (2021). Ciencia cognitiva: mecanismos de sincronización integradora en neuroarquitecturas cognitivas del conexionismo moderno . Prensa CRC. doi :10.1201/9781351043526. ISBN 978-1-351-04352-6. S2CID 242963768.
Ripley, Brian D. (2007). Reconocimiento de patrones y redes neuronales. Prensa de la Universidad de Cambridge. ISBN 978-0-521-71770-0.
Siegelmann, HT; Sontag, Eduardo D. (1994). "Computación analógica mediante redes neuronales". Informática Teórica . 131 (2): 331–360. doi : 10.1016/0304-3975(94)90178-3 . S2CID 2456483.
Smith, Murray (1993). Redes neuronales para modelado estadístico . Van Nostrand Reinhold. ISBN 978-0-442-01310-3. OCLC 27145760.
Wasserman, Philip D. (1993). Métodos avanzados en computación neuronal . Van Nostrand Reinhold. ISBN 978-0-442-00461-3. OCLC 27429729.
Wilson, Halsey (2018). Inteligencia artificial . Publicación de la Casa Gris. ISBN 978-1-68217-867-6.