Aprendizaje profundo

El aprendizaje profundo es un subconjunto de los métodos de aprendizaje automático basados en redes neuronales con aprendizaje de representación . El campo se inspira en la neurociencia biológica y se centra en apilar neuronas artificiales en capas y "entrenarlas" para procesar datos. El adjetivo "profundo" se refiere al uso de múltiples capas (que van desde tres hasta varios cientos o miles) en la red. Los métodos utilizados pueden ser supervisados , semisupervisados o no supervisados . ^[2]

Algunas arquitecturas de redes de aprendizaje profundo comunes incluyen redes completamente conectadas , redes de creencias profundas , redes neuronales recurrentes , redes neuronales convolucionales , redes generativas adversarias , transformadores y campos de radiancia neuronal . Estas arquitecturas se han aplicado a campos que incluyen visión artificial , reconocimiento de voz , procesamiento de lenguaje natural , traducción automática , bioinformática , diseño de fármacos , análisis de imágenes médicas , ciencia climática , inspección de materiales y programas de juegos de mesa , donde han producido resultados comparables y en algunos casos superiores al desempeño de los expertos humanos. ^[3]^[4]^[5]

Las primeras formas de redes neuronales se inspiraron en los nodos de procesamiento de información y comunicación distribuida de los sistemas biológicos , en particular el cerebro humano . Sin embargo, las redes neuronales actuales no pretenden modelar la función cerebral de los organismos y, en general, se las considera modelos de baja calidad para ese propósito. ^[6]

Descripción general

La mayoría de los modelos de aprendizaje profundo modernos se basan en redes neuronales multicapa , como redes neuronales convolucionales y transformadores , aunque también pueden incluir fórmulas proposicionales o variables latentes organizadas capa por capa en modelos generativos profundos, como los nodos en redes de creencias profundas y máquinas de Boltzmann profundas . ^[7]

Básicamente, el aprendizaje profundo se refiere a una clase de algoritmos de aprendizaje automático en los que se utiliza una jerarquía de capas para transformar los datos de entrada en una representación ligeramente más abstracta y compuesta. Por ejemplo, en un modelo de reconocimiento de imágenes , la entrada sin procesar puede ser una imagen (representada como un tensor de píxeles ). La primera capa de representación puede intentar identificar formas básicas como líneas y círculos, la segunda capa puede componer y codificar disposiciones de bordes, la tercera capa puede codificar una nariz y ojos, y la cuarta capa puede reconocer que la imagen contiene una cara.

Es importante destacar que un proceso de aprendizaje profundo puede aprender por sí solo qué características colocar de manera óptima en qué nivel . Antes del aprendizaje profundo, las técnicas de aprendizaje automático a menudo implicaban una ingeniería de características hecha a mano para transformar los datos en una representación más adecuada para que un algoritmo de clasificación pudiera operar sobre ellos. En el enfoque de aprendizaje profundo, las características no se crean a mano y el modelo descubre representaciones de características útiles a partir de los datos de manera automática. Esto no elimina la necesidad de realizar ajustes manuales; por ejemplo, variar la cantidad y el tamaño de las capas puede proporcionar diferentes grados de abstracción. ^[8]^[2]

La palabra "profundo" en "aprendizaje profundo" se refiere al número de capas a través de las cuales se transforman los datos. Más precisamente, los sistemas de aprendizaje profundo tienen una profundidad sustancial de ruta de asignación de crédito (CAP). La CAP es la cadena de transformaciones de entrada a salida. Las CAP describen conexiones potencialmente causales entre la entrada y la salida. Para una red neuronal de propagación hacia adelante , la profundidad de las CAP es la de la red y es el número de capas ocultas más uno (ya que la capa de salida también está parametrizada). Para las redes neuronales recurrentes , en las que una señal puede propagarse a través de una capa más de una vez, la profundidad de la CAP es potencialmente ilimitada. ^[9] No existe un umbral de profundidad acordado universalmente que divida el aprendizaje superficial del aprendizaje profundo, pero la mayoría de los investigadores coinciden en que el aprendizaje profundo implica una profundidad de CAP superior a dos. Se ha demostrado que la CAP de profundidad dos es un aproximador universal en el sentido de que puede emular cualquier función. ^[10] Más allá de eso, más capas no se suman a la capacidad de aproximación de funciones de la red. Los modelos profundos (CAP > dos) pueden extraer mejores características que los modelos superficiales y, por lo tanto, las capas adicionales ayudan a aprender las características de manera efectiva.

Las arquitecturas de aprendizaje profundo se pueden construir con un método codicioso de capa por capa. ^[11] El aprendizaje profundo ayuda a desenredar estas abstracciones y a identificar qué características mejoran el rendimiento. ^[8]

Los algoritmos de aprendizaje profundo se pueden aplicar a tareas de aprendizaje no supervisado. Este es un beneficio importante porque los datos no etiquetados son más abundantes que los etiquetados. Ejemplos de estructuras profundas que se pueden entrenar de manera no supervisada son las redes de creencias profundas . ^[8]^[12]

El término Deep Learning fue introducido en la comunidad de aprendizaje automático por Rina Dechter en 1986, ^[13] y en las redes neuronales artificiales por Igor Aizenberg y colegas en 2000, en el contexto de las neuronas de umbral booleano . ^[14]^[15] Aunque la historia de su aparición es aparentemente más complicada. ^[16]

Interpretaciones

Las redes neuronales profundas generalmente se interpretan en términos del teorema de aproximación universal ^[17]^[18]^[19]^[20]^[21] o inferencia probabilística . ^[22]^[23]^[8]^[9]^[24]

El teorema clásico de aproximación universal se refiere a la capacidad de las redes neuronales de propagación hacia adelante con una única capa oculta de tamaño finito para aproximarse a funciones continuas . ^[17]^[18]^[19]^{[20] En 1989,}George Cybenko publicó la primera prueba para funciones de activación sigmoideas ^[17] y Kurt Hornik la generalizó a arquitecturas multicapa de propagación hacia adelante en 1991. ^[18] Un trabajo reciente también mostró que la aproximación universal también se cumple para funciones de activación no acotadas, como la unidad lineal rectificada de Kunihiko Fukushima . ^[25]^[26]

El teorema de aproximación universal para redes neuronales profundas se refiere a la capacidad de las redes con ancho limitado pero a las que se les permite crecer en profundidad. Lu et al. ^[21] demostraron que si el ancho de una red neuronal profunda con activación ReLU es estrictamente mayor que la dimensión de entrada, entonces la red puede aproximarse a cualquier función integrable de Lebesgue ; si el ancho es menor o igual a la dimensión de entrada, entonces una red neuronal profunda no es un aproximador universal.

La interpretación probabilística ^[24] se deriva del campo del aprendizaje automático . Presenta inferencia, ^[23]^[7]^[8]^[9]^[12]^[24] así como los conceptos de optimización de entrenamiento y prueba , relacionados con el ajuste y la generalización , respectivamente. Más específicamente, la interpretación probabilística considera la no linealidad de activación como una función de distribución acumulativa . ^[24] La interpretación probabilística condujo a la introducción de la deserción como regularizador en redes neuronales. La interpretación probabilística fue introducida por investigadores como Hopfield , Widrow y Narendra y popularizada en encuestas como la de Bishop . ^[27]

Historia

Antes de 1980

Existen dos tipos de redes neuronales artificiales (RNA): redes neuronales de propagación hacia adelante (FNN) o perceptrones multicapa (MLP) y redes neuronales recurrentes (RNN). Las RNN tienen ciclos en su estructura de conectividad, las FNN no. En la década de 1920, Wilhelm Lenz y Ernst Ising crearon el modelo de Ising ^[28]^[29] que es esencialmente una arquitectura de RNN sin aprendizaje que consiste en elementos de umbral similares a neuronas. En 1972, Shun'ichi Amari hizo que esta arquitectura fuera adaptativa. ^[30]^[31] Su RNN de aprendizaje fue republicada por John Hopfield en 1982. ^[32] Otras redes neuronales recurrentes tempranas fueron publicadas por Kaoru Nakano en 1971. ^[33]^[34] Ya en 1948, Alan Turing produjo un trabajo sobre "Maquinaria inteligente" que no fue publicado en vida de él, ^[35] que contiene "ideas relacionadas con la evolución artificial y las RNN de aprendizaje". ^[31]

Frank Rosenblatt (1958) ^[36] propuso el perceptrón, un MLP con 3 capas: una capa de entrada, una capa oculta con pesos aleatorios que no aprenden y una capa de salida. Más tarde publicó un libro en 1962 que también introdujo variantes y experimentos informáticos, incluida una versión con perceptrones de cuatro capas "con redes preterminales adaptativas" donde las dos últimas capas han aprendido pesos (aquí le da crédito a HD Block y BW Knight). ^[37]^{: sección 16} El libro cita una red anterior de RD Joseph (1960) ^[38] "funcionalmente equivalente a una variación de" este sistema de cuatro capas (el libro menciona a Joseph más de 30 veces). ¿Debería considerarse a Joseph el creador de los perceptrones multicapa adaptativos adecuados con unidades ocultas de aprendizaje? Desafortunadamente, el algoritmo de aprendizaje no era funcional y cayó en el olvido.

El primer algoritmo de aprendizaje profundo funcional fue el método de grupo de manejo de datos , un método para entrenar redes neuronales arbitrariamente profundas, publicado por Alexey Ivakhnenko y Lapa en 1965. Lo consideraron como una forma de regresión polinomial, ^[39] o una generalización del perceptrón de Rosenblatt. ^[40] Un artículo de 1971 describió una red profunda con ocho capas entrenadas por este método, ^[41] que se basa en el entrenamiento capa por capa a través del análisis de regresión. Las unidades ocultas superfluas se podan utilizando un conjunto de validación separado. Dado que las funciones de activación de los nodos son polinomios de Kolmogorov-Gabor, estas también fueron las primeras redes profundas con unidades multiplicativas o "puertas". ^[31]

El primer perceptrón multicapa de aprendizaje profundo entrenado por descenso de gradiente estocástico ^[42] fue publicado en 1967 por Shun'ichi Amari . ^[43] En experimentos informáticos realizados por el estudiante de Amari, Saito, un MLP de cinco capas con dos capas modificables aprendió representaciones internas para clasificar clases de patrones no linealmente separables. ^{[31] Los desarrollos posteriores en hardware y ajustes de hiperparámetros han hecho que}el descenso de gradiente estocástico de extremo a extremo sea la técnica de entrenamiento actualmente dominante.

En 1969, Kunihiko Fukushima introdujo la función de activación ReLU (unidad lineal rectificada) . ^[25]^[31] El rectificador se ha convertido en la función de activación más popular para el aprendizaje profundo. ^[44]

Las arquitecturas de aprendizaje profundo para redes neuronales convolucionales (CNN) con capas convolucionales y capas de submuestreo comenzaron con el Neocognitron introducido por Kunihiko Fukushima en 1979, aunque no entrenado por retropropagación. ^[45]^[46]

La retropropagación es una aplicación eficiente de la regla de la cadena derivada por Gottfried Wilhelm Leibniz en 1673 ^[47] a redes de nodos diferenciables. La terminología "errores de retropropagación" fue introducida en 1962 por Rosenblatt, ^[37] pero no sabía cómo implementarla, aunque Henry J. Kelley tuvo un precursor continuo de la retropropagación en 1960 en el contexto de la teoría de control . ^[48] La forma moderna de retropropagación se publicó por primera vez en la tesis de maestría de Seppo Linnainmaa (1970). ^[49]^[50]^[31] GM Ostrovski et al. Lo republicó en 1971. ^[51]^[52] Paul Werbos aplicó la retropropagación a las redes neuronales en 1982 ^[53] (su tesis doctoral de 1974, reimpresa en un libro de 1994, ^[54] aún no describía el algoritmo ^[52] ). En 1986, David E. Rumelhart et al. popularizaron la retropropagación pero no citaron el trabajo original. ^[55]^[56]

Década de 1980-2000

La red neuronal con retardo temporal (TDNN) fue introducida en 1987 por Alex Waibel para aplicar la CNN al reconocimiento de fonemas. Utilizaba convoluciones, reparto de peso y retropropagación. ^[57]^[58] En 1988, Wei Zhang aplicó una CNN entrenada por retropropagación al reconocimiento de alfabetos. ^[59] En 1989, Yann LeCun et al. crearon una CNN llamada LeNet para reconocer códigos postales escritos a mano en el correo. El entrenamiento requería 3 días. ^[60] En 1990, Wei Zhang implementó una CNN en hardware de computación óptica . ^[61] En 1991, se aplicó una CNN a la segmentación de objetos de imágenes médicas ^[62] y a la detección de cáncer de mama en mamografías. ^[63] LeNet -5 (1998), una CNN de 7 niveles de Yann LeCun et al., que clasifica dígitos, fue aplicada por varios bancos para reconocer números escritos a mano en cheques digitalizados en imágenes de 32x32 píxeles. ^[64]

Las redes neuronales recurrentes (RNN) ^[28]^[30] se desarrollaron aún más en la década de 1980. La recurrencia se utiliza para el procesamiento de secuencias y, cuando se desenrolla una red recurrente, se asemeja matemáticamente a una capa de retroalimentación profunda. En consecuencia, tienen propiedades y problemas similares, y sus desarrollos tuvieron influencias mutuas. En RNN, dos trabajos influyentes tempranos fueron la red Jordan (1986) ^[65] y la red Elman (1990), ^[66] que aplicaron RNN para estudiar problemas en psicología cognitiva .

En la década de 1980, la retropropagación no funcionó bien para el aprendizaje profundo con largas rutas de asignación de créditos. Para superar este problema, en 1991, Jürgen Schmidhuber propuso una jerarquía de RNN preentrenadas un nivel a la vez mediante aprendizaje autosupervisado donde cada RNN intenta predecir su propia próxima entrada, que es la próxima entrada inesperada de la RNN inferior. ^[67]^[68] Este "compresor de historial neuronal" utiliza codificación predictiva para aprender representaciones internas en múltiples escalas de tiempo autoorganizadas. Esto puede facilitar sustancialmente el aprendizaje profundo posterior. La jerarquía de RNN se puede colapsar en una sola RNN, destilando una red de fragmentación de nivel superior en una red de automatizador de nivel inferior . ^[67]^[68]^[31] En 1993, un compresor de historial neuronal resolvió una tarea de "aprendizaje muy profundo" que requería más de 1000 capas subsiguientes en una RNN desplegada en el tiempo. ^[69] La "P" en ChatGPT se refiere a dicho entrenamiento previo.

La tesis de diploma de Sepp Hochreiter (1991) ^[70] implementó el compresor de historia neuronal, ^[67] e identificó y analizó el problema del gradiente evanescente . ^[70]^{[71] Hochreiter propuso conexiones}residuales recurrentes para resolver el problema del gradiente evanescente. Esto condujo a la memoria a corto plazo larga (LSTM), publicada en 1995. ^[72] LSTM puede aprender tareas de "aprendizaje muy profundo" ^[9] con largas rutas de asignación de créditos que requieren recuerdos de eventos que sucedieron miles de pasos de tiempo discretos antes. Esa LSTM aún no era la arquitectura moderna, que requería una "puerta de olvido", introducida en 1999, ^[73] que se convirtió en la arquitectura RNN estándar.

En 1991, Jürgen Schmidhuber también publicó redes neuronales adversarias que compiten entre sí en forma de un juego de suma cero , donde la ganancia de una red es la pérdida de la otra. ^[74]^[75] La primera red es un modelo generativo que modela una distribución de probabilidad sobre patrones de salida. La segunda red aprende por descenso de gradiente para predecir las reacciones del entorno a estos patrones. Esto se llamó "curiosidad artificial". En 2014, este principio se utilizó en redes generativas adversarias (GAN). ^[76]

Durante 1985-1995, inspirados por la mecánica estadística, Terry Sejnowski , Peter Dayan , Geoffrey Hinton , etc. desarrollaron varias arquitecturas y métodos , incluyendo la máquina de Boltzmann , ^[77] la máquina de Boltzmann restringida , ^[78] la máquina de Helmholtz , ^[79] y el algoritmo de vigilia-sueño . ^[80] Estos fueron diseñados para el aprendizaje no supervisado de modelos generativos profundos. Sin embargo, estos eran más costosos computacionalmente en comparación con la retropropagación. El algoritmo de aprendizaje automático de Boltzmann, publicado en 1985, fue brevemente popular antes de ser eclipsado por el algoritmo de retropropagación en 1986. (p. 112 ^[81] ). Una red de 1988 se convirtió en el estado del arte en la predicción de la estructura de proteínas , una aplicación temprana del aprendizaje profundo a la bioinformática. ^[82]

Durante muchos años se han explorado tanto el aprendizaje superficial como el profundo (por ejemplo, redes recurrentes) de las ANN para el reconocimiento de voz . ^[83]^[84]^{[85] Estos métodos nunca superaron la tecnología}del modelo de mezcla gaussiana de elaboración interna no uniforme / modelo de Markov oculto (GMM-HMM) basada en modelos generativos de habla entrenados de forma discriminativa. ^[86] Se han analizado las dificultades clave, incluida la disminución del gradiente ^[70] y la estructura de correlación temporal débil en los modelos predictivos neuronales. ^[87]^[88] Las dificultades adicionales fueron la falta de datos de entrenamiento y la potencia informática limitada.

La mayoría de los investigadores en reconocimiento de voz se alejaron de las redes neuronales para dedicarse al modelado generativo. Una excepción fue SRI International a fines de la década de 1990. Financiado por la NSA y la DARPA del gobierno de los EE. UU. , SRI investigó en reconocimiento de habla y de habla . El equipo de reconocimiento de hablantes dirigido por Larry Heck informó un éxito significativo con redes neuronales profundas en el procesamiento del habla en el punto de referencia de reconocimiento de hablantes del NIST de 1998. ^[89]^[90] Se implementó en Nuance Verifier, lo que representó la primera aplicación industrial importante del aprendizaje profundo. ^[91]

El principio de elevar las características "en bruto" por sobre la optimización hecha a mano se exploró por primera vez con éxito en la arquitectura del autocodificador profundo en el espectrograma "en bruto" o las características del banco de filtros lineales a fines de la década de 1990, ^[90] mostrando su superioridad sobre las características Mel-Cepstral que contienen etapas de transformación fija de los espectrogramas. Las características en bruto del habla, formas de onda , produjeron posteriormente excelentes resultados a mayor escala. ^[92]

Década de 2000

Las redes neuronales entraron en un punto muerto y los modelos más simples que utilizan características específicas para cada tarea, como filtros de Gabor y máquinas de vectores de soporte (SVM), se convirtieron en las opciones preferidas en los años 1990 y 2000, debido al costo computacional de las redes neuronales artificiales y a la falta de comprensión de cómo el cerebro conecta sus redes biológicas. ^{[ cita requerida ]}

En 2003, LSTM comenzó a competir con los reconocedores de voz tradicionales en ciertas tareas. ^[93] En 2006, Alex Graves , Santiago Fernández, Faustino Gomez y Schmidhuber lo combinaron con la clasificación temporal conexionista (CTC) ^[94] en pilas de LSTM. ^[95] En 2009, se convirtió en la primera RNN en ganar un concurso de reconocimiento de patrones , en reconocimiento de escritura a mano conectada . ^[96]^[9]

En 2006, Geoff Hinton , Ruslan Salakhutdinov , Osindero y Teh ^[97]^{[98] publicaron} redes de creencias profundas para modelado generativo. Se entrenan entrenando una máquina de Boltzmann restringida, luego congelándola y entrenando otra sobre la primera, y así sucesivamente, y luego se afinan opcionalmente utilizando retropropagación supervisada. ^[99] Podrían modelar distribuciones de probabilidad de alta dimensión, como la distribución de imágenes MNIST , pero la convergencia era lenta. ^[100]^[101]^[102]

El impacto del aprendizaje profundo en la industria comenzó a principios de la década de 2000, cuando las CNN ya procesaban aproximadamente entre el 10% y el 20% de todos los cheques emitidos en los EE. UU., según Yann LeCun. ^[103] Las aplicaciones industriales del aprendizaje profundo para el reconocimiento de voz a gran escala comenzaron alrededor de 2010.

El Taller NIPS de 2009 sobre aprendizaje profundo para el reconocimiento de voz estuvo motivado por las limitaciones de los modelos generativos profundos del habla y la posibilidad de que, dado un hardware más capaz y conjuntos de datos a gran escala, las redes neuronales profundas pudieran volverse prácticas. Se creía que el entrenamiento previo de las DNN utilizando modelos generativos de redes de creencias profundas (DBN) superaría las principales dificultades de las redes neuronales. Sin embargo, se descubrió que reemplazar el entrenamiento previo con grandes cantidades de datos de entrenamiento para una retropropagación directa cuando se utilizan DNN con capas de salida grandes y dependientes del contexto produjo tasas de error drásticamente más bajas que el modelo de mezcla gaussiana (GMM)/modelo de Markov oculto (HMM) de última generación en ese momento y también que los sistemas basados en modelos generativos más avanzados. ^[104] La naturaleza de los errores de reconocimiento producidos por los dos tipos de sistemas era característicamente diferente, ^[105] ofreciendo perspectivas técnicas sobre cómo integrar el aprendizaje profundo en el sistema de decodificación de voz en tiempo de ejecución altamente eficiente existente implementado por todos los principales sistemas de reconocimiento de voz. ^[23]^[106]^[107] El análisis realizado entre 2009 y 2010, que contrastaba el GMM (y otros modelos de habla generativa) con los modelos DNN, estimuló la inversión industrial temprana en aprendizaje profundo para el reconocimiento de voz. ^[105] Ese análisis se realizó con un rendimiento comparable (menos del 1,5 % en tasa de error) entre las DNN discriminativas y los modelos generativos. ^[104]^[105]^[108] En 2010, los investigadores extendieron el aprendizaje profundo de TIMIT al reconocimiento de voz de vocabulario amplio, adoptando grandes capas de salida de la DNN basadas en estados HMM dependientes del contexto construidos por árboles de decisión . ^[109]^[110]^[111]^[106]

La revolución del aprendizaje profundo

Cómo el aprendizaje profundo es un subconjunto del aprendizaje automático y cómo el aprendizaje automático es un subconjunto de la inteligencia artificial (IA)

La revolución del aprendizaje profundo comenzó en torno a la visión artificial basada en CNN y GPU.

Aunque las CNN entrenadas por retropropagación han existido durante décadas y las implementaciones de NN en GPU durante años, ^[112] incluidas las CNN, ^[113] se necesitaban implementaciones más rápidas de CNN en GPU para avanzar en la visión artificial. Más tarde, a medida que el aprendizaje profundo se generalizó, se desarrollaron optimizaciones de algoritmos y hardware especializados específicamente para el aprendizaje profundo. ^[114]

Un avance clave para la revolución del aprendizaje profundo fueron los avances en hardware, especialmente en GPU. Algunos de los primeros trabajos se remontan a 2004. ^[112]^[113] En 2009, Raina, Madhavan y Andrew Ng informaron sobre una red de creencias profundas de 100 millones entrenada en 30 GPU Nvidia GeForce GTX 280 , una demostración temprana del aprendizaje profundo basado en GPU. Informaron de un entrenamiento hasta 70 veces más rápido. ^[115]

En 2011, una CNN llamada DanNet ^[116]^[117] de Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella y Jürgen Schmidhuber logró por primera vez un rendimiento sobrehumano en un concurso de reconocimiento de patrones visuales, superando a los métodos tradicionales por un factor de 3. ^[9] Luego ganó más concursos. ^[118]^[119] También demostraron cómo la agrupación máxima de CNN en la GPU mejoró el rendimiento significativamente. ^[3]

En 2012, Andrew Ng y Jeff Dean crearon una FNN que aprendió a reconocer conceptos de nivel superior, como los gatos, solo al mirar imágenes sin etiquetas tomadas de videos de YouTube . ^[120]

En octubre de 2012, AlexNet de Alex Krizhevsky , Ilya Sutskever y Geoffrey Hinton ^{[4] ganó la}competencia a gran escala de ImageNet por un margen significativo frente a los métodos de aprendizaje automático superficial. Otras mejoras incrementales incluyeron la red VGG-16 de Karen Simonyan y Andrew Zisserman ^{[121] y}la Inceptionv3 de Google . ^[122]

El éxito en la clasificación de imágenes se extendió luego a la tarea más desafiante de generar descripciones (títulos) para imágenes, a menudo como una combinación de CNN y LSTM. ^[123]^[124]^[125]

En 2014, el estado del arte era entrenar “redes neuronales muy profundas” con 20 a 30 capas. ^[126] Apilar demasiadas capas condujo a una reducción pronunciada en la precisión del entrenamiento , ^[127] conocido como el problema de “degradación”. ^[128] En 2015, se desarrollaron dos técnicas para entrenar redes muy profundas: la Highway Network se publicó en mayo de 2015 y la red neuronal residual (ResNet) ^[129] en diciembre de 2015. ResNet se comporta como una Highway Net de compuerta abierta.

Casi al mismo tiempo, el aprendizaje profundo comenzó a tener un impacto en el campo del arte. Los primeros ejemplos incluyeron Google DeepDream (2015) y la transferencia de estilo neuronal (2015), ^[130] ambos basados en redes neuronales de clasificación de imágenes preentrenadas, como VGG-19 .

La red generativa antagónica (GAN) de ( Ian Goodfellow et al., 2014) ^[131] (basada en el principio de curiosidad artificial de Jürgen Schmidhuber ^[74]^[76] ) se convirtió en el estado del arte en modelado generativo durante el período 2014-2018. Se logra una excelente calidad de imagen con StyleGAN de Nvidia (2018) ^[132] basado en la GAN progresiva de Tero Karras et al. ^[133] Aquí, el generador de GAN crece de pequeña a gran escala de manera piramidal. La generación de imágenes por GAN alcanzó un éxito popular y provocó discusiones sobre deepfakes . ^[134]Los modelos de difusión (2015) ^[135] eclipsaron a las GAN en el modelado generativo desde entonces, con sistemas como DALL·E 2 (2022) y Stable Diffusion (2022).

En 2015, el reconocimiento de voz de Google mejoró en un 49% gracias a un modelo basado en LSTM, que pusieron a disposición a través de Google Voice Search en teléfonos inteligentes . ^[136]^[137]

El aprendizaje profundo es parte de los sistemas de última generación en varias disciplinas, particularmente la visión por computadora y el reconocimiento automático de voz (ASR). Los resultados en conjuntos de evaluación de uso común, como TIMIT (ASR) y MNIST ( clasificación de imágenes ), así como una variedad de tareas de reconocimiento de voz de vocabulario amplio, han mejorado constantemente. ^[104]^[138] Las redes neuronales convolucionales fueron reemplazadas para ASR por LSTM . ^[137]^[139]^[140]^[141] pero son más exitosas en la visión por computadora.

Yoshua Bengio , Geoffrey Hinton y Yann LeCun recibieron el Premio Turing 2018 por "avances conceptuales y de ingeniería que han hecho de las redes neuronales profundas un componente crítico de la informática". ^[142]

Redes neuronales

Las redes neuronales artificiales ( RNA ) o sistemas conexionistas son sistemas informáticos inspirados en las redes neuronales biológicas que constituyen los cerebros animales. Dichos sistemas aprenden (mejoran progresivamente su capacidad) a realizar tareas considerando ejemplos, generalmente sin programación específica para la tarea. Por ejemplo, en el reconocimiento de imágenes, podrían aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que han sido etiquetadas manualmente como "gato" o "sin gato" y utilizando los resultados analíticos para identificar gatos en otras imágenes. Han encontrado mayor utilidad en aplicaciones difíciles de expresar con un algoritmo informático tradicional que utilice programación basada en reglas .

Una ANN se basa en una colección de unidades conectadas llamadas neuronas artificiales (análogas a las neuronas biológicas en un cerebro biológico ). Cada conexión ( sinapsis ) entre neuronas puede transmitir una señal a otra neurona. La neurona receptora (postsináptica) puede procesar la(s) señal(es) y luego enviar señales a las neuronas posteriores conectadas a ella. Las neuronas pueden tener un estado, generalmente representado por números reales , típicamente entre 0 y 1. Las neuronas y las sinapsis también pueden tener un peso que varía a medida que avanza el aprendizaje, lo que puede aumentar o disminuir la fuerza de la señal que envía.

Por lo general, las neuronas se organizan en capas. Las distintas capas pueden realizar distintos tipos de transformaciones en sus entradas. Las señales viajan desde la primera capa (de entrada) hasta la última (de salida), posiblemente después de atravesar las capas varias veces.

El objetivo original del enfoque de redes neuronales era resolver problemas de la misma manera que lo haría un cerebro humano. Con el tiempo, la atención se centró en la combinación de capacidades mentales específicas, lo que llevó a desviaciones de la biología, como la retropropagación , o el paso de información en la dirección inversa y el ajuste de la red para reflejar esa información.

Las redes neuronales se han utilizado en una variedad de tareas, incluidas la visión artificial, el reconocimiento de voz , la traducción automática , el filtrado de redes sociales , los juegos de mesa y de vídeo y el diagnóstico médico.

A partir de 2017, las redes neuronales suelen tener entre unos pocos miles y unos pocos millones de unidades y millones de conexiones. A pesar de que este número es varios órdenes de magnitud menor que el número de neuronas en un cerebro humano, estas redes pueden realizar muchas tareas a un nivel que supera al de los humanos (por ejemplo, reconocer rostros o jugar al "Go" ^[144] ).

Redes neuronales profundas

Una red neuronal profunda (DNN) es una red neuronal artificial con múltiples capas entre las capas de entrada y salida. ^[7]^[9] Existen diferentes tipos de redes neuronales, pero siempre constan de los mismos componentes: neuronas, sinapsis, pesos, sesgos y funciones. ^[145] Estos componentes en su conjunto funcionan de una manera que imita las funciones del cerebro humano y se pueden entrenar como cualquier otro algoritmo de aprendizaje automático. ^{[ cita requerida ]}

Por ejemplo, una red neuronal profunda (DNN) que está entrenada para reconocer razas de perros examinará la imagen dada y calculará la probabilidad de que el perro en la imagen sea de una raza determinada. El usuario puede revisar los resultados y seleccionar qué probabilidades debe mostrar la red (por encima de un cierto umbral, etc.) y devolver la etiqueta propuesta. Cada manipulación matemática como tal se considera una capa, ^{[ cita requerida ]} y las DNN complejas tienen muchas capas, de ahí el nombre de redes "profundas".

Las redes neuronales profundas (DNN) pueden modelar relaciones no lineales complejas. Las arquitecturas de DNN generan modelos compositivos en los que el objeto se expresa como una composición en capas de primitivos . ^[146] Las capas adicionales permiten la composición de características de capas inferiores, lo que potencialmente modela datos complejos con menos unidades que una red superficial de rendimiento similar. ^[7] Por ejemplo, se demostró que los polinomios multivariados dispersos son exponencialmente más fáciles de aproximar con DNN que con redes superficiales. ^[147]

Las arquitecturas profundas incluyen muchas variantes de unos pocos enfoques básicos. Cada arquitectura ha tenido éxito en dominios específicos. No siempre es posible comparar el rendimiento de varias arquitecturas, a menos que se hayan evaluado en los mismos conjuntos de datos.

Las redes neuronales profundas (DNN) son redes de retroalimentación en las que los datos fluyen desde la capa de entrada a la capa de salida sin retroceder. En primer lugar, la DNN crea un mapa de neuronas virtuales y asigna valores numéricos aleatorios, o "pesos", a las conexiones entre ellas. Los pesos y las entradas se multiplican y devuelven una salida entre 0 y 1. Si la red no reconoce con precisión un patrón particular, un algoritmo ajustaría los pesos. ^[148] De esa manera, el algoritmo puede hacer que ciertos parámetros sean más influyentes, hasta que determine la manipulación matemática correcta para procesar completamente los datos.

Las redes neuronales recurrentes , en las que los datos pueden fluir en cualquier dirección, se utilizan para aplicaciones como el modelado del lenguaje . ^[149]^[150]^[151]^[152]^[153] La memoria a corto plazo es particularmente eficaz para este uso. ^[154]^[155]

Las redes neuronales convolucionales (CNN) se utilizan en la visión artificial. ^[156] Las CNN también se han aplicado al modelado acústico para el reconocimiento automático del habla (ASR). ^[157]

Desafíos

Al igual que con las ANN, pueden surgir muchos problemas con las DNN entrenadas de forma ingenua. Dos problemas comunes son el sobreajuste y el tiempo de cálculo.

Las redes neuronales profundas son propensas a sobreajustarse debido a las capas de abstracción agregadas, que les permiten modelar dependencias raras en los datos de entrenamiento. Los métodos de regularización como la poda de unidades de Ivakhnenko ^[41] o la disminución de peso ( -regularización) o la escasez ( -regularización) se pueden aplicar durante el entrenamiento para combatir el sobreajuste. ^[158] Alternativamente, la regularización de abandono omite aleatoriamente unidades de las capas ocultas durante el entrenamiento. Esto ayuda a excluir dependencias raras. ^[159] Finalmente, los datos se pueden aumentar a través de métodos como el recorte y la rotación de modo que se pueda aumentar el tamaño de los conjuntos de entrenamiento más pequeños para reducir las posibilidades de sobreajuste. ^[160] $\ell _{2}$ $\ell _{1}$

Las DNN deben considerar muchos parámetros de entrenamiento, como el tamaño (número de capas y número de unidades por capa), la tasa de aprendizaje y los pesos iniciales. Es posible que no sea posible recorrer el espacio de parámetros para encontrar los parámetros óptimos debido al costo en tiempo y recursos computacionales. Varios trucos, como el procesamiento por lotes (computar el gradiente en varios ejemplos de entrenamiento a la vez en lugar de ejemplos individuales) ^[161] aceleran el cálculo. Las grandes capacidades de procesamiento de las arquitecturas de múltiples núcleos (como las GPU o Intel Xeon Phi) han producido aceleraciones significativas en el entrenamiento, debido a la idoneidad de dichas arquitecturas de procesamiento para los cálculos matriciales y vectoriales. ^[162]^[163]

Como alternativa, los ingenieros pueden buscar otros tipos de redes neuronales con algoritmos de entrenamiento más sencillos y convergentes. CMAC ( controlador de articulación del modelo cerebeloso ) es uno de esos tipos de redes neuronales. No requiere tasas de aprendizaje ni pesos iniciales aleatorios. Se puede garantizar que el proceso de entrenamiento converja en un solo paso con un nuevo lote de datos, y la complejidad computacional del algoritmo de entrenamiento es lineal con respecto al número de neuronas involucradas. ^[164]^[165]

Hardware

Desde la década de 2010, los avances tanto en algoritmos de aprendizaje automático como en hardware informático han dado lugar a métodos más eficientes para entrenar redes neuronales profundas que contienen muchas capas de unidades ocultas no lineales y una capa de salida muy grande. ^[166] Para 2019, las unidades de procesamiento gráfico (GPU), a menudo con mejoras específicas de IA, habían desplazado a las CPU como el método dominante para entrenar IA comercial en la nube a gran escala. ^[167] OpenAI estimó el cálculo de hardware utilizado en los proyectos de aprendizaje profundo más grandes desde AlexNet (2012) hasta AlphaZero (2017) y encontró un aumento de 300.000 veces en la cantidad de cálculo requerido, con una línea de tendencia de tiempo de duplicación de 3,4 meses. ^[168]^[169]

Se diseñaron circuitos electrónicos especiales llamados procesadores de aprendizaje profundo para acelerar los algoritmos de aprendizaje profundo. Los procesadores de aprendizaje profundo incluyen unidades de procesamiento neuronal (NPU) en los teléfonos celulares Huawei ^[170] y servidores de computación en la nube como unidades de procesamiento tensorial (TPU) en Google Cloud Platform . ^[171] Cerebras Systems también ha construido un sistema dedicado para manejar grandes modelos de aprendizaje profundo, el CS-2, basado en el procesador más grande de la industria, el Wafer Scale Engine (WSE-2) de segunda generación. ^[172]^[173]

Los semiconductores atómicamente delgados se consideran prometedores para el hardware de aprendizaje profundo de bajo consumo energético, donde se utiliza la misma estructura básica del dispositivo tanto para las operaciones lógicas como para el almacenamiento de datos. En 2020, Marega et al. publicaron experimentos con un material de canal activo de área grande para desarrollar dispositivos y circuitos de lógica en memoria basados en transistores de efecto de campo de puerta flotante (FGFET). ^[174]

En 2021, J. Feldmann et al. propusieron un acelerador de hardware fotónico integrado para el procesamiento convolucional paralelo. ^[175] Los autores identifican dos ventajas clave de la fotónica integrada sobre sus contrapartes electrónicas: (1) transferencia masiva de datos en paralelo a través de multiplexación por división de longitud de onda junto con peines de frecuencia , y (2) velocidades de modulación de datos extremadamente altas. ^[175] Su sistema puede ejecutar billones de operaciones de multiplicación-acumulación por segundo, lo que indica el potencial de la fotónica integrada en aplicaciones de IA con gran cantidad de datos. ^[175]

Aplicaciones

Reconocimiento automático de voz

El reconocimiento automático de voz a gran escala es el primer y más convincente caso exitoso de aprendizaje profundo. Las RNN LSTM pueden aprender tareas de "aprendizaje muy profundo" ^[9] que involucran intervalos de varios segundos que contienen eventos de voz separados por miles de pasos de tiempo discretos, donde un paso de tiempo corresponde a aproximadamente 10 ms. El LSTM con puertas de olvido ^[155] es competitivo con los reconocedores de voz tradicionales en ciertas tareas. ^[93]

El éxito inicial en el reconocimiento de voz se basó en tareas de reconocimiento a pequeña escala basadas en TIMIT. El conjunto de datos contiene 630 hablantes de ocho dialectos principales del inglés americano , donde cada hablante lee 10 oraciones. ^[176] Su pequeño tamaño permite probar muchas configuraciones. Más importante aún, la tarea TIMIT se refiere al reconocimiento de secuencias de fonemas , que, a diferencia del reconocimiento de secuencias de palabras, permite modelos de lenguaje de bigramas de fonemas débiles . Esto permite analizar más fácilmente la solidez de los aspectos de modelado acústico del reconocimiento de voz. Las tasas de error que se enumeran a continuación, incluidos estos primeros resultados y medidas como porcentajes de tasas de error de fonemas (PER), se han resumido desde 1991.

El debut de las DNN para el reconocimiento de hablantes a finales de los años 1990 y el reconocimiento de voz alrededor de 2009-2011 y de LSTM alrededor de 2003-2007, aceleró el progreso en ocho áreas principales: ^[23]^[108]^[106]

Escalabilidad vertical y horizontal, y entrenamiento y decodificación acelerados de DNN
Entrenamiento discriminativo de secuencias
Procesamiento de características mediante modelos profundos con una sólida comprensión de los mecanismos subyacentes
Adaptación de DNN y modelos profundos relacionados
Aprendizaje multitarea y por transferencia mediante redes neuronales profundas (DNN) y modelos profundos relacionados
CNN y cómo diseñarlas para aprovechar al máximo el conocimiento del dominio del habla
RNN y sus ricas variantes LSTM
Otros tipos de modelos profundos, incluidos modelos basados en tensores y modelos generativos/discriminativos profundos integrados.

Todos los principales sistemas comerciales de reconocimiento de voz (por ejemplo, Microsoft Cortana , Xbox , Skype Translator , Amazon Alexa , Google Now , Apple Siri , búsqueda por voz de Baidu e iFlyTek y una gama de productos de voz de Nuance , etc.) se basan en el aprendizaje profundo. ^[23]^[181]^[182]

Reconocimiento de imágenes

Richard Green explica cómo se utiliza el aprendizaje profundo con un vehículo operado a distancia en la acuicultura de mejillones

Un conjunto de evaluación común para la clasificación de imágenes es el conjunto de datos de la base de datos MNIST . MNIST está compuesto de dígitos escritos a mano e incluye 60.000 ejemplos de entrenamiento y 10.000 ejemplos de prueba. Al igual que con TIMIT, su pequeño tamaño permite a los usuarios probar múltiples configuraciones. Hay disponible una lista completa de resultados de este conjunto. ^[183]

El reconocimiento de imágenes basado en el aprendizaje profundo se ha vuelto "sobrehumano", ya que produce resultados más precisos que los de los participantes humanos. Esto ocurrió por primera vez en 2011 con el reconocimiento de señales de tráfico y, en 2014, con el reconocimiento de rostros humanos. ^[184]^[185]

Los vehículos entrenados mediante aprendizaje profundo ahora interpretan vistas de cámara de 360°. ^[186] Otro ejemplo es el Análisis Novel de Dismorfología Facial (FDNA) utilizado para analizar casos de malformaciones humanas conectados a una gran base de datos de síndromes genéticos.

Procesamiento de arte visual

Estrechamente relacionado con el progreso que se ha logrado en el reconocimiento de imágenes está la creciente aplicación de técnicas de aprendizaje profundo a diversas tareas de arte visual. Las redes neuronales profundas han demostrado ser capaces, por ejemplo, de:

Identificación del período estilístico de una pintura determinada ^[187]^[188]
Transferencia de estilo neuronal : captura del estilo de una obra de arte determinada y su aplicación de una manera visualmente agradable a una fotografía o un vídeo arbitrarios ^[187]^[188]
Generando imágenes impactantes basadas en campos de entrada visual aleatorios. ^[187]^[188]

Procesamiento del lenguaje natural

Las redes neuronales se han utilizado para implementar modelos de lenguaje desde principios de la década de 2000. ^[149] LSTM ayudó a mejorar la traducción automática y el modelado del lenguaje. ^[150]^[151]^[152]

Otras técnicas clave en este campo son el muestreo negativo ^[189] y la incrustación de palabras . La incrustación de palabras, como word2vec , puede considerarse como una capa de representación en una arquitectura de aprendizaje profundo que transforma una palabra atómica en una representación posicional de la palabra en relación con otras palabras en el conjunto de datos; la posición se representa como un punto en un espacio vectorial . El uso de la incrustación de palabras como una capa de entrada de RNN permite que la red analice oraciones y frases utilizando una gramática vectorial compositiva eficaz. Una gramática vectorial compositiva puede considerarse como una gramática probabilística libre de contexto (PCFG) implementada por una RNN. ^[190] Los autocodificadores recursivos construidos sobre incrustaciones de palabras pueden evaluar la similitud de oraciones y detectar paráfrasis. ^[190] Las arquitecturas neuronales profundas proporcionan los mejores resultados para el análisis de distritos electorales, ^[191] análisis de sentimientos , ^[192] recuperación de información, ^[193]^[194] comprensión del lenguaje hablado, ^[195] traducción automática, ^[150]^[196] vinculación de entidades contextuales, ^[196] reconocimiento de estilo de escritura, ^[197] reconocimiento de entidades nombradas (clasificación de tokens), ^[198] clasificación de texto y otros. ^[199]

Los desarrollos recientes generalizan la incrustación de palabras a la incrustación de oraciones .

Google Translate (GT) utiliza una gran red de memoria a corto plazo (LSTM) de extremo a extremo . ^[200]^[201]^[202]^[203] Google Neural Machine Translation (GNMT) utiliza un método de traducción automática basado en ejemplos en el que el sistema "aprende de millones de ejemplos". ^[201] Traduce "oraciones completas a la vez, en lugar de fragmentos". Google Translate admite más de cien idiomas. ^[201] La red codifica la "semántica de la oración en lugar de simplemente memorizar traducciones frase por frase". ^[201]^[204] GT utiliza el inglés como intermediario entre la mayoría de los pares de idiomas. ^[204]

Identificación forense

En 2023, Murray et al. desarrollaron una arquitectura de aprendizaje profundo capaz de determinar si un acusado debería ser juzgado como niño o como adulto. Su software pudo estimar la edad del sujeto con una precisión significativa. El mismo equipo ha desarrollado arquitecturas capaces de realizar comparaciones ante-mortem y post-mortem y determinar el sexo del sujeto. ^[205]

Descubrimiento de fármacos y toxicología

Un gran porcentaje de fármacos candidatos no consigue la aprobación regulatoria. Estos fracasos se deben a una eficacia insuficiente (efecto en el objetivo), interacciones no deseadas (efectos fuera del objetivo) o efectos tóxicos imprevistos . ^[206]^[207] La investigación ha explorado el uso del aprendizaje profundo para predecir los objetivos biomoleculares , ^[208]^{[209] los efectos} fuera del objetivo y los efectos tóxicos de los productos químicos ambientales en nutrientes, productos domésticos y medicamentos. ^[210]^[211]^[212]

AtomNet es un sistema de aprendizaje profundo para el diseño racional de fármacos basado en la estructura . ^[213] AtomNet se utilizó para predecir nuevas biomoléculas candidatas para enfermedades como el virus del Ébola ^[214] y la esclerosis múltiple . ^[215]^[214]

En 2017, se utilizaron por primera vez redes neuronales gráficas para predecir varias propiedades de moléculas en un gran conjunto de datos toxicológicos. ^[216] En 2019, se utilizaron redes neuronales generativas para producir moléculas que se validaron experimentalmente en ratones. ^[217]^[218]

Gestión de la relación con el cliente

El aprendizaje por refuerzo profundo se ha utilizado para aproximar el valor de posibles acciones de marketing directo , definidas en términos de variables RFM . Se ha demostrado que la función de valor estimada tiene una interpretación natural como valor de vida del cliente . ^[219]

Sistemas de recomendación

Los sistemas de recomendación han utilizado el aprendizaje profundo para extraer características significativas para un modelo de factor latente para recomendaciones de música y revistas basadas en contenido. ^[220]^[221] El aprendizaje profundo de múltiples vistas se ha aplicado para conocer las preferencias de los usuarios de múltiples dominios. ^[222] El modelo utiliza un enfoque híbrido colaborativo y basado en contenido y mejora las recomendaciones en múltiples tareas.

Bioinformática

Se utilizó una ANN autocodificadora en bioinformática para predecir anotaciones de ontología genética y relaciones entre genes y funciones. ^[223]

En informática médica, se utilizó el aprendizaje profundo para predecir la calidad del sueño basándose en datos de dispositivos portátiles ^[224] y predicciones de complicaciones de salud a partir de datos de registros médicos electrónicos . ^[225]

Las redes neuronales profundas han demostrado un rendimiento incomparable en la predicción de la estructura de las proteínas , según la secuencia de los aminoácidos que la componen. En 2020, AlphaFold , un sistema basado en aprendizaje profundo, logró un nivel de precisión significativamente superior a todos los métodos computacionales anteriores. ^[226]^[227]

Estimaciones de redes neuronales profundas

Las redes neuronales profundas se pueden utilizar para estimar la entropía de un proceso estocástico y se denominan Estimador de entropía conjunta neuronal (NJEE). ^[228] Dicha estimación proporciona información sobre los efectos de las variables aleatorias de entrada en una variable aleatoria independiente . En la práctica, la DNN se entrena como un clasificador que asigna un vector o matriz de entrada X a una distribución de probabilidad de salida sobre las posibles clases de la variable aleatoria Y, dada la entrada X. Por ejemplo, en tareas de clasificación de imágenes , el NJEE asigna un vector de valores de color de píxeles a probabilidades sobre posibles clases de imágenes. En la práctica, la distribución de probabilidad de Y se obtiene mediante una capa Softmax con un número de nodos que es igual al tamaño del alfabeto de Y. El NJEE utiliza funciones de activación continuamente diferenciables , de modo que se cumplen las condiciones para el teorema de aproximación universal . Se muestra que este método proporciona un estimador fuertemente consistente y supera a otros métodos en caso de tamaños de alfabeto grandes. ^[228]

Análisis de imágenes médicas

Se ha demostrado que el aprendizaje profundo produce resultados competitivos en aplicaciones médicas como la clasificación de células cancerosas, la detección de lesiones, la segmentación de órganos y la mejora de imágenes. ^[229]^[230] Las herramientas modernas de aprendizaje profundo demuestran la alta precisión en la detección de diversas enfermedades y la utilidad de su uso por parte de los especialistas para mejorar la eficiencia del diagnóstico. ^[231]^[232]

Publicidad móvil

Encontrar la audiencia móvil adecuada para la publicidad móvil siempre es un desafío, ya que se deben considerar y analizar muchos puntos de datos antes de que un segmento objetivo pueda crearse y usarse en la publicación de anuncios por parte de cualquier servidor de anuncios. ^[233] El aprendizaje profundo se ha utilizado para interpretar conjuntos de datos publicitarios grandes y multidimensionales. Muchos puntos de datos se recopilan durante el ciclo de solicitud/publicidad/clic en Internet. Esta información puede formar la base del aprendizaje automático para mejorar la selección de anuncios.

Restauración de imagen

El aprendizaje profundo se ha aplicado con éxito a problemas inversos como la eliminación de ruido , la superresolución , la restauración de imágenes y la coloración de películas . ^[234] Estas aplicaciones incluyen métodos de aprendizaje como "Campos de contracción para una restauración de imágenes efectiva" ^[235] que se entrena en un conjunto de datos de imágenes, y Deep Image Prior , que se entrena en la imagen que necesita restauración.

Detección de fraude financiero

El aprendizaje profundo se está aplicando con éxito a la detección de fraude financiero , evasión fiscal ^[236] y lucha contra el lavado de dinero. ^[237]

Ciencias de los materiales

En noviembre de 2023, los investigadores de Google DeepMind y del Laboratorio Nacional Lawrence Berkeley anunciaron que habían desarrollado un sistema de IA conocido como GNoME. Este sistema ha contribuido a la ciencia de los materiales al descubrir más de 2 millones de materiales nuevos en un período de tiempo relativamente corto. GNoME emplea técnicas de aprendizaje profundo para explorar de manera eficiente las posibles estructuras de los materiales, logrando un aumento significativo en la identificación de estructuras cristalinas inorgánicas estables . Las predicciones del sistema se validaron a través de experimentos robóticos autónomos, demostrando una notable tasa de éxito del 71%. Los datos de los materiales recién descubiertos están disponibles públicamente a través de la base de datos del Proyecto de Materiales , lo que ofrece a los investigadores la oportunidad de identificar materiales con las propiedades deseadas para diversas aplicaciones. Este desarrollo tiene implicaciones para el futuro del descubrimiento científico y la integración de la IA en la investigación de la ciencia de los materiales, acelerando potencialmente la innovación de materiales y reduciendo los costos en el desarrollo de productos. El uso de la IA y el aprendizaje profundo sugiere la posibilidad de minimizar o eliminar los experimentos manuales de laboratorio y permitir que los científicos se concentren más en el diseño y análisis de compuestos únicos. ^[238]^[239]^[240]

Militar

El Departamento de Defensa de los Estados Unidos aplicó el aprendizaje profundo para entrenar robots en nuevas tareas a través de la observación. ^[241]

Ecuaciones diferenciales parciales

Las redes neuronales informadas por la física se han utilizado para resolver ecuaciones diferenciales parciales en problemas tanto directos como inversos de una manera basada en datos. ^[242] Un ejemplo es la reconstrucción del flujo de fluidos gobernado por las ecuaciones de Navier-Stokes . El uso de redes neuronales informadas por la física no requiere la generación de mallas, a menudo costosa, en la que se basan los métodos CFD convencionales . ^[243]^[244]

Método de ecuación diferencial estocástica hacia atrás profunda

El método de ecuación diferencial estocástica hacia atrás profunda es un método numérico que combina el aprendizaje profundo con la ecuación diferencial estocástica hacia atrás (BSDE). Este método es particularmente útil para resolver problemas de alta dimensión en matemáticas financieras. Al aprovechar las poderosas capacidades de aproximación de funciones de las redes neuronales profundas , la BSDE profunda aborda los desafíos computacionales que enfrentan los métodos numéricos tradicionales en entornos de alta dimensión. Específicamente, los métodos tradicionales como los métodos de diferencias finitas o las simulaciones de Monte Carlo a menudo luchan con la maldición de la dimensionalidad, donde el costo computacional aumenta exponencialmente con el número de dimensiones. Los métodos BSDE profundos, sin embargo, emplean redes neuronales profundas para aproximar soluciones de ecuaciones diferenciales parciales (PDE) de alta dimensión, lo que reduce efectivamente la carga computacional. ^[245]

Además, la integración de redes neuronales informadas por la física (PINN) en el marco BSDE profundo mejora su capacidad al incorporar las leyes físicas subyacentes directamente en la arquitectura de la red neuronal. Esto garantiza que las soluciones no solo se ajusten a los datos, sino que también cumplan con las ecuaciones diferenciales estocásticas que las rigen. Las PINN aprovechan el poder del aprendizaje profundo al tiempo que respetan las limitaciones impuestas por los modelos físicos, lo que da como resultado soluciones más precisas y confiables para los problemas de matemáticas financieras.

Reconstrucción de imágenes

La reconstrucción de imágenes es la reconstrucción de las imágenes subyacentes a partir de las mediciones relacionadas con las imágenes. Varios trabajos demostraron que los métodos de aprendizaje profundo tienen un rendimiento mejor y superior al de los métodos analíticos para diversas aplicaciones, por ejemplo, imágenes espectrales ^[246] e imágenes por ultrasonidos. ^[247]

Predicción del tiempo

Los sistemas tradicionales de predicción meteorológica resuelven un sistema muy complejo de ecuaciones diferenciales parciales. GraphCast es un modelo basado en aprendizaje profundo, entrenado con un largo historial de datos meteorológicos para predecir cómo cambian los patrones meteorológicos con el tiempo. Es capaz de predecir las condiciones meteorológicas para hasta 10 días a nivel mundial, con un nivel muy detallado y en menos de un minuto, con una precisión similar a la de los sistemas de última generación. ^[248]^[249]

Reloj epigenético

Un reloj epigenético es una prueba bioquímica que se puede utilizar para medir la edad. Galkin et al. utilizaron redes neuronales profundas para entrenar un reloj de envejecimiento epigenético de precisión sin precedentes utilizando >6000 muestras de sangre. ^[250] El reloj utiliza información de 1000 sitios CpG y predice que las personas con ciertas afecciones serán mayores que los controles sanos: EII , demencia frontotemporal , cáncer de ovario , obesidad . El reloj de envejecimiento estaba previsto que se lanzara para uso público en 2021 por una empresa derivada de Insilico Medicine, Deep Longevity.

Relación con el desarrollo cognitivo y cerebral humano

El aprendizaje profundo está estrechamente relacionado con una clase de teorías del desarrollo cerebral (específicamente, el desarrollo neocortical) propuestas por neurocientíficos cognitivos a principios de la década de 1990. ^[251]^[252]^[253]^[254] Estas teorías del desarrollo se instanciaron en modelos computacionales, lo que las convierte en predecesoras de los sistemas de aprendizaje profundo. Estos modelos de desarrollo comparten la propiedad de que varias dinámicas de aprendizaje propuestas en el cerebro (por ejemplo, una onda del factor de crecimiento nervioso ) respaldan la autoorganización de manera algo análoga a las redes neuronales utilizadas en los modelos de aprendizaje profundo. Al igual que el neocórtex , las redes neuronales emplean una jerarquía de filtros en capas en la que cada capa considera la información de una capa anterior (o el entorno operativo) y luego pasa su salida (y posiblemente la entrada original) a otras capas. Este proceso produce una pila autoorganizada de transductores , bien ajustados a su entorno operativo. Una descripción de 1995 afirmaba: "... el cerebro del bebé parece organizarse bajo la influencia de ondas de los llamados factores tróficos... diferentes regiones del cerebro se conectan secuencialmente, con una capa de tejido madurando antes que otra y así sucesivamente hasta que todo el cerebro está maduro". ^[255]

Se han utilizado diversos enfoques para investigar la plausibilidad de los modelos de aprendizaje profundo desde una perspectiva neurobiológica. Por un lado, se han propuesto varias variantes del algoritmo de retropropagación con el fin de aumentar su realismo de procesamiento. ^[256]^[257] Otros investigadores han argumentado que las formas no supervisadas de aprendizaje profundo, como las basadas en modelos generativos jerárquicos y redes de creencias profundas , pueden estar más cerca de la realidad biológica. ^[258]^[259] En este sentido, los modelos de redes neuronales generativas se han relacionado con la evidencia neurobiológica sobre el procesamiento basado en muestreo en la corteza cerebral. ^[260]

Aunque todavía no se ha establecido una comparación sistemática entre la organización del cerebro humano y la codificación neuronal en redes profundas, se han reportado varias analogías. Por ejemplo, los cálculos realizados por unidades de aprendizaje profundo podrían ser similares a los de las neuronas reales ^[261] y las poblaciones neuronales. ^[262] De manera similar, las representaciones desarrolladas por modelos de aprendizaje profundo son similares a las medidas en el sistema visual de los primates ^[263] tanto a nivel de unidad individual ^[264] como a nivel de población ^[265] .

Actividad comercial

El laboratorio de inteligencia artificial de Facebook realiza tareas como etiquetar automáticamente las imágenes cargadas con los nombres de las personas que aparecen en ellas. ^[266]

DeepMind Technologies de Google desarrolló un sistema capaz de aprender a jugar a los videojuegos de Atari utilizando solo píxeles como entrada de datos. En 2015, demostraron su sistema AlphaGo , que aprendió el juego de Go lo suficientemente bien como para vencer a un jugador profesional de Go. ^[267]^[268]^[269] Google Translate utiliza una red neuronal para traducir entre más de 100 idiomas.

En 2017, se lanzó Covariant.ai, que se centra en integrar el aprendizaje profundo en las fábricas. ^[270]

A partir de 2008, ^[271] investigadores de la Universidad de Texas en Austin (UT) desarrollaron un marco de aprendizaje automático llamado Entrenamiento manual de un agente mediante refuerzo evaluativo, o TAMER, que proponía nuevos métodos para que los robots o los programas informáticos aprendieran a realizar tareas interactuando con un instructor humano. ^[241] Desarrollado inicialmente como TAMER, un nuevo algoritmo llamado Deep TAMER se introdujo más tarde en 2018 durante una colaboración entre el Laboratorio de Investigación del Ejército de EE. UU. (ARL) e investigadores de UT. Deep TAMER utilizó el aprendizaje profundo para proporcionar a un robot la capacidad de aprender nuevas tareas a través de la observación. ^[241] Con Deep TAMER, un robot aprendió una tarea con un entrenador humano, viendo transmisiones de video u observando a un humano realizar una tarea en persona. Posteriormente, el robot practicó la tarea con la ayuda de algún entrenamiento del entrenador, quien proporcionó comentarios como "buen trabajo" y "mal trabajo". ^[272]

Crítica y comentario

El aprendizaje profundo ha atraído tanto críticas como comentarios, en algunos casos desde fuera del campo de la informática.

Teoría

Una crítica principal se refiere a la falta de teoría en torno a algunos métodos. ^[273] El aprendizaje en las arquitecturas profundas más comunes se implementa utilizando un descenso de gradiente bien entendido. Sin embargo, la teoría que rodea a otros algoritmos, como la divergencia contrastiva, es menos clara. ^{[ cita requerida ]} (por ejemplo, ¿converge? Si es así, ¿qué tan rápido? ¿A qué se aproxima?) Los métodos de aprendizaje profundo a menudo se consideran una caja negra , con la mayoría de las confirmaciones realizadas empíricamente, en lugar de teóricamente. ^[274]

Otros señalan que el aprendizaje profundo debe considerarse un paso hacia la consecución de una IA potente , no una solución integral. A pesar del poder de los métodos de aprendizaje profundo, aún carecen de gran parte de la funcionalidad necesaria para alcanzar este objetivo por completo. El psicólogo investigador Gary Marcus señaló:

En términos realistas, el aprendizaje profundo es solo una parte del desafío más amplio de construir máquinas inteligentes. Estas técnicas carecen de formas de representar relaciones causales (...) no tienen formas obvias de realizar inferencias lógicas y también están muy lejos de integrar conocimiento abstracto, como información sobre qué son los objetos, para qué sirven y cómo se usan típicamente. Los sistemas de IA más poderosos, como Watson (...) usan técnicas como el aprendizaje profundo como solo un elemento en un conjunto muy complicado de técnicas, que van desde la técnica estadística de inferencia bayesiana hasta el razonamiento deductivo . ^[275]

En referencia adicional a la idea de que la sensibilidad artística podría ser inherente a niveles relativamente bajos de la jerarquía cognitiva, una serie publicada de representaciones gráficas de los estados internos de redes neuronales profundas (20-30 capas) que intentan discernir dentro de datos esencialmente aleatorios las imágenes en las que fueron entrenadas ^[276] demuestran un atractivo visual: el aviso de investigación original recibió más de 1.000 comentarios y fue el tema de lo que durante un tiempo fue el artículo al que se accedió con mayor frecuencia en el sitio web de The Guardian^[277] .

Errores

Algunas arquitecturas de aprendizaje profundo presentan comportamientos problemáticos, ^[278] como clasificar con seguridad imágenes irreconocibles como pertenecientes a una categoría familiar de imágenes ordinarias (2014) ^[279] y clasificar erróneamente perturbaciones minúsculas de imágenes clasificadas correctamente (2013). ^[280] Goertzel planteó la hipótesis de que estos comportamientos se deben a limitaciones en sus representaciones internas y que estas limitaciones inhibirían la integración en arquitecturas de inteligencia artificial general (AGI) heterogéneas de múltiples componentes. ^[278] Estos problemas posiblemente se puedan abordar mediante arquitecturas de aprendizaje profundo que formen internamente estados homólogos a las descomposiciones de imágenes-gramaticales ^[281] de entidades y eventos observados. ^[278] Aprender una gramática (visual o lingüística) a partir de datos de entrenamiento sería equivalente a restringir el sistema al razonamiento de sentido común que opera sobre conceptos en términos de reglas de producción gramaticales y es un objetivo básico tanto de la adquisición del lenguaje humano ^[282] como de la inteligencia artificial (IA). ^[283]

Amenaza cibernética

A medida que el aprendizaje profundo pasa del laboratorio al mundo real, la investigación y la experiencia muestran que las redes neuronales artificiales son vulnerables a los ataques y al engaño. ^[284] Al identificar los patrones que estos sistemas utilizan para funcionar, los atacantes pueden modificar las entradas a las ANN de tal manera que la ANN encuentre una coincidencia que los observadores humanos no reconocerían. Por ejemplo, un atacante puede realizar cambios sutiles en una imagen de tal manera que la ANN encuentre una coincidencia aunque la imagen no se parezca en nada al objetivo de búsqueda para un humano. Tal manipulación se denomina " ataque adversarial ". ^[285]

En 2016, los investigadores utilizaron una ANN para manipular imágenes mediante ensayo y error, identificar los puntos focales de otra y, de ese modo, generar imágenes que la engañaran. Las imágenes modificadas no se veían diferentes a los ojos humanos. Otro grupo demostró que las impresiones de imágenes manipuladas y luego fotografiadas engañaron con éxito a un sistema de clasificación de imágenes. ^[286] Una defensa es la búsqueda inversa de imágenes, en la que una posible imagen falsa se envía a un sitio como TinEye que luego puede encontrar otras instancias de la misma. Un refinamiento es buscar utilizando solo partes de la imagen, para identificar imágenes de las que se puede haber tomado esa parte . ^[287]

Otro grupo demostró que ciertos espectáculos psicodélicos podían engañar a un sistema de reconocimiento facial para que pensara que la gente común era una celebridad, lo que potencialmente permitía que una persona se hiciera pasar por otra. En 2017, unos investigadores añadieron pegatinas a las señales de stop y provocaron que una red neuronal artificial las clasificara erróneamente. ^[286]

Sin embargo, las ANN pueden ser entrenadas aún más para detectar intentos de engaño , lo que podría llevar a los atacantes y defensores a una carrera armamentista similar a la que ya define la industria de defensa contra malware . Las ANN han sido entrenadas para derrotar al software anti- malware basado en ANN atacando repetidamente una defensa con malware que fue alterado continuamente por un algoritmo genético hasta que engañó al anti-malware mientras conservaba su capacidad de dañar el objetivo. ^[286]

En 2016, otro grupo demostró que ciertos sonidos podían hacer que el sistema de comandos de voz de Google Now abriera una dirección web en particular, y planteó la hipótesis de que esto podría "servir como trampolín para futuros ataques (por ejemplo, abrir una página web que alberga malware drive-by)". ^[286]

En el " envenenamiento de datos ", se introducen continuamente datos falsos en el conjunto de entrenamiento de un sistema de aprendizaje automático para evitar que logre dominarlo. ^[286]

Ética de la recopilación de datos

La mayoría de los sistemas de aprendizaje profundo se basan en datos de entrenamiento y verificación generados y/o anotados por humanos. ^[288] Se ha argumentado en la filosofía de los medios que no solo se implementa regularmente el trabajo de clic mal pagado (por ejemplo, en Amazon Mechanical Turk ) para este propósito, sino también formas implícitas de microtrabajo humano que a menudo no se reconocen como tales. ^[289] El filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" de microtrabajo humano para generar datos de entrenamiento: (1) gamificación (la incrustación de tareas de anotación o cálculo en el flujo de un juego), (2) "captura y seguimiento" (por ejemplo, CAPTCHA para reconocimiento de imágenes o seguimiento de clics en las páginas de resultados de búsqueda de Google ), (3) explotación de motivaciones sociales (por ejemplo, etiquetar rostros en Facebook para obtener imágenes faciales etiquetadas), (4) minería de información (por ejemplo, aprovechando dispositivos de yo cuantificado como rastreadores de actividad ) y (5) trabajo de clic . ^[289]

Mühlhoff sostiene que en la mayoría de las aplicaciones comerciales de aprendizaje profundo para usuarios finales, como el sistema de reconocimiento facial de Facebook , la necesidad de datos de entrenamiento no se detiene una vez que se entrena una ANN. Más bien, existe una demanda continua de datos de verificación generados por humanos para calibrar y actualizar constantemente la ANN. Para este propósito, Facebook introdujo la función de que una vez que un usuario es reconocido automáticamente en una imagen, recibe una notificación. Puede elegir si desea o no ser etiquetado públicamente en la imagen, o decirle a Facebook que no es él el que está en la imagen. ^[290] Esta interfaz de usuario es un mecanismo para generar "un flujo constante de datos de verificación" ^[289] para entrenar aún más la red en tiempo real. Como sostiene Mühlhoff, la participación de usuarios humanos para generar datos de entrenamiento y verificación es tan típica para la mayoría de las aplicaciones comerciales de aprendizaje profundo para usuarios finales que dichos sistemas pueden denominarse "inteligencia artificial asistida por humanos". ^[289]

Véase también

Referencias

^ Schulz, Hannes; Behnke, Sven (1 de noviembre de 2012). "Aprendizaje profundo". KI-Künstliche Intelligenz . 26 (4): 357–363. doi :10.1007/s13218-012-0198-z. ISSN 1610-1987. S2CID 220523562.
^ ab LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Aprendizaje profundo" (PDF) . Nature . 521 (7553): 436–444. Bibcode :2015Natur.521..436L. doi :10.1038/nature14539. PMID 26017442. S2CID 3074096.
^ ab Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). "Redes neuronales profundas multicolumna para clasificación de imágenes". Conferencia IEEE de 2012 sobre visión artificial y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . doi :10.1109/cvpr.2012.6248110. ISBN . 978-1-4673-1228-8.S2CID2161592 .
^ ab Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). "Clasificación ImageNet con redes neuronales convolucionales profundas" (PDF) . NIPS 2012: Sistemas de procesamiento de información neuronal, Lake Tahoe, Nevada . Archivado (PDF) desde el original el 10 de enero de 2017. Consultado el 24 de mayo de 2017 .
^ "La IA AlphaGo de Google gana una serie de tres partidos contra el mejor jugador de Go del mundo". TechCrunch . 25 de mayo de 2017. Archivado desde el original el 17 de junio de 2018 . Consultado el 17 de junio de 2018 .
^ "Un estudio insta a tener cautela al comparar las redes neuronales con el cerebro". Noticias del MIT | Instituto Tecnológico de Massachusetts . 2022-11-02 . Consultado el 2023-12-06 .
^ abcd Bengio, Yoshua (2009). "Learning Deep Architectures for AI" (PDF) . Fundamentos y tendencias en aprendizaje automático . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi :10.1561/2200000006. S2CID 207178999. Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 3 de septiembre de 2015 .
^ abcde Bengio, Y.; Courville, A.; Vincent, P. (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence . 35 (8): 1798–1828. arXiv : 1206.5538 . doi :10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
^ abcdefgh Schmidhuber, J. (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes neuronales . 61 : 85–117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID 25462637. S2CID 11715509.
^ Shigeki, Sugiyama (12 de abril de 2019). El comportamiento humano y otro tipo de conciencia: nuevas investigaciones y oportunidades: nuevas investigaciones y oportunidades. IGI Global. ISBN 978-1-5225-8218-2.
^ Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Entrenamiento voraz por capas de redes profundas (PDF) . Avances en sistemas de procesamiento de información neuronal. págs. 153–160. Archivado (PDF) desde el original el 20 de octubre de 2019. Consultado el 6 de octubre de 2019 .
^ ab Hinton, GE (2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Bibcode :2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
^ Rina Dechter (1986). Aprendizaje durante la búsqueda en problemas de satisfacción de restricciones. Universidad de California, Departamento de Ciencias de la Computación, Laboratorio de Sistemas Cognitivos. Archivado en línea el 19 de abril de 2016 en Wayback Machine.
^ Aizenberg, IN; Aizenberg, NN; Vandewalle, J. (2000). Neuronas binarias universales y multivaluadas. Science & Business Media. doi :10.1007/978-1-4757-3115-6. ISBN. 978-0-7923-7824-2. Recuperado el 27 de diciembre de 2023 .
^ Las neuronas recurrentes que coevolucionan aprenden POMDP de memoria profunda. Proc. GECCO, Washington, DC, págs. 1795–1802, ACM Press, Nueva York, NY, EE. UU., 2005.
^ Fradkov, Alexander L. (1 de enero de 2020). "Historia temprana del aprendizaje automático". IFAC-PapersOnLine . 21.º Congreso Mundial de la IFAC. 53 (2): 1385–1390. doi : 10.1016/j.ifacol.2020.12.1888 . ISSN 2405-8963. S2CID 235081987.
^ abc Cybenko (1989). "Aproximaciones por superposición de funciones sigmoideas" (PDF) . Matemáticas de control, señales y sistemas . 2 (4): 303–314. Bibcode :1989MCSS....2..303C. doi :10.1007/bf02551274. S2CID 3958369. Archivado desde el original (PDF) el 10 de octubre de 2015.
^ abc Hornik, Kurt (1991). "Capacidades de aproximación de redes de propagación hacia adelante multicapa". Redes neuronales . 4 (2): 251–257. doi :10.1016/0893-6080(91)90009-t. S2CID 7343126.
^ ab Haykin, Simon S. (1999). Redes neuronales: una base integral. Prentice Hall. ISBN 978-0-13-273350-2.
^ ab Hassoun, Mohamad H. (1995). Fundamentos de las redes neuronales artificiales. MIT Press. pág. 48. ISBN 978-0-262-08239-6.
^ ab Lu, Z., Pu, H., Wang, F., Hu, Z. y Wang, L. (2017). El poder expresivo de las redes neuronales: una visión desde el ancho Archivado el 13 de febrero de 2019 en Wayback Machine . Sistemas de procesamiento de información neuronal, 6231-6239.
^ Orhan, AE; Ma, WJ (2017). "Inferencia probabilística eficiente en redes neuronales genéricas entrenadas con retroalimentación no probabilística". Nature Communications . 8 (1): 138. Bibcode :2017NatCo...8..138O. doi : 10.1038/s41467-017-00181-8 . PMC 5527101 . PMID 28743932.
^ a b c d e Deng, L.; Yu, D. (2014). "Deep Learning: Methods and Applications" (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1–199. doi:10.1561/2000000039. Archived (PDF) from the original on 2016-03-14. Retrieved 2014-10-18.
^ a b c d Murphy, Kevin P. (24 August 2012). Machine Learning: A Probabilistic Perspective. MIT Press. ISBN 978-0-262-01802-9.
^ a b Fukushima, K. (1969). "Visual feature extraction by a multilayered network of analog threshold elements". IEEE Transactions on Systems Science and Cybernetics. 5 (4): 322–333. doi:10.1109/TSSC.1969.300225.
^ Sonoda, Sho; Murata, Noboru (2017). "Neural network with unbounded activation functions is universal approximator". Applied and Computational Harmonic Analysis. 43 (2): 233–268. arXiv:1505.03654. doi:10.1016/j.acha.2015.12.005. S2CID 12149203.
^ Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). Springer. ISBN 978-0-387-31073-2. Archived (PDF) from the original on 2017-01-11. Retrieved 2017-08-06.
^ a b "bibliotheca Augustana". www.hs-augsburg.de.
^ Brush, Stephen G. (1967). "History of the Lenz-Ising Model". Reviews of Modern Physics. 39 (4): 883–893. Bibcode:1967RvMP...39..883B. doi:10.1103/RevModPhys.39.883.
^ a b Amari, Shun-Ichi (1972). "Learning patterns and pattern sequences by self-organizing nets of threshold elements". IEEE Transactions. C (21): 1197–1206.
^ a b c d e f g Schmidhuber, Jürgen (2022). "Annotated History of Modern AI and Deep Learning". arXiv:2212.11279 [cs.NE].
^ Hopfield, J. J. (1982). "Neural networks and physical systems with emergent collective computational abilities". Proceedings of the National Academy of Sciences. 79 (8): 2554–2558. Bibcode:1982PNAS...79.2554H. doi:10.1073/pnas.79.8.2554. PMC 346238. PMID 6953413.
^ Nakano, Kaoru (1971). "Learning Process in a Model of Associative Memory". Pattern Recognition and Machine Learning. pp. 172–186. doi:10.1007/978-1-4615-7566-5_15. ISBN 978-1-4615-7568-9.
^ Nakano, Kaoru (1972). "Associatron-A Model of Associative Memory". IEEE Transactions on Systems, Man, and Cybernetics. SMC-2 (3): 380–388. doi:10.1109/TSMC.1972.4309133.
^ Turing, Alan (1948). "Intelligent Machinery". Unpublished (Later Published in Ince DC, Editor, Collected Works of AM Turing—Mechanical Intelligence, Elsevier Science Publishers, 1992).
^ Rosenblatt, F. (1958). "The perceptron: A probabilistic model for information storage and organization in the brain". Psychological Review. 65 (6): 386–408. doi:10.1037/h0042519. ISSN 1939-1471. PMID 13602029.
^ a b Rosenblatt, Frank (1962). Principles of Neurodynamics. Spartan, New York.
^ Joseph, R. D. (1960). Contributions to Perceptron Theory, Cornell Aeronautical Laboratory Report No. VG-11 96--G-7, Buffalo.
^ Ivakhnenko, A. G.; Lapa, V. G. (1967). Cybernetics and Forecasting Techniques. American Elsevier Publishing Co. ISBN 978-0-444-00020-0.
^ Ivakhnenko, A.G. (March 1970). "Heuristic self-organization in problems of engineering cybernetics". Automatica. 6 (2): 207–219. doi:10.1016/0005-1098(70)90092-0.
^ a b Ivakhnenko, Alexey (1971). "Polynomial theory of complex systems" (PDF). IEEE Transactions on Systems, Man, and Cybernetics. SMC-1 (4): 364–378. doi:10.1109/TSMC.1971.4308320. Archived (PDF) from the original on 2017-08-29. Retrieved 2019-11-05.
^ Robbins, H.; Monro, S. (1951). "A Stochastic Approximation Method". The Annals of Mathematical Statistics. 22 (3): 400. doi:10.1214/aoms/1177729586.
^ Amari, Shun'ichi (1967). "A theory of adaptive pattern classifier". IEEE Transactions. EC (16): 279–307.
^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (October 16, 2017). "Searching for Activation Functions". arXiv:1710.05941 [cs.NE].
^ Fukushima, K. (1979). "Neural network model for a mechanism of pattern recognition unaffected by shift in position—Neocognitron". Trans. IECE (In Japanese). J62-A (10): 658–665. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
^ Fukushima, K. (1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biol. Cybern. 36 (4): 193–202. doi:10.1007/bf00344251. PMID 7370364. S2CID 206775608.
^ Leibniz, Gottfried Wilhelm Freiherr von (1920). The Early Mathematical Manuscripts of Leibniz: Translated from the Latin Texts Published by Carl Immanuel Gerhardt with Critical and Historical Notes (Leibniz published the chain rule in a 1676 memoir). Open court publishing Company. ISBN 9780598818461.
^ Kelley, Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282.
^ Linnainmaa, Seppo (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors (Masters) (in Finnish). University of Helsinki. p. 6–7.
^ Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367. S2CID 122357351.
^ Ostrovski, G.M., Volin,Y.M., and Boris, W.W. (1971). On the computation of derivatives. Wiss. Z. Tech. Hochschule for Chemistry, 13:382–384.
^ a b Schmidhuber, Juergen (25 Oct 2014). "Who Invented Backpropagation?". IDSIA, Switzerland. Archived from the original on 30 July 2024. Retrieved 14 Sep 2024.
^ Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770. Archived (PDF) from the original on 14 April 2016. Retrieved 2 July 2017.
^ Werbos, Paul J. (1994). The Roots of Backpropagation : From Ordered Derivatives to Neural Networks and Political Forecasting. New York: John Wiley & Sons. ISBN 0-471-59897-6.
^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (October 1986). "Learning representations by back-propagating errors". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0. ISSN 1476-4687.
^ Rumelhart, David E., Geoffrey E. Hinton, and R. J. Williams. "Learning Internal Representations by Error Propagation Archived 2022-10-13 at the Wayback Machine". David E. Rumelhart, James L. McClelland, and the PDP research group. (editors), Parallel distributed processing: Explorations in the microstructure of cognition, Volume 1: Foundation. MIT Press, 1986.
^ Waibel, Alex (December 1987). Phoneme Recognition Using Time-Delay Neural Networks (PDF). Meeting of the Institute of Electrical, Information and Communication Engineers (IEICE). Tokyo, Japan.
^ Alexander Waibel et al., Phoneme Recognition Using Time-Delay Neural Networks IEEE Transactions on Acoustics, Speech, and Signal Processing, Volume 37, No. 3, pp. 328. – 339 March 1989.
^ Zhang, Wei (1988). "Shift-invariant pattern recognition neural network and its optical architecture". Proceedings of Annual Conference of the Japan Society of Applied Physics.
^ LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition", Neural Computation, 1, pp. 541–551, 1989.
^ Zhang, Wei (1990). "Parallel distributed processing model with local space-invariant interconnections and its optical architecture". Applied Optics. 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. doi:10.1364/AO.29.004790. PMID 20577468.
^ Zhang, Wei (1991). "Image processing of human corneal endothelium based on a learning network". Applied Optics. 30 (29): 4211–7. Bibcode:1991ApOpt..30.4211Z. doi:10.1364/AO.30.004211. PMID 20706526.
^ Zhang, Wei (1994). "Computerized detection of clustered microcalcifications in digital mammograms using a shift-invariant artificial neural network". Medical Physics. 21 (4): 517–24. Bibcode:1994MedPh..21..517Z. doi:10.1118/1.597177. PMID 8058017.
^ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition" (PDF). Proceedings of the IEEE. 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552. doi:10.1109/5.726791. S2CID 14542261. Retrieved October 7, 2016.
^ Jordan, Michael I. (1986). "Attractor dynamics and parallelism in a connectionist sequential machine". Proceedings of the Annual Meeting of the Cognitive Science Society. 8.
^ Elman, Jeffrey L. (March 1990). "Finding Structure in Time". Cognitive Science. 14 (2): 179–211. doi:10.1207/s15516709cog1402_1. ISSN 0364-0213.
^ a b c Schmidhuber, Jürgen (April 1991). "Neural Sequence Chunkers" (PDF). TR FKI-148, TU Munich.
^ a b Schmidhuber, Jürgen (1992). "Learning complex, extended sequences using the principle of history compression (based on TR FKI-148, 1991)" (PDF). Neural Computation. 4 (2): 234–242. doi:10.1162/neco.1992.4.2.234. S2CID 18271205.
^ Schmidhuber, Jürgen (1993). Habilitation thesis: System modeling and optimization (PDF).^{[permanent dead link]} Page 150 ff demonstrates credit assignment across the equivalent of 1,200 layers in an unfolded RNN.
^ a b c S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". Archived 2015-03-06 at the Wayback Machine. Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.
^ Hochreiter, S.; et al. (15 January 2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". In Kolen, John F.; Kremer, Stefan C. (eds.). A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5.
^ Sepp Hochreiter; Jürgen Schmidhuber (21 August 1995), Long Short Term Memory, Wikidata Q98967430
^ Gers, Felix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Learning to forget: Continual prediction with LSTM". 9th International Conference on Artificial Neural Networks: ICANN '99. Vol. 1999. pp. 850–855. doi:10.1049/cp:19991218. ISBN 0-85296-721-7.
^ a b Schmidhuber, Jürgen (1991). "A possibility for implementing curiosity and boredom in model-building neural controllers". Proc. SAB'1991. MIT Press/Bradford Books. pp. 222–227.
^ Schmidhuber, Jürgen (2010). "Formal Theory of Creativity, Fun, and Intrinsic Motivation (1990-2010)". IEEE Transactions on Autonomous Mental Development. 2 (3): 230–247. doi:10.1109/TAMD.2010.2056368. S2CID 234198.
^ a b Schmidhuber, Jürgen (2020). "Generative Adversarial Networks are Special Cases of Artificial Curiosity (1990) and also Closely Related to Predictability Minimization (1991)". Neural Networks. 127: 58–66. arXiv:1906.04493. doi:10.1016/j.neunet.2020.04.008. PMID 32334341. S2CID 216056336.
^ Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1985-01-01). "A learning algorithm for boltzmann machines". Cognitive Science. 9 (1): 147–169. doi:10.1016/S0364-0213(85)80012-4 (inactive 2024-08-07). ISSN 0364-0213.{{cite journal}}: CS1 maint: DOI inactive as of August 2024 (link)
^ Smolensky, Paul (1986). "Chapter 6: Information Processing in Dynamical Systems: Foundations of Harmony Theory" (PDF). In Rumelhart, David E.; McLelland, James L. (eds.). Parallel Distributed Processing: Explorations in the Microstructure of Cognition, Volume 1: Foundations. MIT Press. pp. 194–281. ISBN 0-262-68053-X.
^ Peter, Dayan; Hinton, Geoffrey E.; Neal, Radford M.; Zemel, Richard S. (1995). "The Helmholtz machine". Neural Computation. 7 (5): 889–904. doi:10.1162/neco.1995.7.5.889. hdl:21.11116/0000-0002-D6D3-E. PMID 7584891. S2CID 1890561.
^ Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (1995-05-26). "The wake-sleep algorithm for unsupervised neural networks". Science. 268 (5214): 1158–1161. Bibcode:1995Sci...268.1158H. doi:10.1126/science.7761831. PMID 7761831. S2CID 871473.
^ Sejnowski, Terrence J. (2018). The deep learning revolution. Cambridge, Massachusetts: The MIT Press. ISBN 978-0-262-03803-4.
^ Qian, Ning; Sejnowski, Terrence J. (1988-08-20). "Predicting the secondary structure of globular proteins using neural network models". Journal of Molecular Biology. 202 (4): 865–884. doi:10.1016/0022-2836(88)90564-5. ISSN 0022-2836. PMID 3172241.
^ Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1 August 1993). "Hybrid neural network/hidden markov model systems for continuous speech recognition". International Journal of Pattern Recognition and Artificial Intelligence. 07 (4): 899–916. doi:10.1142/s0218001493000455. ISSN 0218-0014.
^ Robinson, T. (1992). "A real-time recurrent error propagation network word recognition system". ICASSP. Icassp'92: 617–620. ISBN 9780780305328. Archived from the original on 2021-05-09. Retrieved 2017-06-12.
^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (March 1989). "Phoneme recognition using time-delay neural networks" (PDF). IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328–339. doi:10.1109/29.21701. hdl:10338.dmlcz/135496. ISSN 0096-3518. S2CID 9563026. Archived (PDF) from the original on 2021-04-27. Retrieved 2019-09-24.
^ Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). "Research Developments and Directions in Speech Recognition and Understanding, Part 1". IEEE Signal Processing Magazine. 26 (3): 75–80. Bibcode:2009ISPM...26...75B. doi:10.1109/msp.2009.932166. hdl:1721.1/51891. S2CID 357467.
^ Bengio, Y. (1991). "Artificial Neural Networks and their Application to Speech/Sequence Recognition". McGill University Ph.D. thesis. Archived from the original on 2021-05-09. Retrieved 2017-06-12.
^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Analysis of correlation structure for a neural predictive model with applications to speech recognition". Neural Networks. 7 (2): 331–339. doi:10.1016/0893-6080(94)90027-2.
^ Doddington, G.; Przybocki, M.; Martin, A.; Reynolds, D. (2000). "The NIST speaker recognition evaluation ± Overview, methodology, systems, results, perspective". Speech Communication. 31 (2): 225–254. doi:10.1016/S0167-6393(99)00080-1.
^ a b Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). "Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design". Speech Communication. 31 (2): 181–192. doi:10.1016/s0167-6393(99)00077-1.
^ L.P Heck and R. Teunen. "Secure and Convenient Transactions with Nuance Verifier". Nuance Users Conference, April 1998.
^ "Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available)". ResearchGate. Archived from the original on 9 May 2021. Retrieved 14 June 2017.
^ a b Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). "Biologically Plausible Speech Recognition with LSTM Neural Nets" (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. pp. 175–184. Archived (PDF) from the original on 2021-05-09. Retrieved 2016-04-09.
^ Graves, Alex; Fernández, Santiago; Gomez, Faustino; Schmidhuber, Jürgen (2006). "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks". Proceedings of the International Conference on Machine Learning, ICML 2006: 369–376. CiteSeerX 10.1.1.75.6306.
^ Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting Archived 2018-11-18 at the Wayback Machine. Proceedings of ICANN (2), pp. 220–229.
^ Graves, Alex; and Schmidhuber, Jürgen; Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks, in Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris K. I.; and Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), December 7th–10th, 2009, Vancouver, BC, Neural Information Processing Systems (NIPS) Foundation, 2009, pp. 545–552
^ Hinton, Geoffrey E. (1 October 2007). "Learning multiple layers of representation". Trends in Cognitive Sciences. 11 (10): 428–434. doi:10.1016/j.tics.2007.09.004. ISSN 1364-6613. PMID 17921042. S2CID 15066318. Archived from the original on 11 October 2013. Retrieved 12 June 2017.
^ Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). "A Fast Learning Algorithm for Deep Belief Nets" (PDF). Neural Computation. 18 (7): 1527–1554. doi:10.1162/neco.2006.18.7.1527. PMID 16764513. S2CID 2309950. Archived (PDF) from the original on 2015-12-23. Retrieved 2011-07-20.
^ G. E. Hinton., "Learning multiple layers of representation". Archived 2018-05-22 at the Wayback Machine. Trends in Cognitive Sciences, 11, pp. 428–434, 2007.
^ Hinton, Geoffrey E. (October 2007). "Learning multiple layers of representation". Trends in Cognitive Sciences. 11 (10): 428–434. doi:10.1016/j.tics.2007.09.004. PMID 17921042.
^ Hinton, Geoffrey E.; Osindero, Simon; Teh, Yee-Whye (July 2006). "A Fast Learning Algorithm for Deep Belief Nets". Neural Computation. 18 (7): 1527–1554. doi:10.1162/neco.2006.18.7.1527. ISSN 0899-7667. PMID 16764513.
^ Hinton, Geoffrey E. (2009-05-31). "Deep belief networks". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947. ISSN 1941-6016.
^ Yann LeCun (2016). Slides on Deep Learning Online Archived 2016-04-23 at the Wayback Machine
^ a b c Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups". IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM...29...82H. doi:10.1109/msp.2012.2205597. S2CID 206485943.
^ a b c Deng, L.; Hinton, G.; Kingsbury, B. (May 2013). "New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)" (PDF). Microsoft. Archived (PDF) from the original on 2017-09-26. Retrieved 27 December 2023.
^ a b c Yu, D.; Deng, L. (2014). Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer). Springer. ISBN 978-1-4471-5779-3.
^ "Deng receives prestigious IEEE Technical Achievement Award - Microsoft Research". Microsoft Research. 3 December 2015. Archived from the original on 16 March 2018. Retrieved 16 March 2018.
^ a b Li, Deng (September 2014). "Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'". Interspeech. Archived from the original on 2017-09-26. Retrieved 2017-06-12.
^ Yu, D.; Deng, L. (2010). "Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition". NIPS Workshop on Deep Learning and Unsupervised Feature Learning. Archived from the original on 2017-10-12. Retrieved 2017-06-14.
^ Seide, F.; Li, G.; Yu, D. (2011). "Conversational speech transcription using context-dependent deep neural networks". Interspeech 2011. pp. 437–440. doi:10.21437/Interspeech.2011-169. S2CID 398770. Archived from the original on 2017-10-12. Retrieved 2017-06-14.
^ Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1 May 2013). "Recent Advances in Deep Learning for Speech Research at Microsoft". Microsoft Research. Archived from the original on 12 October 2017. Retrieved 14 June 2017.
^ a b Oh, K.-S.; Jung, K. (2004). "GPU implementation of neural networks". Pattern Recognition. 37 (6): 1311–1314. Bibcode:2004PatRe..37.1311O. doi:10.1016/j.patcog.2004.01.013.
^ a b Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), High performance convolutional neural networks for document processing, archived from the original on 2020-05-18, retrieved 2021-02-14
^ Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). "Efficient Processing of Deep Neural Networks: A Tutorial and Survey". arXiv:1703.09039 [cs.CV].
^ Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (2009-06-14). "Large-scale deep unsupervised learning using graphics processors". Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09. New York, NY, USA: Association for Computing Machinery. pp. 873–880. doi:10.1145/1553374.1553486. ISBN 978-1-60558-516-1.
^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21 September 2010). "Deep, Big, Simple Neural Nets for Handwritten Digit Recognition". Neural Computation. 22 (12): 3207–3220. arXiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131. S2CID 1918673.
^ Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L.M.; Schmidhuber, J. (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. Archived (PDF) from the original on 2014-09-29. Retrieved 2017-06-13.
^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q. (eds.). Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. pp. 2843–2851. Archived (PDF) from the original on 2017-08-09. Retrieved 2017-06-13.
^ Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). "Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks". Medical Image Computing and Computer-Assisted Intervention – MICCAI 2013. Lecture Notes in Computer Science. Vol. 7908. pp. 411–418. doi:10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID 24579167.
^ Ng, Andrew; Dean, Jeff (2012). "Building High-level Features Using Large Scale Unsupervised Learning". arXiv:1112.6209 [cs.LG].
^ Simonyan, Karen; Andrew, Zisserman (2014). "Very Deep Convolution Networks for Large Scale Image Recognition". arXiv:1409.1556 [cs.CV].
^ Szegedy, Christian (2015). "Going deeper with convolutions" (PDF). Cvpr2015. arXiv:1409.4842.
^ Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). "Show and Tell: A Neural Image Caption Generator". arXiv:1411.4555 [cs.CV]..
^ Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). "From Captions to Visual Concepts and Back". arXiv:1411.4952 [cs.CV]..
^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models". arXiv:1411.2539 [cs.LG]..
^ Simonyan, Karen; Zisserman, Andrew (2015-04-10), Very Deep Convolutional Networks for Large-Scale Image Recognition, arXiv:1409.1556
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). "Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification". arXiv:1502.01852 [cs.CV].
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 Dec 2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385.
^ He, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE. pp. 770–778. arXiv:1512.03385. doi:10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
^ Gatys, Leon A.; Ecker, Alexander S.; Bethge, Matthias (26 August 2015). "A Neural Algorithm of Artistic Style". arXiv:1508.06576 [cs.CV].
^ Goodfellow, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aaron; Bengio, Yoshua (2014). Generative Adversarial Networks (PDF). Proceedings of the International Conference on Neural Information Processing Systems (NIPS 2014). pp. 2672–2680. Archived (PDF) from the original on 22 November 2019. Retrieved 20 August 2019.
^ "GAN 2.0: NVIDIA's Hyperrealistic Face Generator". SyncedReview.com. December 14, 2018. Retrieved October 3, 2019.
^ Karras, T.; Aila, T.; Laine, S.; Lehtinen, J. (26 February 2018). "Progressive Growing of GANs for Improved Quality, Stability, and Variation". arXiv:1710.10196 [cs.NE].
^ "Prepare, Don't Panic: Synthetic Media and Deepfakes". witness.org. Archived from the original on 2 December 2020. Retrieved 25 November 2020.
^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (2015-06-01). "Deep Unsupervised Learning using Nonequilibrium Thermodynamics" (PDF). Proceedings of the 32nd International Conference on Machine Learning. 37. PMLR: 2256–2265. arXiv:1503.03585.
^ Google Research Blog. The neural networks behind Google Voice transcription. August 11, 2015. By Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
^ a b Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (September 2015). "Google voice search: faster and more accurate". Archived from the original on 2016-03-09. Retrieved 2016-04-09.
^ Singh, Premjeet; Saha, Goutam; Sahidullah, Md (2021). "Non-linear frequency warping using constant-Q transformation for speech emotion recognition". 2021 International Conference on Computer Communication and Informatics (ICCCI). pp. 1–4. arXiv:2102.04029. doi:10.1109/ICCCI50826.2021.9402569. ISBN 978-1-7281-5875-4. S2CID 231846518.
^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling" (PDF). Archived from the original (PDF) on 24 April 2018.
^ Li, Xiangang; Wu, Xihong (2014). "Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition". arXiv:1410.4281 [cs.CL].
^ Zen, Heiga; Sak, Hasim (2015). "Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis" (PDF). Google.com. ICASSP. pp. 4470–4474. Archived (PDF) from the original on 2021-05-09. Retrieved 2017-06-13.
^ "2018 ACM A.M. Turing Award Laureates". awards.acm.org. Retrieved 2024-08-07.
^ Ferrie, C., & Kaiser, S. (2019). Neural Networks for Babies. Sourcebooks. ISBN 978-1492671206.{{cite book}}: CS1 maint: multiple names: authors list (link)
^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (January 2016). "Mastering the game of Go with deep neural networks and tree search". Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 1476-4687. PMID 26819042. S2CID 515925.
^ A Guide to Deep Learning and Neural Networks, archived from the original on 2020-11-02, retrieved 2020-11-16
^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). "Deep neural networks for object detection". Advances in Neural Information Processing Systems: 2553–2561. Archived from the original on 2017-06-29. Retrieved 2017-06-13.
^ Rolnick, David; Tegmark, Max (2018). "The power of deeper networks for expressing natural functions". International Conference on Learning Representations. ICLR 2018. Archived from the original on 2021-01-07. Retrieved 2021-01-05.
^ Hof, Robert D. "Is Artificial Intelligence Finally Coming into Its Own?". MIT Technology Review. Archived from the original on 31 March 2019. Retrieved 10 July 2018.
^ ab Gers, Felix A.; Schmidhuber, Jürgen (2001). "Las redes recurrentes LSTM aprenden lenguajes simples, libres de contexto y sensibles al contexto". IEEE Transactions on Neural Networks . 12 (6): 1333–1340. doi :10.1109/72.963769. PMID 18249962. S2CID 10192330. Archivado desde el original el 26 de enero de 2020 . Consultado el 25 de febrero de 2020 .
^ abc Sutskever, L.; Vinyals, O.; Le, Q. (2014). "Aprendizaje secuencia a secuencia con redes neuronales" (PDF) . Proc. NIPS . arXiv : 1409.3215 . Bibcode :2014arXiv1409.3215S. Archivado (PDF) desde el original el 2021-05-09 . Consultado el 2017-06-13 .
^ ab Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). "Explorando los límites del modelado del lenguaje". arXiv : 1602.02410 [cs.CL].
^ ab Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). "Procesamiento de lenguaje multilingüe a partir de bytes". arXiv : 1512.00103 [cs.CL].
^ Mikolov, T.; et al. (2010). "Modelo de lenguaje basado en redes neuronales recurrentes" (PDF) . Interspeech : 1045–1048. doi :10.21437/Interspeech.2010-343. S2CID 17048224. Archivado (PDF) desde el original el 2017-05-16 . Consultado el 2017-06-13 .
^ Hochreiter, Sepp; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a largo plazo". Computación neuronal . 9 (8): 1735-1780. doi :10.1162/neco.1997.9.8.1735. ISSN 0899-7667. PMID 9377276. S2CID 1915014.
^ ab "Aprendizaje de tiempos precisos con redes recurrentes LSTM (Descarga en PDF disponible)". ResearchGate . Archivado desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
^ LeCun, Y.; et al. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. doi :10.1109/5.726791. S2CID 14542261.
^ Sainath, Tara N .; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). "Redes neuronales convolucionales profundas para LVCSR". Conferencia internacional IEEE de 2013 sobre acústica, habla y procesamiento de señales . págs. 8614–8618. doi :10.1109/icassp.2013.6639347. ISBN . 978-1-4799-0356-6.S2CID13816461 .
^ Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). "Avances en la optimización de redes recurrentes". Conferencia internacional IEEE de 2013 sobre acústica, habla y procesamiento de señales . págs. 8624–8628. arXiv : 1212.0901 . CiteSeerX 10.1.1.752.9151 . doi :10.1109/icassp.2013.6639349. ISBN . 978-1-4799-0356-6.S2CID12485056 .
^ Dahl, G.; et al. (2013). "Mejora de las DNN para LVCSR mediante unidades lineales rectificadas y abandono" (PDF) . ICASSP . Archivado (PDF) desde el original el 2017-08-12 . Consultado el 2017-06-13 .
^ "Aumento de datos - deeplearning.ai | Coursera". Coursera . Archivado desde el original el 1 de diciembre de 2017 . Consultado el 30 de noviembre de 2017 .
^ Hinton, GE (2010). "Una guía práctica para el entrenamiento de máquinas de Boltzmann restringidas". Tech. Rep. UTML TR 2010-003 . Archivado desde el original el 2021-05-09 . Consultado el 2017-06-13 .
^ You, Yang; Buluç, Aydın; Demmel, James (noviembre de 2017). "Escalado del aprendizaje profundo en GPU y clústeres Knights Landing". Actas de la Conferencia internacional sobre computación de alto rendimiento, redes, almacenamiento y análisis en SC '17. SC '17, ACM. págs. 1–12. doi :10.1145/3126908.3126912. ISBN 9781450351140. S2CID 8869270. Archivado desde el original el 29 de julio de 2020 . Consultado el 5 de marzo de 2018 .
^ Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). "CHAOS: un esquema de paralelización para entrenar redes neuronales convolucionales en Intel Xeon Phi". The Journal of Supercomputing . 75 : 197–227. arXiv : 1702.07908 . Código Bibliográfico :2017arXiv170207908V. doi :10.1007/s11227-017-1994-x. S2CID 14135321.
^ Ting Qin, et al. "Un algoritmo de aprendizaje de CMAC basado en RLS". Neural Processing Letters 19.1 (2004): 49-61.
^ Ting Qin, et al. "Continuous CMAC-QRLS and its systolic array". Archived 2018-11-18 at the Wayback Machine. Neural Processing Letters 22.1 (2005): 1-16.
^ Research, AI (23 October 2015). "Deep Neural Networks for Acoustic Modeling in Speech Recognition". airesearch.com. Archived from the original on 1 February 2016. Retrieved 23 October 2015.
^ "GPUs Continue to Dominate the AI Accelerator Market for Now". InformationWeek. December 2019. Archived from the original on 10 June 2020. Retrieved 11 June 2020.
^ Ray, Tiernan (2019). "AI is changing the entire nature of computation". ZDNet. Archived from the original on 25 May 2020. Retrieved 11 June 2020.
^ "AI and Compute". OpenAI. 16 May 2018. Archived from the original on 17 June 2020. Retrieved 11 June 2020.
^ "HUAWEI Reveals the Future of Mobile AI at IFA 2017 | HUAWEI Latest News | HUAWEI Global". consumer.huawei.com.
^ P, JouppiNorman; YoungCliff; PatilNishant; PattersonDavid; AgrawalGaurav; BajwaRaminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (2017-06-24). "In-Datacenter Performance Analysis of a Tensor Processing Unit". ACM SIGARCH Computer Architecture News. 45 (2): 1–12. arXiv:1704.04760. doi:10.1145/3140659.3080246.
^ Woodie, Alex (2021-11-01). "Cerebras Hits the Accelerator for Deep Learning Workloads". Datanami. Retrieved 2022-08-03.
^ "Cerebras launches new AI supercomputing processor with 2.6 trillion transistors". VentureBeat. 2021-04-20. Retrieved 2022-08-03.
^ Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). "Logic-in-memory based on an atomically thin semiconductor". Nature. 587 (2): 72–77. Bibcode:2020Natur.587...72M. doi:10.1038/s41586-020-2861-0. PMC 7116757. PMID 33149289.
^ a b c Feldmann, J.; Youngblood, N.; Karpov, M.; et al. (2021). "Parallel convolutional processing using an integrated photonic tensor". Nature. 589 (2): 52–58. arXiv:2002.00281. doi:10.1038/s41586-020-03070-1. PMID 33408373. S2CID 211010976.
^ Garofolo, J.S.; Lamel, L.F.; Fisher, W.M.; Fiscus, J.G.; Pallett, D.S.; Dahlgren, N.L.; Zue, V. (1993). TIMIT Acoustic-Phonetic Continuous Speech Corpus. Linguistic Data Consortium. doi:10.35111/17gk-bn40. ISBN 1-58563-019-5. Retrieved 27 December 2023.
^ Robinson, Tony (30 September 1991). "Several Improvements to a Recurrent Error Propagation Network Phone Recognition System". Cambridge University Engineering Department Technical Report. CUED/F-INFENG/TR82. doi:10.13140/RG.2.2.15418.90567.
^ Abdel-Hamid, O.; et al. (2014). "Convolutional Neural Networks for Speech Recognition". IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533–1545. doi:10.1109/taslp.2014.2339736. S2CID 206602362. Archived from the original on 2020-09-22. Retrieved 2018-04-20.
^ Deng, L.; Platt, J. (2014). "Ensemble Deep Learning for Speech Recognition". Proc. Interspeech: 1915–1919. doi:10.21437/Interspeech.2014-433. S2CID 15641618.
^ Tóth, Laszló (2015). "Phone Recognition with Hierarchical Convolutional Deep Maxout Networks" (PDF). EURASIP Journal on Audio, Speech, and Music Processing. 2015. doi:10.1186/s13636-015-0068-3. S2CID 217950236. Archived (PDF) from the original on 2020-09-24. Retrieved 2019-04-01.
^ McMillan, Robert (17 December 2014). "How Skype Used AI to Build Its Amazing New Language Translator | WIRED". Wired. Archived from the original on 8 June 2017. Retrieved 14 June 2017.
^ Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y (2014). "Deep Speech: Scaling up end-to-end speech recognition". arXiv:1412.5567 [cs.CL].
^ "MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges". yann.lecun.com. Archived from the original on 2014-01-13. Retrieved 2014-01-28.
^ Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (August 2012). "Multi-column deep neural network for traffic sign classification". Neural Networks. Selected Papers from IJCNN 2011. 32: 333–338. CiteSeerX 10.1.1.226.8219. doi:10.1016/j.neunet.2012.02.023. PMID 22386783.
^ Chaochao Lu; Xiaoou Tang (2014). "Surpassing Human Level Face Recognition". arXiv:1404.3840 [cs.CV].
^ Nvidia Demos a Car Computer Trained with "Deep Learning" (6 January 2015), David Talbot, MIT Technology Review
^ a b c G. W. Smith; Frederic Fol Leymarie (10 April 2017). "The Machine as Artist: An Introduction". Arts. 6 (4): 5. doi:10.3390/arts6020005.
^ a b c Blaise Agüera y Arcas (29 September 2017). "Art in the Age of Machine Intelligence". Arts. 6 (4): 18. doi:10.3390/arts6040018.
^ Goldberg, Yoav; Levy, Omar (2014). "word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method". arXiv:1402.3722 [cs.CL].
^ a b Socher, Richard; Manning, Christopher. "Deep Learning for NLP" (PDF). Archived (PDF) from the original on 6 July 2014. Retrieved 26 October 2014.
^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). "Parsing With Compositional Vector Grammars" (PDF). Proceedings of the ACL 2013 Conference. Archived (PDF) from the original on 2014-11-27. Retrieved 2014-09-03.
^ Socher, R.; Perelygin, A.; Wu, J.; Chuang, J.; Manning, C.D.; Ng, A.; Potts, C. (October 2013). "Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank" (PDF). Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics. Archived (PDF) from the original on 28 December 2016. Retrieved 21 December 2023.
^ Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1 November 2014). "A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval". Microsoft Research. Archived from the original on 27 October 2017. Retrieved 14 June 2017.
^ Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1 October 2013). "Learning Deep Structured Semantic Models for Web Search using Clickthrough Data". Microsoft Research. Archived from the original on 27 October 2017. Retrieved 14 June 2017.
^ Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D.; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). "Using recurrent neural networks for slot filling in spoken language understanding". IEEE Transactions on Audio, Speech, and Language Processing. 23 (3): 530–539. doi:10.1109/taslp.2014.2383614. S2CID 1317136.
^ a b Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 June 2014). "Learning Continuous Phrase Representations for Translation Modeling". Microsoft Research. Archived from the original on 27 October 2017. Retrieved 14 June 2017.
^ Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). "Authorship verification using deep belief network systems". International Journal of Communication Systems. 30 (12): e3259. doi:10.1002/dac.3259. S2CID 40745740.
^ Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Precision information extraction for rare disease epidemiology at scale". Journal of Translational Medicine. 21 (1): 157. doi:10.1186/s12967-023-04011-y. PMC 9972634. PMID 36855134.
^ "Deep Learning for Natural Language Processing: Theory and Practice (CIKM2014 Tutorial) - Microsoft Research". Microsoft Research. Archived from the original on 13 March 2017. Retrieved 14 June 2017.
^ Turovsky, Barak (15 November 2016). "Found in translation: More accurate, fluent sentences in Google Translate". The Keyword Google Blog. Archived from the original on 7 April 2017. Retrieved 23 March 2017.
^ a b c d Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22 November 2016). "Zero-Shot Translation with Google's Multilingual Neural Machine Translation System". Google Research Blog. Archived from the original on 10 July 2017. Retrieved 23 March 2017.
^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V; Norouzi, Mohammad; Macherey, Wolfgang; Krikun, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Kaiser, Łukasz; Gouws, Stephan; Kato, Yoshikiyo; Kudo, Taku; Kazawa, Hideto; Stevens, Keith; Kurian, George; Patil, Nishant; Wang, Wei; Young, Cliff; Smith, Jason; Riesa, Jason; Rudnick, Alex; Vinyals, Oriol; Corrado, Greg; et al. (2016). "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation". arXiv:1609.08144 [cs.CL].
^ Metz, Cade (27 September 2016). "An Infusion of AI Makes Google Translate More Powerful Than Ever". Wired. Archived from the original on 8 November 2020. Retrieved 12 October 2017.
^ a b Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). "MT on and for the Web" (PDF). Archived from the original (PDF) on 29 March 2017. Retrieved 1 December 2016.
^ Murray, J., Heng, D., Lygate, A., et al. (2023). "Applying artificial intelligence to determination of legal age of majority from radiographic data". Morphologie. 108 (360): 100723
^ Arrowsmith, J; Miller, P (2013). "Trial watch: Phase II and phase III attrition rates 2011-2012". Nature Reviews Drug Discovery. 12 (8): 569. doi:10.1038/nrd4090. PMID 23903212. S2CID 20246434.
^ Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). "Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project". Drug Discovery Today. 20 (5): 505–513. doi:10.1016/j.drudis.2014.12.014. hdl:1942/18723. PMID 25582842.
^ "Merck Molecular Activity Challenge". kaggle.com. Archived from the original on 2020-07-16. Retrieved 2020-07-16.
^ "Multi-task Neural Networks for QSAR Predictions | Data Science Association". www.datascienceassn.org. Archived from the original on 30 April 2017. Retrieved 14 June 2017.
^ "Toxicology in the 21st century Data Challenge"
^ "NCATS Announces Tox21 Data Challenge Winners". Archived from the original on 2015-09-08. Retrieved 2015-03-05.
^ "NCATS Announces Tox21 Data Challenge Winners". Archived from the original on 28 February 2015. Retrieved 5 March 2015.
^ Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9 October 2015). "AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery". arXiv:1510.02855 [cs.LG].
^ a b "Toronto startup has a faster way to discover effective medicines". The Globe and Mail. Archived from the original on 20 October 2015. Retrieved 9 November 2015.
^ "Startup Harnesses Supercomputers to Seek Cures". KQED Future of You. 27 May 2015. Archived from the original on 24 December 2015. Retrieved 9 November 2015.
^ Gilmer, Justin; Schoenholz, Samuel S.; Riley, Patrick F.; Vinyals, Oriol; Dahl, George E. (2017-06-12). "Neural Message Passing for Quantum Chemistry". arXiv:1704.01212 [cs.LG].
^ Zhavoronkov, Alex (2019). "Deep learning enables rapid identification of potent DDR1 kinase inhibitors". Nature Biotechnology. 37 (9): 1038–1040. doi:10.1038/s41587-019-0224-x. PMID 31477924. S2CID 201716327.
^ Gregory, Barber. "A Molecule Designed By AI Exhibits 'Druglike' Qualities". Wired. Archived from the original on 2020-04-30. Retrieved 2019-09-05.
^ Tkachenko, Yegor (8 April 2015). "Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space". arXiv:1504.01840 [cs.LG].
^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q. (eds.). Advances in Neural Information Processing Systems 26 (PDF). Curran Associates, Inc. pp. 2643–2651. Archived (PDF) from the original on 2017-05-16. Retrieved 2017-06-14.
^ Feng, X.Y.; Zhang, H.; Ren, Y.J.; Shang, P.H.; Zhu, Y.; Liang, Y.C.; Guan, R.C.; Xu, D. (2019). "The Deep Learning–Based Recommender System "Pubmender" for Choosing a Biomedical Publication Venue: Development and Validation Study". Journal of Medical Internet Research. 21 (5): e12957. doi:10.2196/12957. PMC 6555124. PMID 31127715.
^ Elkahky, Ali Mamdouh; Song, Yang; He, Xiaodong (1 May 2015). "A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems". Microsoft Research. Archived from the original on 25 January 2018. Retrieved 14 June 2017.
^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 January 2014). "Deep autoencoder neural networks for gene ontology annotation predictions". Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics. ACM. pp. 533–540. doi:10.1145/2649387.2649442. hdl:11311/964622. ISBN 9781450328944. S2CID 207217210. Archived from the original on 9 May 2021. Retrieved 23 November 2015.
^ Sathyanarayana, Aarti (1 January 2016). "Sleep Quality Prediction From Wearable Data Using Deep Learning". JMIR mHealth and uHealth. 4 (4): e125. doi:10.2196/mhealth.6562. PMC 5116102. PMID 27815231. S2CID 3821594.
^ Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13 August 2016). "Using recurrent neural network models for early detection of heart failure onset". Journal of the American Medical Informatics Association. 24 (2): 361–370. doi:10.1093/jamia/ocw112. ISSN 1067-5027. PMC 5391725. PMID 27521897.
^ "DeepMind's protein-folding AI has solved a 50-year-old grand challenge of biology". MIT Technology Review. Retrieved 2024-05-10.
^ Shead, Sam (2020-11-30). "DeepMind solves 50-year-old 'grand challenge' with protein folding A.I." CNBC. Retrieved 2024-05-10.
^ a b Shalev, Y.; Painsky, A.; Ben-Gal, I. (2022). "Neural Joint Entropy Estimation" (PDF). IEEE Transactions on Neural Networks and Learning Systems. PP (4): 5488–5500. arXiv:2012.11197. doi:10.1109/TNNLS.2022.3204919. PMID 36155469. S2CID 229339809.
^ Litjens, Geert; Kooi, Thijs; Bejnordi, Babak Ehteshami; Setio, Arnaud Arindra Adiyoso; Ciompi, Francesco; Ghafoorian, Mohsen; van der Laak, Jeroen A.W.M.; van Ginneken, Bram; Sánchez, Clara I. (December 2017). "A survey on deep learning in medical image analysis". Medical Image Analysis. 42: 60–88. arXiv:1702.05747. Bibcode:2017arXiv170205747L. doi:10.1016/j.media.2017.07.005. PMID 28778026. S2CID 2088679.
^ Forslid, Gustav; Wieslander, Hakan; Bengtsson, Ewert; Wahlby, Carolina; Hirsch, Jan-Michael; Stark, Christina Runow; Sadanandan, Sajith Kecheril (2017). "Deep Convolutional Neural Networks for Detecting Cellular Changes Due to Malignancy". 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). pp. 82–89. doi:10.1109/ICCVW.2017.18. ISBN 9781538610343. S2CID 4728736. Archived from the original on 2021-05-09. Retrieved 2019-11-12.
^ Dong, Xin; Zhou, Yizhao; Wang, Lantian; Peng, Jingfeng; Lou, Yanbo; Fan, Yiqun (2020). "Liver Cancer Detection Using Hybridized Fully Convolutional Neural Network Based on Deep Learning Framework". IEEE Access. 8: 129889–129898. Bibcode:2020IEEEA...8l9889D. doi:10.1109/ACCESS.2020.3006362. ISSN 2169-3536. S2CID 220733699.
^ Lyakhov, Pavel Alekseevich; Lyakhova, Ulyana Alekseevna; Nagornov, Nikolay Nikolaevich (2022-04-03). "System for the Recognizing of Pigmented Skin Lesions with Fusion and Analysis of Heterogeneous Data Based on a Multimodal Neural Network". Cancers. 14 (7): 1819. doi:10.3390/cancers14071819. ISSN 2072-6694. PMC 8997449. PMID 35406591.
^ De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). "Predicting the popularity of instagram posts for a lifestyle magazine using deep learning". 2017 2nd International Conference on Communication Systems, Computing and IT Applications (CSCITA). pp. 174–177. doi:10.1109/CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. S2CID 35350962.
^ "Colorizing and Restoring Old Images with Deep Learning". FloydHub Blog. 13 November 2018. Archived from the original on 11 October 2019. Retrieved 11 October 2019.
^ Schmidt, Uwe; Roth, Stefan. Shrinkage Fields for Effective Image Restoration (PDF). Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on. Archived (PDF) from the original on 2018-01-02. Retrieved 2018-01-01.
^ Kleanthous, Christos; Chatzis, Sotirios (2020). "Gated Mixture Variational Autoencoders for Value Added Tax audit case selection". Knowledge-Based Systems. 188: 105048. doi:10.1016/j.knosys.2019.105048. S2CID 204092079.
^ Czech, Tomasz (28 June 2018). "Deep learning: the next frontier for money laundering detection". Global Banking and Finance Review. Archived from the original on 2018-11-16. Retrieved 2018-07-15.
^ Nuñez, Michael (2023-11-29). "Google DeepMind's materials AI has already discovered 2.2 million new crystals". VentureBeat. Retrieved 2023-12-19.
^ Merchant, Amil; Batzner, Simon; Schoenholz, Samuel S.; Aykol, Muratahan; Cheon, Gowoon; Cubuk, Ekin Dogus (December 2023). "Scaling deep learning for materials discovery". Nature. 624 (7990): 80–85. Bibcode:2023Natur.624...80M. doi:10.1038/s41586-023-06735-9. ISSN 1476-4687. PMC 10700131. PMID 38030720.
^ Peplow, Mark (2023-11-29). "Google AI and robots join forces to build new materials". Nature. doi:10.1038/d41586-023-03745-5. PMID 38030771. S2CID 265503872.
^ a b c "Army researchers develop new algorithms to train robots". EurekAlert!. Archived from the original on 28 August 2018. Retrieved 29 August 2018.
^ Raissi, M.; Perdikaris, P.; Karniadakis, G. E. (2019-02-01). "Physics-informed neural networks: A deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations". Journal of Computational Physics. 378: 686–707. Bibcode:2019JCoPh.378..686R. doi:10.1016/j.jcp.2018.10.045. ISSN 0021-9991. OSTI 1595805. S2CID 57379996.
^ Mao, Zhiping; Jagtap, Ameya D.; Karniadakis, George Em (2020-03-01). "Physics-informed neural networks for high-speed flows". Computer Methods in Applied Mechanics and Engineering. 360: 112789. Bibcode:2020CMAME.360k2789M. doi:10.1016/j.cma.2019.112789. ISSN 0045-7825. S2CID 212755458.
^ Raissi, Maziar; Yazdani, Alireza; Karniadakis, George Em (2020-02-28). "Hidden fluid mechanics: Learning velocity and pressure fields from flow visualizations". Science. 367 (6481): 1026–1030. Bibcode:2020Sci...367.1026R. doi:10.1126/science.aaw4741. PMC 7219083. PMID 32001523.
^ Han, J.; Jentzen, A.; E, W. (2018). "Solving high-dimensional partial differential equations using deep learning". Proceedings of the National Academy of Sciences. 115 (34): 8505–8510. arXiv:1707.02568. Bibcode:2018PNAS..115.8505H. doi:10.1073/pnas.1718942115. PMC 6112690. PMID 30082389.
^ Oktem, Figen S.; Kar, Oğuzhan Fatih; Bezek, Can Deniz; Kamalabadi, Farzad (2021). "High-Resolution Multi-Spectral Imaging With Diffractive Lenses and Learned Reconstruction". IEEE Transactions on Computational Imaging. 7: 489–504. arXiv:2008.11625. doi:10.1109/TCI.2021.3075349. ISSN 2333-9403. S2CID 235340737.
^ Bernhardt, Melanie; Vishnevskiy, Valery; Rau, Richard; Goksel, Orcun (December 2020). "Training Variational Networks With Multidomain Simulations: Speed-of-Sound Image Reconstruction". IEEE Transactions on Ultrasonics, Ferroelectrics, and Frequency Control. 67 (12): 2584–2594. arXiv:2006.14395. doi:10.1109/TUFFC.2020.3010186. ISSN 1525-8955. PMID 32746211. S2CID 220055785.
^ Lam, Remi; Sanchez-Gonzalez, Alvaro; Willson, Matthew; Wirnsberger, Peter; Fortunato, Meire; Alet, Ferran; Ravuri, Suman; Ewalds, Timo; Eaton-Rosen, Zach; Hu, Weihua; Merose, Alexander; Hoyer, Stephan; Holland, George; Vinyals, Oriol; Stott, Jacklynn (2023-12-22). "Learning skillful medium-range global weather forecasting". Science. 382 (6677): 1416–1421. arXiv:2212.12794. Bibcode:2023Sci...382.1416L. doi:10.1126/science.adi2336. ISSN 0036-8075. PMID 37962497.
^ Sivakumar, Ramakrishnan (2023-11-27). "GraphCast: A breakthrough in Weather Forecasting". Medium. Retrieved 2024-05-19.
^ Galkin, F.; Mamoshina, P.; Kochetov, K.; Sidorenko, D.; Zhavoronkov, A. (2020). "DeepMAge: A Methylation Aging Clock Developed with Deep Learning". Aging and Disease. doi:10.14336/AD.
^ Utgoff, P. E.; Stracuzzi, D. J. (2002). "Many-layered learning". Neural Computation. 14 (10): 2497–2529. doi:10.1162/08997660260293319. PMID 12396572. S2CID 1119517.
^ Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development. MIT Press. ISBN 978-0-262-55030-7.
^ Shrager, J.; Johnson, MH (1996). "Dynamic plasticity influences the emergence of function in a simple cortical array". Neural Networks. 9 (7): 1119–1129. doi:10.1016/0893-6080(96)00033-0. PMID 12662587.
^ Quartz, SR; Sejnowski, TJ (1997). "The neural basis of cognitive development: A constructivist manifesto". Behavioral and Brain Sciences. 20 (4): 537–556. CiteSeerX 10.1.1.41.7854. doi:10.1017/s0140525x97001581. PMID 10097006. S2CID 5818342.
^ S. Blakeslee, "In brain's early growth, timetable may be critical", The New York Times, Science Section, pp. B5–B6, 1995.
^ Mazzoni, P.; Andersen, R. A.; Jordan, M. I. (15 May 1991). "A more biologically plausible learning rule for neural networks". Proceedings of the National Academy of Sciences. 88 (10): 4433–4437. Bibcode:1991PNAS...88.4433M. doi:10.1073/pnas.88.10.4433. ISSN 0027-8424. PMC 51674. PMID 1903542.
^ O'Reilly, Randall C. (1 July 1996). "Biologically Plausible Error-Driven Learning Using Local Activation Differences: The Generalized Recirculation Algorithm". Neural Computation. 8 (5): 895–938. doi:10.1162/neco.1996.8.5.895. ISSN 0899-7667. S2CID 2376781.
^ Testolin, Alberto; Zorzi, Marco (2016). "Probabilistic Models and Generative Neural Networks: Towards an Unified Framework for Modeling Normal and Impaired Neurocognitive Functions". Frontiers in Computational Neuroscience. 10: 73. doi:10.3389/fncom.2016.00073. ISSN 1662-5188. PMC 4943066. PMID 27468262. S2CID 9868901.
^ Testolin, Alberto; Stoianov, Ivilin; Zorzi, Marco (September 2017). "Letter perception emerges from unsupervised deep learning and recycling of natural image features". Nature Human Behaviour. 1 (9): 657–664. doi:10.1038/s41562-017-0186-2. ISSN 2397-3374. PMID 31024135. S2CID 24504018.
^ Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 November 2011). "Neural Dynamics as Sampling: A Model for Stochastic Computation in Recurrent Networks of Spiking Neurons". PLOS Computational Biology. 7 (11): e1002211. Bibcode:2011PLSCB...7E2211B. doi:10.1371/journal.pcbi.1002211. ISSN 1553-7358. PMC 3207943. PMID 22096452. S2CID 7504633.
^ Cash, S.; Yuste, R. (February 1999). "Linear summation of excitatory inputs by CA1 pyramidal neurons". Neuron. 22 (2): 383–394. doi:10.1016/s0896-6273(00)81098-3. ISSN 0896-6273. PMID 10069343. S2CID 14663106.
^ Olshausen, B; Field, D (1 August 2004). "Sparse coding of sensory inputs". Current Opinion in Neurobiology. 14 (4): 481–487. doi:10.1016/j.conb.2004.07.007. ISSN 0959-4388. PMID 15321069. S2CID 16560320.
^ Yamins, Daniel L K; DiCarlo, James J (March 2016). "Using goal-driven deep learning models to understand sensory cortex". Nature Neuroscience. 19 (3): 356–365. doi:10.1038/nn.4244. ISSN 1546-1726. PMID 26906502. S2CID 16970545.
^ Zorzi, Marco; Testolin, Alberto (19 February 2018). "An emergentist perspective on the origin of number sense". Phil. Trans. R. Soc. B. 373 (1740): 20170043. doi:10.1098/rstb.2017.0043. ISSN 0962-8436. PMC 5784047. PMID 29292348. S2CID 39281431.
^ Güçlü, Umut; van Gerven, Marcel A. J. (8 July 2015). "Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream". Journal of Neuroscience. 35 (27): 10005–10014. arXiv:1411.6422. doi:10.1523/jneurosci.5023-14.2015. PMC 6605414. PMID 26157000.
^ Metz, C. (12 December 2013). "Facebook's 'Deep Learning' Guru Reveals the Future of AI". Wired. Archived from the original on 28 March 2014. Retrieved 26 August 2017.
^ Gibney, Elizabeth (2016). "Google AI algorithm masters ancient game of Go". Nature. 529 (7587): 445–446. Bibcode:2016Natur.529..445G. doi:10.1038/529445a. PMID 26819021. S2CID 4460235.
^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, John; Kalchbrenner, Nal; Sutskever, Ilya; Lillicrap, Timothy; Leach, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 January 2016). "Mastering the game of Go with deep neural networks and tree search". Nature. 529 (7587): 484–489. Bibcode:2016Natur.529..484S. doi:10.1038/nature16961. ISSN 0028-0836. PMID 26819042. S2CID 515925.
^ "A Google DeepMind Algorithm Uses Deep Learning and More to Master the Game of Go | MIT Technology Review". MIT Technology Review. Archived from the original on 1 February 2016. Retrieved 30 January 2016.
^ Metz, Cade (6 November 2017). "A.I. Researchers Leave Elon Musk Lab to Begin Robotics Start-Up". The New York Times. Archived from the original on 7 July 2019. Retrieved 5 July 2019.
^ Bradley Knox, W.; Stone, Peter (2008). "TAMER: Training an Agent Manually via Evaluative Reinforcement". 2008 7th IEEE International Conference on Development and Learning. pp. 292–297. doi:10.1109/devlrn.2008.4640845. ISBN 978-1-4244-2661-4. S2CID 5613334.
^ "Talk to the Algorithms: AI Becomes a Faster Learner". governmentciomedia.com. 16 May 2018. Archived from the original on 28 August 2018. Retrieved 29 August 2018.
^ Marcus, Gary (14 January 2018). "In defense of skepticism about deep learning". Gary Marcus. Archived from the original on 12 October 2018. Retrieved 11 October 2018.
^ Knight, Will (14 March 2017). "DARPA is funding projects that will try to open up AI's black boxes". MIT Technology Review. Archived from the original on 4 November 2019. Retrieved 2 November 2017.
^ Marcus, Gary (November 25, 2012). "Is "Deep Learning" a Revolution in Artificial Intelligence?". The New Yorker. Archived from the original on 2009-11-27. Retrieved 2017-06-14.
^ Alexander Mordvintsev; Christopher Olah; Mike Tyka (17 June 2015). "Inceptionism: Going Deeper into Neural Networks". Google Research Blog. Archived from the original on 3 July 2015. Retrieved 20 June 2015.
^ Alex Hern (18 June 2015). "Yes, androids do dream of electric sheep". The Guardian. Archived from the original on 19 June 2015. Retrieved 20 June 2015.
^ a b c Goertzel, Ben (2015). "Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms?" (PDF). Archived (PDF) from the original on 2015-05-13. Retrieved 2015-05-10.
^ Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). "Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images". arXiv:1412.1897 [cs.CV].
^ Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). "Intriguing properties of neural networks". arXiv:1312.6199 [cs.CV].
^ Zhu, S.C.; Mumford, D. (2006). "A stochastic grammar of images". Found. Trends Comput. Graph. Vis. 2 (4): 259–362. CiteSeerX 10.1.1.681.2190. doi:10.1561/0600000018.
^ Miller, G. A., and N. Chomsky. "Pattern conception". Paper for Conference on pattern detection, University of Michigan. 1957.
^ Eisner, Jason. "Deep Learning of Recursive Structure: Grammar Induction". Archived from the original on 2017-12-30. Retrieved 2015-05-10.
^ "Hackers Have Already Started to Weaponize Artificial Intelligence". Gizmodo. 11 September 2017. Archived from the original on 11 October 2019. Retrieved 11 October 2019.
^ "How hackers can force AI to make dumb mistakes". The Daily Dot. 18 June 2018. Archived from the original on 11 October 2019. Retrieved 11 October 2019.
^ a b c d e "AI Is Easy to Fool—Why That Needs to Change". Singularity Hub. 10 October 2017. Archived from the original on 11 October 2017. Retrieved 11 October 2017.
^ Gibney, Elizabeth (2017). "The scientist who spots fake videos". Nature. doi:10.1038/nature.2017.22784. Archived from the original on 2017-10-10. Retrieved 2017-10-11.
^ Tubaro, Paola (2020). "Whose intelligence is artificial intelligence?". Global Dialogue: 38–39.
^ a b c d Mühlhoff, Rainer (6 November 2019). "Human-aided artificial intelligence: Or, how to run large computations in human brains? Toward a media sociology of machine learning". New Media & Society. 22 (10): 1868–1884. doi:10.1177/1461444819885334. ISSN 1461-4448. S2CID 209363848.
^ "Facebook Can Now Find Your Face, Even When It's Not Tagged". Wired. ISSN 1059-1028. Archived from the original on 10 August 2019. Retrieved 22 November 2019.