stringtranslate.com

Aprendizaje profundo

Representar imágenes en múltiples capas de abstracción en el aprendizaje profundo
Representación de imágenes en múltiples capas de abstracción en aprendizaje profundo [1]

El aprendizaje profundo es el subconjunto de métodos de aprendizaje automático basados ​​en redes neuronales con aprendizaje de representación . El adjetivo "profundo" se refiere al uso de múltiples capas en la red. Los métodos utilizados pueden ser supervisados , semisupervisados ​​o no supervisados . [2]

Las arquitecturas de aprendizaje profundo, como las redes neuronales profundas, las redes de creencias profundas , las redes neuronales recurrentes , las redes neuronales convolucionales y los transformadores, se han aplicado a campos que incluyen la visión por computadora , el reconocimiento de voz , el procesamiento del lenguaje natural , la traducción automática , la bioinformática , el diseño de fármacos y el análisis de imágenes médicas. , ciencia climática , inspección de materiales y programas de juegos de mesa , donde han producido resultados comparables y en algunos casos superando el desempeño humano experto. [3] [4] [5]

Las primeras formas de redes neuronales se inspiraron en el procesamiento de información y los nodos de comunicación distribuidos en los sistemas biológicos , en particular el cerebro humano . Sin embargo, las redes neuronales actuales no pretenden modelar la función cerebral de los organismos y, en general, se consideran modelos de baja calidad para ese propósito. [6]

Descripción general

La mayoría de los modelos modernos de aprendizaje profundo se basan en redes neuronales multicapa como las redes neuronales convolucionales y los transformadores , aunque también pueden incluir fórmulas proposicionales o variables latentes organizadas por capas en modelos generativos profundos como los nodos en las redes de creencias profundas y los de Boltzmann profundos . máquinas . [7]

Fundamentalmente, el aprendizaje profundo se refiere a una clase de algoritmos de aprendizaje automático en los que se utiliza una jerarquía de capas para transformar los datos de entrada en una representación un poco más abstracta y compuesta. Por ejemplo, en un modelo de reconocimiento de imágenes , la entrada sin procesar puede ser una imagen (representada como un tensor de píxeles ). La primera capa representacional puede intentar identificar formas básicas como líneas y círculos, la segunda capa puede componer y codificar disposiciones de bordes, la tercera capa puede codificar una nariz y ojos, y la cuarta capa puede reconocer que la imagen contiene una cara.

Es importante destacar que un proceso de aprendizaje profundo puede aprender por sí solo qué características ubicar de manera óptima en qué nivel . Antes del aprendizaje profundo, las técnicas de aprendizaje automático a menudo implicaban ingeniería de características hecha a mano para transformar los datos en una representación más adecuada para que operara un algoritmo de clasificación. En el enfoque de aprendizaje profundo, las características no se crean manualmente y el modelo descubre automáticamente representaciones de características útiles a partir de los datos. Esto no elimina la necesidad de realizar ajustes manualmente; por ejemplo, distintos números de capas y tamaños de capa pueden proporcionar diferentes grados de abstracción. [8] [2]

La palabra "profundo" en "aprendizaje profundo" se refiere a la cantidad de capas a través de las cuales se transforman los datos. Más precisamente, los sistemas de aprendizaje profundo tienen una profundidad sustancial en la ruta de asignación de créditos (CAP). La PAC es la cadena de transformaciones del insumo al producto. Los CAP describen conexiones potencialmente causales entre insumos y resultados. Para una red neuronal feedforward , la profundidad de los CAP es la de la red y es el número de capas ocultas más una (ya que la capa de salida también está parametrizada). Para las redes neuronales recurrentes , en las que una señal puede propagarse a través de una capa más de una vez, la profundidad del CAP es potencialmente ilimitada. [9] Ningún umbral de profundidad universalmente acordado divide el aprendizaje superficial del aprendizaje profundo, pero la mayoría de los investigadores están de acuerdo en que el aprendizaje profundo implica una profundidad de CAP superior a 2. Se ha demostrado que un CAP de profundidad 2 es un aproximador universal en el sentido de que puede emular cualquier función. [10] Más allá de eso, más capas no aumentan la capacidad de aproximación de funciones de la red. Los modelos profundos (CAP > 2) pueden extraer mejores características que los modelos superficiales y, por lo tanto, las capas adicionales ayudan a aprender las características de manera efectiva.

Las arquitecturas de aprendizaje profundo se pueden construir con un método codicioso capa por capa. [11] El aprendizaje profundo ayuda a desenredar estas abstracciones y seleccionar qué características mejoran el rendimiento. [8]

Los algoritmos de aprendizaje profundo se pueden aplicar a tareas de aprendizaje no supervisadas. Este es un beneficio importante porque los datos sin etiquetar son más abundantes que los datos etiquetados. Ejemplos de estructuras profundas que pueden entrenarse sin supervisión son las redes de creencias profundas . [8] [12]

El término aprendizaje profundo fue introducido en la comunidad de aprendizaje automático por Rina Dechter en 1986 [13] y en las redes neuronales artificiales por Igor Aizenberg y sus colegas en 2000, en el contexto de las neuronas de umbral booleano . [14] [15] Aunque la historia de su aparición es aparentemente más complicada. [16]

Interpretaciones

Las redes neuronales profundas generalmente se interpretan en términos del teorema de aproximación universal [17] [18] [19] [20] [21] o inferencia probabilística . [22] [23] [8] [9] [24]

El clásico teorema de aproximación universal se refiere a la capacidad de las redes neuronales feedforward con una única capa oculta de tamaño finito para aproximar funciones continuas . [17] [18] [19] [20] En 1989, George Cybenko publicó la primera prueba de las funciones de activación sigmoidea [17] y Kurt Hornik la generalizó para alimentar arquitecturas multicapa en 1991. [18] Un trabajo reciente también demostró que la aproximación universal también es válida para funciones de activación no acotadas, como la unidad lineal rectificada de Kunihiko Fukushima . [25] [26]

El teorema de aproximación universal para redes neuronales profundas se refiere a la capacidad de las redes con un ancho limitado pero se permite que la profundidad crezca. Lu y col. [21] demostró que si el ancho de una red neuronal profunda con activación ReLU es estrictamente mayor que la dimensión de entrada, entonces la red puede aproximarse a cualquier función integrable de Lebesgue ; si el ancho es menor o igual a la dimensión de entrada, entonces una red neuronal profunda no es un aproximador universal.

La interpretación probabilística [24] deriva del campo del aprendizaje automático . Presenta inferencia, [23] [7] [8] [9] [12] [24] así como los conceptos de optimización de entrenamiento y prueba , relacionados con el ajuste y la generalización , respectivamente. Más específicamente, la interpretación probabilística considera la no linealidad de activación como una función de distribución acumulativa . [24] La interpretación probabilística condujo a la introducción del abandono como regularizador en las redes neuronales. La interpretación probabilística fue introducida por investigadores como Hopfield , Widrow y Narendra y popularizada en encuestas como la de Bishop . [27]

Historia

Antes de 1980

Frank Rosenblatt (1958) [28] propuso el perceptrón, un perceptrón multicapa (MLP) con 3 capas: una capa de entrada, una capa oculta con pesos aleatorios que no aprendían y una capa de salida. Más tarde publicó un libro de 1962 que también introdujo variantes y experimentos informáticos, incluida una versión con perceptrones de cuatro capas donde las dos últimas capas han aprendido pesos (y, por lo tanto, un perceptrón multicapa adecuado). [29] : sección 16  Algunos consideran que el libro de 1962 desarrolló y exploró todos los ingredientes básicos de los sistemas de aprendizaje profundo de hoy. [30]

Alexey Ivakhnenko y Lapa publicaron en 1967 el método grupal de manejo de datos , un método para entrenar redes neuronales arbitrariamente profundas , que consideraron como una forma de regresión polinómica, [31] o una generalización del perceptrón de Rosenblatt. [32] Un artículo de 1971 describió una red profunda con ocho capas entrenadas por este método. [33]

El primer perceptrón multicapa de aprendizaje profundo entrenado mediante descenso de gradiente estocástico [34] fue publicado en 1967 por Shun'ichi Amari . [35] En experimentos informáticos realizados por Saito, estudiante de Amari, un MLP de cinco capas con dos capas modificables aprendió representaciones internas para clasificar clases de patrones no linealmente separables. [36] Los desarrollos posteriores en hardware y ajustes de hiperparámetros han hecho del descenso de gradiente estocástico de extremo a extremo la técnica de entrenamiento actualmente dominante.

La retropropagación es una aplicación eficiente de la regla de la cadena derivada por Gottfried Wilhelm Leibniz en 1673 [37] a redes de nodos diferenciables. La terminología "errores de retropropagación" fue introducida en 1962 por Rosenblatt, [29] pero no sabía cómo implementarla, aunque Henry J. Kelley tuvo un precursor continuo de la retropropagación en 1960 en el contexto de la teoría del control . [38] La forma moderna de retropropagación se desarrolló varias veces a principios de la década de 1970. El primer ejemplo publicado fue la tesis de maestría de Seppo Linnainmaa (1970). [39] [40] [36] Paul Werbos lo desarrolló de forma independiente en 1971, [41] pero tuvo dificultades para publicarlo hasta 1982. [42] En 1986, David E. Rumelhart et al. popularizó la retropropagación. [43] [44]

Década de 1980-2000

Las arquitecturas de aprendizaje profundo para redes neuronales convolucionales (CNN) con capas convolucionales y capas de reducción de resolución comenzaron con el Neocognitron introducido por Kunihiko Fukushima en 1980, aunque no entrenado mediante retropropagación. [45] En 1969, también introdujo la función de activación ReLU (unidad lineal rectificada) . [25] [36] El rectificador se ha convertido en la función de activación más popular para las CNN y el aprendizaje profundo en general. [46]

La CNN entrenada en retropropagación tuvo éxitos tempranos en la década de 1980, como en el reconocimiento de alfabetos [47] y en un hardware de computación óptica . [48] ​​La red neuronal de retardo de tiempo (TDNN) fue introducida en 1987 por Alex Waibel para aplicar CNN al reconocimiento de fonemas. Utilizó tanto el peso compartido como la retropropagación. [49] En 1989, Yann LeCun et al. Creó LeNet , que aplicó retropropagación a una CNN para reconocer códigos postales escritos a mano en el correo. La formación requirió 3 días. [50] Otros ejemplos incluyeron la segmentación de objetos de imágenes médicas [51] y la detección de cáncer de mama en mamografías. [52] Varios bancos aplicaron LeNet -5 (1998), una CNN de 7 niveles de Yann LeCun et al., que clasifica dígitos, para reconocer números escritos a mano en cheques digitalizados en imágenes de 32x32 píxeles. [53]

Las redes neuronales recurrentes (RNN) también se desarrollaron en la década de 1980. La recurrencia se utiliza para el procesamiento de secuencias y, cuando se desenrolla una red recurrente, matemáticamente se asemeja a una capa profunda de avance. En consecuencia, tienen propiedades y problemas similares y su desarrollo tuvo influencias mutuas. En RNN, dos de los primeros trabajos influyentes fueron la red Jordan (1986) [54] y la red Elman (1990), [55] que aplicaron RNN para estudiar problemas en psicología cognitiva .

La tesis de diploma de Sepp Hochreiter (1991) [56] propuso el compresor de historia neuronal e identificó y analizó el problema del gradiente de fuga . [56] [57] En 1993, un sistema compresor de historia neuronal resolvió una tarea de "aprendizaje muy profundo" que requería más de 1000 capas posteriores en un RNN desplegado en el tiempo. [58] [59] Hochreiter propuso conexiones residuales recurrentes para resolver el problema del gradiente evanescente. Esto llevó a la memoria a largo plazo (LSTM), publicada en 1995. [60] LSTM puede aprender tareas de "aprendizaje muy profundo" [9] con rutas largas de asignación de créditos que requieren recuerdos de eventos que sucedieron miles de pasos de tiempo discretos antes. . Ese LSTM aún no era la arquitectura moderna, que requería una "puerta de olvido", introducida en 1999, [61] que se convirtió en la arquitectura RNN estándar.

Durante 1985-1995, inspirados en la mecánica estadística, Terry Sejnowski , Peter Dayan , Geoffrey Hinton , etc. desarrollaron varias arquitecturas y métodos , incluida la máquina de Boltzmann , [62] la máquina de Boltzmann restringida , [63] la máquina de Helmholtz , [64] y el algoritmo vigilia-sueño . [65] Estos fueron diseñados para el aprendizaje no supervisado de modelos generativos profundos. Sin embargo, estos eran más costosos computacionalmente en comparación con la retropropagación. El algoritmo de aprendizaje automático de Boltzmann, publicado en 1985, fue brevemente popular antes de ser eclipsado por el algoritmo de retropropagación en 1986 (p. 112 [66] ). Una red de 1988 se convirtió en lo último en predicción de estructuras de proteínas , una de las primeras aplicaciones del aprendizaje profundo a la bioinformática. [67]

Durante muchos años se ha explorado tanto el aprendizaje superficial como el profundo (p. ej., redes recurrentes) de RNA para el reconocimiento de voz . [68] [69] [70] Estos métodos nunca superaron la tecnología del modelo de mezcla gaussiana / modelo oculto de Markov (GMM-HMM) de elaboración interna no uniforme basado en modelos generativos de habla entrenados discriminativamente. [71] Se han analizado las principales dificultades, incluida la disminución del gradiente [56] y una estructura de correlación temporal débil en los modelos predictivos neuronales. [72] [73] Las dificultades adicionales fueron la falta de datos de entrenamiento y la potencia informática limitada.

La mayoría de los investigadores en reconocimiento de voz se alejaron de las redes neuronales para dedicarse al modelado generativo. Una excepción fue la de SRI International a finales de los años 1990. Financiado por la NSA y DARPA del gobierno de EE. UU. , el SRI investigó el habla y el reconocimiento de locutores . El equipo de reconocimiento de locutores dirigido por Larry Heck informó un éxito significativo con redes neuronales profundas en el procesamiento del habla en el punto de referencia de reconocimiento de locutores del NIST de 1998 . [74] [75] Se implementó en Nuance Verifier, lo que representa la primera aplicación industrial importante de aprendizaje profundo. [76]

El principio de elevar las características "en bruto" sobre la optimización artesanal se exploró con éxito por primera vez en la arquitectura del codificador automático profundo en el espectrograma "en bruto" o en las características del banco de filtros lineales a finales de la década de 1990, [75] mostrando su superioridad sobre el Mel- Características cepstrales que contienen etapas de transformación fija a partir de espectrogramas. Las características brutas del habla, las formas de onda , produjeron posteriormente excelentes resultados a gran escala. [77]

2000

Las redes neuronales entraron en un vacío nulo, y los modelos más simples que utilizan funciones artesanales específicas para tareas, como los filtros Gabor y las máquinas de vectores de soporte (SVM), se convirtieron en las opciones preferidas en las décadas de 1990 y 2000, debido al costo computacional de las redes neuronales artificiales y a la falta de comprensión. de cómo el cerebro conecta sus redes biológicas. [ cita necesaria ]

En 2003, LSTM se volvió competitivo con los reconocedores de voz tradicionales en determinadas tareas. [78] En 2006, Alex Graves , Santiago Fernández, Faustino Gómez y Schmidhuber lo combinaron con la clasificación temporal conexionista (CTC) [79] en pilas de LSTM. [80] En 2009, se convirtió en el primer RNN en ganar un concurso de reconocimiento de patrones , en reconocimiento de escritura a mano conectada . [81] [9]

En 2006, las publicaciones de Geoff Hinton , Ruslan Salakhutdinov , Osindero y Teh [82] [83] desarrollaron redes de creencias profundas para el modelado generativo. Se entrenan entrenando una máquina Boltzmann restringida, luego congelándola y entrenando otra encima de la primera, y así sucesivamente, y luego, opcionalmente, se ajustan utilizando retropropagación supervisada. [84] Pudieron modelar distribuciones de probabilidad de alta dimensión, como la distribución de imágenes MNIST , pero la convergencia fue lenta. [85] [86] [87]

El impacto del aprendizaje profundo en la industria comenzó a principios de la década de 2000, cuando las CNN ya procesaban aproximadamente entre el 10% y el 20% de todos los cheques emitidos en Estados Unidos, según Yann LeCun. [88] Las aplicaciones industriales del aprendizaje profundo al reconocimiento de voz a gran escala comenzaron alrededor de 2010.

El taller NIPS de 2009 sobre aprendizaje profundo para el reconocimiento de voz fue motivado por las limitaciones de los modelos generativos profundos de voz y la posibilidad de que, con hardware más capaz y conjuntos de datos a gran escala, las redes neuronales profundas pudieran resultar prácticas. Se creía que el entrenamiento previo de las DNN utilizando modelos generativos de redes de creencias profundas (DBN) superaría las principales dificultades de las redes neuronales. Sin embargo, se descubrió que reemplazar el entrenamiento previo con grandes cantidades de datos de entrenamiento para una retropropagación directa cuando se usaban DNN con capas de salida grandes y dependientes del contexto producía tasas de error dramáticamente más bajas que el modelo de mezcla gaussiana de última generación (GMM). )/Modelo oculto de Markov (HMM) y también que los sistemas basados ​​en modelos generativos más avanzados. [89] La naturaleza de los errores de reconocimiento producidos por los dos tipos de sistemas fue característicamente diferente, [90] ofreciendo conocimientos técnicos sobre cómo integrar el aprendizaje profundo en el sistema de decodificación de voz en tiempo de ejecución altamente eficiente existente implementado por todos los principales sistemas de reconocimiento de voz. sistemas. [23] [91] [92] El análisis realizado alrededor de 2009-2010, que contrastaba el GMM (y otros modelos de habla generativa) con los modelos DNN, estimuló la inversión industrial temprana en aprendizaje profundo para el reconocimiento de voz. [90] Ese análisis se realizó con un rendimiento comparable (menos del 1,5% en la tasa de error) entre DNN discriminativas y modelos generativos. [89] [90] [93] En 2010, los investigadores ampliaron el aprendizaje profundo de TIMIT al reconocimiento de voz de gran vocabulario, mediante la adopción de grandes capas de salida del DNN basadas en estados HMM dependientes del contexto construidos mediante árboles de decisión . [94] [95] [96] [91]

Revolución del aprendizaje profundo

Cómo el aprendizaje profundo es un subconjunto del aprendizaje automático y cómo el aprendizaje automático es un subconjunto de la inteligencia artificial (IA)

La revolución del aprendizaje profundo comenzó en torno a la visión por computadora basada en CNN y GPU.

Aunque las CNN entrenadas mediante retropropagación habían existido durante décadas y las implementaciones de NN en GPU durante años, [97] incluidas las CNN, [98] se necesitaban implementaciones más rápidas de CNN en GPU para avanzar en la visión por computadora. Más tarde, a medida que el aprendizaje profundo se generalizó, se desarrollaron optimizaciones de algoritmos y hardware especializados específicamente para el aprendizaje profundo. [99]

Un avance clave para la revolución del aprendizaje profundo fueron los avances en el hardware, especialmente en la GPU. Algunos de los primeros trabajos se remontan a 2004. [97] [98] En 2009, Raina, Madhavan y Andrew Ng informaron sobre una red de creencias profundas de 100 millones entrenada en 30 GPU Nvidia GeForce GTX 280 , una demostración temprana de aprendizaje profundo basado en GPU. Informaron de un entrenamiento hasta 70 veces más rápido. [100]

En 2011, una CNN llamada DanNet [101] [102] de Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella y Jürgen Schmidhuber logró por primera vez un desempeño sobrehumano en un concurso de reconocimiento de patrones visuales, superando a los métodos tradicionales por un factor. de 3. [9] Luego ganó más concursos. [103] [104] También mostraron cómo las CNN de agrupación máxima en GPU mejoraron significativamente el rendimiento. [3]

En 2012, Andrew Ng y Jeff Dean crearon una FNN que aprendió a reconocer conceptos de nivel superior, como los gatos, solo viendo imágenes sin etiqueta tomadas de videos de YouTube . [105]

En octubre de 2012, AlexNet de Alex Krizhevsky , Ilya Sutskever y Geoffrey Hinton [4] ganó la competencia ImageNet a gran escala por un margen significativo sobre los métodos superficiales de aprendizaje automático. Otras mejoras incrementales incluyeron la red VGG-16 de Karen Simonyan y Andrew Zisserman [106] y Inceptionv3 de Google . [107]

El éxito en la clasificación de imágenes se extendió luego a la tarea más desafiante de generar descripciones (títulos) para imágenes, a menudo como una combinación de CNN y LSTM. [108] [109] [110]

En 2014, lo último en tecnología era entrenar una “red neuronal muy profunda” con entre 20 y 30 capas. [111] Apilar demasiadas capas condujo a una fuerte reducción en la precisión del entrenamiento , [112] conocido como el problema de "degradación". [113] En 2015, se desarrollaron dos técnicas simultáneamente para entrenar redes muy profundas: red de carreteras [114] y red neuronal residual (ResNet). [115] El equipo de investigación de ResNet intentó entrenar redes más profundas probando empíricamente varios trucos para entrenar redes más profundas hasta que descubrieron la arquitectura de red residual profunda. [116]

Casi al mismo tiempo, el aprendizaje profundo comenzó a impactar el campo del arte. Los primeros ejemplos incluyeron Google DeepDream (2015) y la transferencia de estilo neuronal (2015), [117], los cuales se basaron en redes neuronales de clasificación de imágenes previamente entrenadas, como VGG-19.

La red generativa adversarial (GAN) de ( Ian Goodfellow et al., 2014) [118] se convirtió en lo último en modelado generativo durante el período 2014-2018. StyleGAN de Nvidia (2018) [119] basado en Progressive GAN de Tero Karras et al. logra una excelente calidad de imagen. [120] Aquí el generador GAN crece de pequeña a gran escala de forma piramidal. La generación de imágenes mediante GAN alcanzó un éxito popular y provocó debates sobre los deepfakes . [121] Los modelos de difusión (2015) [122] eclipsaron a las GAN en el modelado generativo desde entonces, con sistemas como DALL·E 2 (2022) y Stable Diffusion (2022).

En 2015, el reconocimiento de voz de Google mejoró en un 49% mediante un modelo basado en LSTM, que pusieron a disposición a través de Google Voice Search en teléfonos inteligentes . [123] [124]

El aprendizaje profundo forma parte de sistemas de última generación en diversas disciplinas, en particular la visión por computadora y el reconocimiento automático de voz (ASR). Los resultados de conjuntos de evaluación de uso común, como TIMIT (ASR) y MNIST ( clasificación de imágenes ), así como una variedad de tareas de reconocimiento de voz de amplio vocabulario, han mejorado constantemente. [89] [125] Las redes neuronales convolucionales fueron reemplazadas por ASR por LSTM . [124] [126] [127] [128] pero tienen más éxito en visión por computadora.

Yoshua Bengio , Geoffrey Hinton y Yann LeCun recibieron el Premio Turing 2018 por "avances conceptuales y de ingeniería que han hecho de las redes neuronales profundas un componente crítico de la informática". [129]

Redes neuronales

Las redes neuronales artificiales ( RNA ) o sistemas conexionistas son sistemas informáticos inspirados en las redes neuronales biológicas que constituyen los cerebros de los animales. Estos sistemas aprenden (mejoran progresivamente su capacidad) a realizar tareas considerando ejemplos, generalmente sin programación específica de tareas. Por ejemplo, en el reconocimiento de imágenes, podrían aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que han sido etiquetadas manualmente como "gato" o "no gato" y utilizando los resultados analíticos para identificar gatos en otras imágenes. Han encontrado mayor uso en aplicaciones difíciles de expresar con un algoritmo informático tradicional que utiliza programación basada en reglas .

Una ANN se basa en una colección de unidades conectadas llamadas neuronas artificiales (análogas a las neuronas biológicas en un cerebro biológico ). Cada conexión ( sinapsis ) entre neuronas puede transmitir una señal a otra neurona. La neurona receptora (postsináptica) puede procesar la(s) señal(es) y luego enviar señales a las neuronas conectadas a ella. Las neuronas pueden tener un estado, generalmente representado por números reales , típicamente entre 0 y 1. Las neuronas y las sinapsis también pueden tener un peso que varía a medida que avanza el aprendizaje, lo que puede aumentar o disminuir la intensidad de la señal que envía.

Normalmente, las neuronas están organizadas en capas. Diferentes capas pueden realizar diferentes tipos de transformaciones en sus entradas. Las señales viajan desde la primera capa (entrada) a la última capa (salida), posiblemente después de atravesar las capas varias veces.

El objetivo original del enfoque de las redes neuronales era resolver problemas de la misma manera que lo haría un cerebro humano. Con el tiempo, la atención se centró en hacer coincidir habilidades mentales específicas, lo que llevó a desviaciones de la biología como la retropropagación , o pasar información en la dirección inversa y ajustar la red para reflejar esa información.

Las redes neuronales se han utilizado en una variedad de tareas, incluida la visión por computadora, el reconocimiento de voz , la traducción automática , el filtrado de redes sociales , los juegos de mesa y de video y el diagnóstico médico.

A partir de 2017, las redes neuronales suelen tener entre unos pocos miles y unos pocos millones de unidades y millones de conexiones. A pesar de que este número es varios órdenes de magnitud menor que el número de neuronas en un cerebro humano, estas redes pueden realizar muchas tareas a un nivel superior al de los humanos (por ejemplo, reconocer rostros o jugar "Go" [131] ).

Redes neuronales profundas

Una red neuronal profunda (DNN) es una red neuronal artificial con múltiples capas entre las capas de entrada y salida. [7] [9] Existen diferentes tipos de redes neuronales, pero siempre constan de los mismos componentes: neuronas, sinapsis, pesos, sesgos y funciones. [132] Estos componentes en su conjunto funcionan de una manera que imita las funciones del cerebro humano y pueden entrenarse como cualquier otro algoritmo de ML. [ cita necesaria ]

Por ejemplo, un DNN que está entrenado para reconocer razas de perros revisará la imagen dada y calculará la probabilidad de que el perro en la imagen sea de una determinada raza. El usuario puede revisar los resultados y seleccionar qué probabilidades debe mostrar la red (por encima de un cierto umbral, etc.) y devolver la etiqueta propuesta. Cada manipulación matemática como tal se considera una capa, [ cita necesaria ] y las DNN complejas tienen muchas capas, de ahí el nombre de redes "profundas".

Las DNN pueden modelar relaciones complejas no lineales. Las arquitecturas DNN generan modelos compositivos donde el objeto se expresa como una composición en capas de primitivas . [133] Las capas adicionales permiten la composición de características de capas inferiores, lo que potencialmente modela datos complejos con menos unidades que una red poco profunda de rendimiento similar. [7] Por ejemplo, se demostró que los polinomios multivariados dispersos son exponencialmente más fáciles de aproximar con DNN que con redes poco profundas. [134]

Las arquitecturas profundas incluyen muchas variantes de algunos enfoques básicos. Cada arquitectura ha tenido éxito en dominios específicos. No siempre es posible comparar el rendimiento de varias arquitecturas, a menos que hayan sido evaluadas con los mismos conjuntos de datos.

Las DNN suelen ser redes de retroalimentación en las que los datos fluyen desde la capa de entrada a la capa de salida sin retroceder. Al principio, el DNN crea un mapa de neuronas virtuales y asigna valores numéricos aleatorios, o "pesos", a las conexiones entre ellas. Los pesos y las entradas se multiplican y devuelven una salida entre 0 y 1. Si la red no reconociera con precisión un patrón particular, un algoritmo ajustaría los pesos. [135] De esa manera, el algoritmo puede hacer que ciertos parámetros sean más influyentes, hasta que determine la manipulación matemática correcta para procesar completamente los datos.

Las redes neuronales recurrentes , en las que los datos pueden fluir en cualquier dirección, se utilizan para aplicaciones como el modelado de lenguajes . [136] [137] [138] [139] [140] La memoria larga a corto plazo es particularmente eficaz para este uso. [141] [142]

Las redes neuronales convolucionales (CNN) se utilizan en visión por computadora. [143] Las CNN también se han aplicado al modelado acústico para el reconocimiento automático de voz (ASR). [144]

Desafíos

Al igual que con las ANN, pueden surgir muchos problemas con las DNN entrenadas ingenuamente. Dos problemas comunes son el sobreajuste y el tiempo de cálculo.

Los DNN son propensos a sobreajustarse debido a las capas agregadas de abstracción, que les permiten modelar dependencias raras en los datos de entrenamiento. Los métodos de regularización como la poda unitaria de Ivakhnenko [33] o la disminución del peso ( -regularización) o la escasez ( -regularización) se pueden aplicar durante el entrenamiento para combatir el sobreajuste. [145] Alternativamente, la regularización de abandono omite aleatoriamente unidades de las capas ocultas durante el entrenamiento. Esto ayuda a excluir dependencias raras. [146] Finalmente, los datos se pueden aumentar mediante métodos como recortar y rotar, de modo que se pueda aumentar el tamaño de conjuntos de entrenamiento más pequeños para reducir las posibilidades de sobreajuste. [147]

Las DNN deben considerar muchos parámetros de entrenamiento, como el tamaño (número de capas y número de unidades por capa), la tasa de aprendizaje y los pesos iniciales. Es posible que no sea factible recorrer el espacio de parámetros en busca de parámetros óptimos debido al costo en tiempo y recursos computacionales. Varios trucos, como el procesamiento por lotes (calcular el gradiente en varios ejemplos de entrenamiento a la vez en lugar de ejemplos individuales) [148] aceleran el cálculo. Las grandes capacidades de procesamiento de las arquitecturas de muchos núcleos (como las GPU o Intel Xeon Phi) han producido importantes aceleraciones en el entrenamiento, debido a la idoneidad de dichas arquitecturas de procesamiento para los cálculos matriciales y vectoriales. [149] [150]

Alternativamente, los ingenieros pueden buscar otros tipos de redes neuronales con algoritmos de entrenamiento más sencillos y convergentes. CMAC ( controlador de articulación del modelo cerebeloso ) es uno de esos tipos de redes neuronales. No requiere tasas de aprendizaje ni pesos iniciales aleatorios. Se puede garantizar que el proceso de entrenamiento converja en un paso con un nuevo lote de datos, y la complejidad computacional del algoritmo de entrenamiento es lineal con respecto al número de neuronas involucradas. [151] [152]

Hardware

Desde la década de 2010, los avances tanto en los algoritmos de aprendizaje automático como en el hardware informático han llevado a métodos más eficientes para entrenar redes neuronales profundas que contienen muchas capas de unidades ocultas no lineales y una capa de salida muy grande. [153] Para 2019, las unidades de procesamiento de gráficos (GPU), a menudo con mejoras específicas de IA, habían desplazado a las CPU como método dominante para entrenar IA en la nube comercial a gran escala. [154] OpenAI estimó el cálculo de hardware utilizado en los proyectos de aprendizaje profundo más grandes desde AlexNet (2012) hasta AlphaZero (2017) y encontró un aumento de 300.000 veces en la cantidad de cálculo requerido, con una línea de tendencia de tiempo de duplicación de 3,4 meses. [155] [156]

Se diseñaron circuitos electrónicos especiales llamados procesadores de aprendizaje profundo para acelerar los algoritmos de aprendizaje profundo. Los procesadores de aprendizaje profundo incluyen unidades de procesamiento neuronal (NPU) en los teléfonos móviles Huawei [157] y servidores de computación en la nube, como unidades de procesamiento tensorial (TPU) en Google Cloud Platform . [158] Cerebras Systems también ha construido un sistema dedicado para manejar grandes modelos de aprendizaje profundo, el CS-2, basado en el procesador más grande de la industria, el Wafer Scale Engine (WSE-2) de segunda generación. [159] [160]

Los semiconductores atómicamente delgados se consideran prometedores para el hardware de aprendizaje profundo energéticamente eficiente, donde se utiliza la misma estructura básica del dispositivo tanto para las operaciones lógicas como para el almacenamiento de datos. En 2020, Marega et al. publicaron experimentos con un material de canal activo de gran área para desarrollar dispositivos y circuitos de lógica en memoria basados ​​en transistores de efecto de campo de puerta flotante (FGFET). [161]

En 2021, J. Feldmann et al. propuso un acelerador de hardware fotónico integrado para el procesamiento convolucional paralelo. [162] Los autores identifican dos ventajas clave de la fotónica integrada sobre sus contrapartes electrónicas: (1) transferencia masiva de datos en paralelo a través de multiplexación por división de longitud de onda junto con peines de frecuencia , y (2) velocidades de modulación de datos extremadamente altas. [162] Su sistema puede ejecutar billones de operaciones de acumulación múltiple por segundo, lo que indica el potencial de la fotónica integrada en aplicaciones de IA con muchos datos. [162]

Aplicaciones

Reconocimiento automático de voz

El reconocimiento automático de voz a gran escala es el primer y más convincente caso exitoso de aprendizaje profundo. Los RNN de LSTM pueden aprender tareas de "aprendizaje muy profundo" [9] que implican intervalos de varios segundos que contienen eventos de voz separados por miles de pasos de tiempo discretos, donde un paso de tiempo corresponde a aproximadamente 10 ms. LSTM con puertas de olvido [142] es competitivo con los reconocedores de voz tradicionales en determinadas tareas. [78]

El éxito inicial en el reconocimiento de voz se basó en tareas de reconocimiento a pequeña escala basadas en TIMIT. El conjunto de datos contiene 630 hablantes de ocho dialectos principales del inglés americano , donde cada hablante lee 10 oraciones. [163] Su pequeño tamaño permite probar muchas configuraciones. Más importante aún, la tarea TIMIT se refiere al reconocimiento de secuencias telefónicas , que, a diferencia del reconocimiento de secuencias de palabras, permite modelos de lenguaje de bigramas telefónicos débiles. Esto permite analizar más fácilmente la solidez de los aspectos del modelado acústico del reconocimiento de voz. Las tasas de error que se enumeran a continuación, incluidos estos primeros resultados y medidas como tasas porcentuales de error telefónico (PER), se han resumido desde 1991.

El debut de DNN para el reconocimiento de hablantes a finales de la década de 1990 y el reconocimiento de voz alrededor de 2009-2011 y de LSTM alrededor de 2003-2007, aceleró el progreso en ocho áreas principales: [23] [93] [91]

Todos los principales sistemas comerciales de reconocimiento de voz (por ejemplo, Microsoft Cortana , Xbox , Skype Translator , Amazon Alexa , Google Now , Apple Siri , Baidu e iFlyTek , búsqueda por voz y una gama de productos de voz de Nuance , etc.) se basan en el aprendizaje profundo. [23] [168] [169]

Reconocimiento de imagen

Un conjunto de evaluación común para la clasificación de imágenes es el conjunto de datos de la base de datos MNIST . MNIST se compone de dígitos escritos a mano e incluye 60.000 ejemplos de formación y 10.000 ejemplos de prueba. Al igual que TIMIT, su pequeño tamaño permite a los usuarios probar múltiples configuraciones. Está disponible una lista completa de resultados de este conjunto. [170]

El reconocimiento de imágenes basado en el aprendizaje profundo se ha vuelto "sobrehumano" y produce resultados más precisos que los concursantes humanos. Esto ocurrió por primera vez en 2011 con el reconocimiento de señales de tráfico y en 2014 con el reconocimiento de rostros humanos. [171] [172]

Los vehículos entrenados con aprendizaje profundo ahora interpretan vistas de cámara de 360°. [173] Otro ejemplo es el Análisis de novelas de dismorfología facial (FDNA, por sus siglas en inglés) que se utiliza para analizar casos de malformación humana conectados a una gran base de datos de síndromes genéticos.

Procesamiento de artes visuales

Procesamiento de arte visual de Jimmy Wales en Francia, con el estilo de " El grito " de Munch aplicado mediante transferencia de estilo neuronal.

Estrechamente relacionada con el progreso que se ha logrado en el reconocimiento de imágenes está la creciente aplicación de técnicas de aprendizaje profundo a diversas tareas de artes visuales. Las DNN han demostrado ser capaces, por ejemplo, de

Procesamiento del lenguaje natural

Las redes neuronales se han utilizado para implementar modelos de lenguaje desde principios de la década de 2000. [136] LSTM ayudó a mejorar la traducción automática y el modelado del lenguaje. [137] [138] [139]

Otras técnicas clave en este campo son el muestreo negativo [176] y la incrustación de palabras . La incrustación de palabras, como word2vec , se puede considerar como una capa representacional en una arquitectura de aprendizaje profundo que transforma una palabra atómica en una representación posicional de la palabra en relación con otras palabras en el conjunto de datos; la posición se representa como un punto en un espacio vectorial . El uso de la incrustación de palabras como capa de entrada RNN permite a la red analizar oraciones y frases utilizando una gramática vectorial de composición eficaz. Una gramática vectorial composicional puede considerarse como una gramática probabilística libre de contexto (PCFG) implementada por un RNN. [177] Los codificadores automáticos recursivos construidos sobre incrustaciones de palabras pueden evaluar la similitud de oraciones y detectar paráfrasis. [177] Las arquitecturas neuronales profundas proporcionan los mejores resultados para el análisis de electores, [178] análisis de sentimientos , [179] recuperación de información, [180] [181] comprensión del lenguaje hablado, [182] traducción automática, [137] [183] ​​entidad contextual vinculación, [183] ​​reconocimiento de estilo de escritura, [184] reconocimiento de entidad nombrada (clasificación de tokens), [185] clasificación de texto y otros. [186]

Los desarrollos recientes generalizan la incrustación de palabras a la incrustación de oraciones .

Google Translate (GT) utiliza una gran red de memoria a corto plazo (LSTM) de extremo a extremo . [187] [188] [189] [190] Google Neural Machine Translation (GNMT) utiliza un método de traducción automática basado en ejemplos en el que el sistema "aprende de millones de ejemplos". [188] Traduce "frases enteras a la vez, en lugar de fragmentos". Google Translate admite más de cien idiomas. [188] La red codifica la "semántica de la oración en lugar de simplemente memorizar traducciones frase a frase". [188] [191] GT utiliza el inglés como intermediario entre la mayoría de los pares de idiomas. [191]

Descubrimiento de fármacos y toxicología.

Un gran porcentaje de medicamentos candidatos no logran la aprobación regulatoria. Estos fracasos son causados ​​por una eficacia insuficiente (efecto en el objetivo), interacciones no deseadas (efectos fuera del objetivo) o efectos tóxicos imprevistos . [192] [193] La investigación ha explorado el uso del aprendizaje profundo para predecir los objetivos biomoleculares , [194] [195] los efectos no deseados y tóxicos de las sustancias químicas ambientales en nutrientes, productos domésticos y medicamentos. [196] [197] [198]

AtomNet es un sistema de aprendizaje profundo para el diseño racional de fármacos basado en estructuras . [199] AtomNet se utilizó para predecir nuevas biomoléculas candidatas a objetivos de enfermedades como el virus del Ébola [200] y la esclerosis múltiple . [201] [200]

En 2017, las redes neuronales gráficas se utilizaron por primera vez para predecir diversas propiedades de moléculas en un gran conjunto de datos toxicológicos. [202] En 2019, se utilizaron redes neuronales generativas para producir moléculas que se validaron experimentalmente en ratones. [203] [204]

Gestión de relaciones con el cliente.

Se ha utilizado el aprendizaje por refuerzo profundo para aproximar el valor de posibles acciones de marketing directo , definidas en términos de variables RFM . Se demostró que la función de valor estimado tiene una interpretación natural como valor de vida del cliente . [205]

Sistemas de recomendación

Los sistemas de recomendación han utilizado el aprendizaje profundo para extraer características significativas para un modelo de factor latente para recomendaciones de revistas y música basadas en contenido. [206] [207] Se ha aplicado el aprendizaje profundo de múltiples vistas para conocer las preferencias del usuario de múltiples dominios. [208] El modelo utiliza un enfoque híbrido colaborativo y basado en contenido y mejora las recomendaciones en múltiples tareas.

Bioinformática

Se utilizó un codificador automático ANN en bioinformática para predecir anotaciones de ontología genética y relaciones entre funciones genéticas. [209]

En informática médica, se utilizó el aprendizaje profundo para predecir la calidad del sueño basándose en datos de dispositivos portátiles [210] y predicciones de complicaciones de salud a partir de datos de registros médicos electrónicos . [211]

Las redes neuronales profundas han demostrado un rendimiento incomparable a la hora de predecir la estructura de las proteínas , según la secuencia de los aminoácidos que la componen. En 2020, AlphaFold , un sistema basado en aprendizaje profundo, alcanzó un nivel de precisión significativamente superior a todos los métodos computacionales anteriores. [212] [213]

Estimaciones de redes neuronales profundas

Las redes neuronales profundas se pueden utilizar para estimar la entropía de un proceso estocástico y se denominan Estimador de entropía conjunta neuronal (NJEE). [214] Tal estimación proporciona información sobre los efectos de las variables aleatorias de entrada en una variable aleatoria independiente . En la práctica, el DNN se entrena como un clasificador que asigna un vector de entrada o matriz X a una distribución de probabilidad de salida sobre las posibles clases de variable aleatoria Y, dada la entrada X. Por ejemplo, en tareas de clasificación de imágenes , el NJEE asigna un vector de píxeles ' valores de color a probabilidades sobre posibles clases de imágenes. En la práctica, la distribución de probabilidad de Y se obtiene mediante una capa Softmax con un número de nodos igual al tamaño del alfabeto de Y. NJEE utiliza funciones de activación continuamente diferenciables , de modo que se cumplen las condiciones para el teorema de aproximación universal . Se demuestra que este método proporciona un estimador fuertemente consistente y supera a otros métodos en el caso de alfabetos de gran tamaño. [214]

Análisis de imágenes médicas.

Se ha demostrado que el aprendizaje profundo produce resultados competitivos en aplicaciones médicas, como la clasificación de células cancerosas, la detección de lesiones, la segmentación de órganos y la mejora de imágenes. [215] [216] Las herramientas modernas de aprendizaje profundo demuestran la alta precisión de la detección de diversas enfermedades y la utilidad de su uso por parte de especialistas para mejorar la eficiencia del diagnóstico. [217] [218]

Publicidad móvil

Encontrar la audiencia móvil adecuada para la publicidad móvil siempre es un desafío, ya que se deben considerar y analizar muchos puntos de datos antes de que cualquier servidor de publicidad pueda crear y utilizar un segmento objetivo en la publicación de anuncios. [219] El aprendizaje profundo se ha utilizado para interpretar conjuntos de datos publicitarios grandes y multidimensionales. Muchos puntos de datos se recopilan durante el ciclo de solicitud/servicio/clic de publicidad en Internet. Esta información puede formar la base del aprendizaje automático para mejorar la selección de anuncios.

Restauración de imagen

El aprendizaje profundo se ha aplicado con éxito a problemas inversos como la eliminación de ruido , la superresolución , la pintura interna y la coloración de películas . [220] Estas aplicaciones incluyen métodos de aprendizaje como "Campos de contracción para una restauración efectiva de imágenes" [221] que se entrena en un conjunto de datos de imágenes, y Deep Image Prior , que se entrena en la imagen que necesita restauración.

Detección de fraude financiero

El aprendizaje profundo se está aplicando con éxito a la detección de fraude financiero , la detección de evasión fiscal [222] y la lucha contra el blanqueo de dinero. [223]

Ciencias de los materiales

En noviembre de 2023, investigadores de Google DeepMind y el Laboratorio Nacional Lawrence Berkeley anunciaron que habían desarrollado un sistema de inteligencia artificial conocido como GNoME. Este sistema ha contribuido a la ciencia de los materiales al descubrir más de 2 millones de nuevos materiales en un período de tiempo relativamente corto. GNoME emplea técnicas de aprendizaje profundo para explorar de manera eficiente estructuras materiales potenciales, logrando un aumento significativo en la identificación de estructuras cristalinas inorgánicas estables . Las predicciones del sistema fueron validadas mediante experimentos robóticos autónomos, demostrando una notable tasa de éxito del 71%. Los datos de los materiales recién descubiertos están disponibles públicamente a través de la base de datos del Proyecto de Materiales , lo que ofrece a los investigadores la oportunidad de identificar materiales con propiedades deseadas para diversas aplicaciones. Este desarrollo tiene implicaciones para el futuro del descubrimiento científico y la integración de la IA en la investigación de la ciencia de materiales, lo que potencialmente acelerará la innovación de materiales y reducirá los costos en el desarrollo de productos. El uso de la IA y el aprendizaje profundo sugiere la posibilidad de minimizar o eliminar los experimentos manuales de laboratorio y permitir a los científicos centrarse más en el diseño y análisis de compuestos únicos. [224] [225] [226]

Militar

El Departamento de Defensa de Estados Unidos aplicó el aprendizaje profundo para entrenar robots en nuevas tareas mediante la observación. [227]

Ecuaciones diferenciales parciales

Las redes neuronales basadas en la física se han utilizado para resolver ecuaciones diferenciales parciales en problemas tanto directos como inversos de forma basada en datos. [228] Un ejemplo es el flujo de fluido de reconstrucción regido por las ecuaciones de Navier-Stokes . El uso de redes neuronales basadas en la física no requiere la generación de mallas, a menudo costosa, en la que se basan los métodos CFD convencionales. [229] [230]

Método de ecuación diferencial estocástica hacia atrás profunda

El método de ecuación diferencial estocástica hacia atrás profunda es un método numérico que combina el aprendizaje profundo con la ecuación diferencial estocástica hacia atrás (BSDE). Este método es particularmente útil para resolver problemas de alta dimensión en matemáticas financieras. Al aprovechar las poderosas capacidades de aproximación de funciones de las redes neuronales profundas , el BSDE profundo aborda los desafíos computacionales que enfrentan los métodos numéricos tradicionales en entornos de alta dimensión. Específicamente, los métodos tradicionales como los métodos de diferencias finitas o las simulaciones de Monte Carlo a menudo luchan con la maldición de la dimensionalidad, donde el costo computacional aumenta exponencialmente con el número de dimensiones. Sin embargo, los métodos BSDE profundos emplean redes neuronales profundas para aproximar soluciones de ecuaciones diferenciales parciales (PDE) de alta dimensión, lo que reduce efectivamente la carga computacional. [231]

Además, la integración de redes neuronales basadas en la física (PINN) en el marco BSDE profundo mejora su capacidad al incorporar las leyes físicas subyacentes directamente en la arquitectura de la red neuronal. Esto asegura que las soluciones no solo se ajusten a los datos sino que también se adhieran a las ecuaciones diferenciales estocásticas gobernantes. Los PINN aprovechan el poder del aprendizaje profundo respetando al mismo tiempo las restricciones impuestas por los modelos físicos, lo que da como resultado soluciones más precisas y confiables para los problemas de matemáticas financieras.

Reconstrucción de imágenes

La reconstrucción de imágenes es la reconstrucción de las imágenes subyacentes a partir de las mediciones relacionadas con las imágenes. Varios trabajos mostraron el rendimiento mejor y superior de los métodos de aprendizaje profundo en comparación con los métodos analíticos para diversas aplicaciones, por ejemplo, imágenes espectrales [232] e imágenes por ultrasonido. [233]

Predicción del tiempo

Los sistemas tradicionales de predicción del tiempo resuelven un sistema muy complejo de ecuaciones diferenciales patriarcales. GraphCast es un modelo basado en aprendizaje profundo, entrenado en un largo historial de datos meteorológicos para predecir cómo cambian los patrones climáticos con el tiempo. Es capaz de predecir las condiciones meteorológicas durante hasta 10 días a nivel global, con un nivel muy detallado y en menos de un minuto, con una precisión similar a la de los sistemas de última generación. [234] [235]

Reloj epigenético

Un reloj epigenético es una prueba bioquímica que se puede utilizar para medir la edad. Galkin et al. utilizaron redes neuronales profundas para entrenar un reloj de envejecimiento epigenético con una precisión sin precedentes utilizando más de 6.000 muestras de sangre. [236] El reloj utiliza información de 1000 sitios CpG y predice personas con ciertas condiciones mayores que los controles sanos: EII , demencia frontotemporal , cáncer de ovario , obesidad . Se planeó que el reloj envejecido fuera lanzado para uso público en 2021 por una empresa derivada de Insilico Medicine, Deep Longevity.

Relación con el desarrollo cognitivo y cerebral humano.

El aprendizaje profundo está estrechamente relacionado con una clase de teorías del desarrollo cerebral (específicamente, el desarrollo neocortical) propuestas por neurocientíficos cognitivos a principios de los años noventa. [237] [238] [239] [240] Estas teorías del desarrollo se instanciaron en modelos computacionales, lo que las convirtió en predecesoras de los sistemas de aprendizaje profundo. Estos modelos de desarrollo comparten la propiedad de que varias dinámicas de aprendizaje propuestas en el cerebro (por ejemplo, una onda de factor de crecimiento nervioso ) apoyan la autoorganización de manera algo análoga a las redes neuronales utilizadas en los modelos de aprendizaje profundo. Al igual que la neocorteza , las redes neuronales emplean una jerarquía de filtros en capas en los que cada capa considera información de una capa anterior (o del entorno operativo) y luego pasa su salida (y posiblemente la entrada original) a otras capas. Este proceso produce una pila de transductores autoorganizados , bien adaptados a su entorno operativo. Una descripción de 1995 decía: "... el cerebro del bebé parece organizarse bajo la influencia de ondas de los llamados factores tróficos... diferentes regiones del cerebro se conectan secuencialmente, con una capa de tejido madurando antes que otra y así hasta que todo el cerebro esté maduro". [241]

Se han utilizado diversos enfoques para investigar la plausibilidad de los modelos de aprendizaje profundo desde una perspectiva neurobiológica. Por un lado, se han propuesto varias variantes del algoritmo de retropropagación con el fin de aumentar su realismo de procesamiento. [242] [243] Otros investigadores han argumentado que las formas no supervisadas de aprendizaje profundo, como las basadas en modelos generativos jerárquicos y redes de creencias profundas , pueden estar más cerca de la realidad biológica. [244] [245] A este respecto, los modelos de redes neuronales generativas se han relacionado con evidencia neurobiológica sobre el procesamiento basado en muestreo en la corteza cerebral. [246]

Aunque aún no se ha establecido una comparación sistemática entre la organización del cerebro humano y la codificación neuronal en redes profundas, se han informado varias analogías. Por ejemplo, los cálculos realizados por unidades de aprendizaje profundo podrían ser similares a los de neuronas [247] y poblaciones neuronales reales. [248] De manera similar, las representaciones desarrolladas por los modelos de aprendizaje profundo son similares a las medidas en el sistema visual de primates [249] tanto a nivel de unidad única [250] como de población [251] .

Actividad comercial

El laboratorio de inteligencia artificial de Facebook realiza tareas como etiquetar automáticamente las imágenes cargadas con los nombres de las personas que aparecen en ellas. [252]

DeepMind Technologies de Google desarrolló un sistema capaz de aprender a jugar videojuegos de Atari utilizando únicamente píxeles como entrada de datos. En 2015, demostraron su sistema AlphaGo , que aprendió el juego Go lo suficientemente bien como para vencer a un jugador profesional de Go. [253] [254] [255] Google Translate utiliza una red neuronal para traducir entre más de 100 idiomas.

En 2017, se lanzó Covariant.ai, que se centra en integrar el aprendizaje profundo en las fábricas. [256]

En 2008, [257] investigadores de la Universidad de Texas en Austin (UT) desarrollaron un marco de aprendizaje automático llamado Entrenamiento manual de un agente mediante refuerzo evaluativo, o TAMER, que propuso nuevos métodos para que robots o programas de computadora aprendan a realizar tareas. interactuando con un instructor humano. [227] Desarrollado por primera vez como TAMER, un nuevo algoritmo llamado Deep TAMER se introdujo más tarde en 2018 durante una colaboración entre el Laboratorio de Investigación del Ejército de EE. UU. (ARL) y los investigadores de UT. Deep TAMER utilizó el aprendizaje profundo para proporcionar a un robot la capacidad de aprender nuevas tareas mediante la observación. [227] Usando Deep TAMER, un robot aprendió una tarea con un entrenador humano, viendo transmisiones de video u observando a un humano realizar una tarea en persona. Posteriormente, el robot practicó la tarea con la ayuda del entrenador, quien le brindó comentarios como "buen trabajo" y "mal trabajo". [258]

Crítica y comentario

El aprendizaje profundo ha atraído tanto críticas como comentarios, en algunos casos desde fuera del campo de la informática.

Teoría

Una crítica principal se refiere a la falta de teoría que rodea a algunos métodos. [259] El aprendizaje en las arquitecturas profundas más comunes se implementa mediante un descenso de gradiente bien entendido. Sin embargo, la teoría que rodea a otros algoritmos, como la divergencia contrastiva, es menos clara. [ cita necesaria ] (por ejemplo, ¿converge? Si es así, ¿a qué velocidad? ¿A qué se aproxima?) Los métodos de aprendizaje profundo a menudo se consideran una caja negra , y la mayoría de las confirmaciones se realizan de forma empírica, en lugar de teórica. [260]

Otros señalan que el aprendizaje profundo debe considerarse como un paso hacia la realización de una IA sólida , no como una solución integral. A pesar del poder de los métodos de aprendizaje profundo, todavía carecen de gran parte de la funcionalidad necesaria para lograr este objetivo por completo. El psicólogo investigador Gary Marcus señaló:

Siendo realistas, el aprendizaje profundo es sólo una parte del desafío más amplio de construir máquinas inteligentes. Tales técnicas carecen de formas de representar relaciones causales (...) no tienen formas obvias de realizar inferencias lógicas , y además están todavía muy lejos de integrar conocimientos abstractos, como información sobre qué son los objetos, para qué sirven y cómo funcionan. se utilizan normalmente. Los sistemas de IA más potentes, como Watson (...) utilizan técnicas como el aprendizaje profundo como solo un elemento de un conjunto muy complicado de técnicas, que van desde la técnica estadística de inferencia bayesiana hasta el razonamiento deductivo . [261]

En referencia adicional a la idea de que la sensibilidad artística podría ser inherente a niveles relativamente bajos de la jerarquía cognitiva, se publicó una serie de representaciones gráficas de los estados internos de redes neuronales profundas (20-30 capas) que intentan discernir dentro de datos esencialmente aleatorios las imágenes. en el que fueron entrenados [262] demuestran un atractivo visual: el aviso de investigación original recibió más de 1.000 comentarios y fue el tema de lo que fue durante un tiempo el artículo más consultado en el sitio web de The Guardian [263] .

Errores

Algunas arquitecturas de aprendizaje profundo muestran comportamientos problemáticos, [264] como clasificar con confianza imágenes irreconocibles como pertenecientes a una categoría familiar de imágenes ordinarias (2014) [265] y clasificar erróneamente perturbaciones minúsculas de imágenes clasificadas correctamente (2013). [266] Goertzel planteó la hipótesis de que estos comportamientos se deben a limitaciones en sus representaciones internas y que estas limitaciones inhibirían la integración en arquitecturas heterogéneas de inteligencia general artificial (AGI) de múltiples componentes. [264] Estos problemas posiblemente puedan abordarse mediante arquitecturas de aprendizaje profundo que formen internamente estados homólogos a las descomposiciones de gramática de imágenes [267] de entidades y eventos observados. [264] Aprender una gramática (visual o lingüística) a partir de datos de entrenamiento equivaldría a restringir el sistema al razonamiento de sentido común que opera sobre conceptos en términos de reglas de producción gramatical y es un objetivo básico tanto de la adquisición del lenguaje humano [268] como de la inteligencia artificial. (AI). [269]

amenaza cibernética

A medida que el aprendizaje profundo pasa del laboratorio al mundo, la investigación y la experiencia muestran que las redes neuronales artificiales son vulnerables a los ataques y el engaño. [270] Al identificar los patrones que estos sistemas utilizan para funcionar, los atacantes pueden modificar las entradas a las ANN de tal manera que la ANN encuentre una coincidencia que los observadores humanos no reconocerían. Por ejemplo, un atacante puede realizar cambios sutiles en una imagen de modo que la ANN encuentre una coincidencia aunque la imagen para un humano no se parezca en nada al objetivo de búsqueda. Esta manipulación se denomina "ataque adversario". [271]

En 2016, los investigadores utilizaron una ANN para manipular imágenes a modo de prueba y error, identificar los puntos focales de otra y así generar imágenes que la engañaran. Las imágenes modificadas no parecían diferentes a los ojos humanos. Otro grupo demostró que las impresiones de imágenes manipuladas y luego fotografiadas con éxito engañaban a un sistema de clasificación de imágenes. [272] Una defensa es la búsqueda inversa de imágenes, en la que una posible imagen falsa se envía a un sitio como TinEye que luego puede encontrar otras instancias de la misma. Un refinamiento es buscar usando solo partes de la imagen, para identificar imágenes de las que se pudo haber tomado esa pieza . [273]

Otro grupo demostró que ciertas gafas psicodélicas podían engañar a un sistema de reconocimiento facial haciéndoles creer que las personas comunes y corrientes eran celebridades, lo que potencialmente permitía que una persona se hiciera pasar por otra. En 2017, los investigadores agregaron pegatinas a las señales de alto y provocaron que una ANN las clasificara erróneamente. [272]

Sin embargo, las ANN pueden entrenarse aún más para detectar intentos de engaño , lo que podría llevar a atacantes y defensores a una carrera armamentista similar a la que ya define la industria de defensa contra el malware . Las ANN han sido entrenadas para derrotar el software antimalware basado en ANN atacando repetidamente una defensa con malware que era continuamente alterado por un algoritmo genético hasta que engañaba al antimalware mientras conservaba su capacidad de dañar al objetivo. [272]

En 2016, otro grupo demostró que ciertos sonidos podrían hacer que el sistema de comando de voz de Google Now abriera una dirección web particular, y planteó la hipótesis de que esto podría "servir como un trampolín para futuros ataques (por ejemplo, abrir una página web que albergue malware no autorizado). ". [272]

En el " intoxicación de datos ", continuamente se introducen de contrabando datos falsos en el conjunto de entrenamiento de un sistema de aprendizaje automático para evitar que alcance el dominio. [272]

Ética de la recopilación de datos

La mayoría de los sistemas de aprendizaje profundo se basan en datos de capacitación y verificación generados y/o anotados por humanos. [274] Se ha argumentado en la filosofía de los medios que no sólo se utiliza regularmente para este propósito el trabajo con clics mal pagado (por ejemplo, en Amazon Mechanical Turk ), sino también formas implícitas de microtrabajo humano que a menudo no se reconocen como tales. [275] El filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" de microtrabajo humano para generar datos de entrenamiento: (1) gamificación (la incorporación de tareas de anotación o cálculo en el flujo de un juego), (2) "captura y seguimiento " (por ejemplo, CAPTCHA para el reconocimiento de imágenes o el seguimiento de clics en las páginas de resultados de búsqueda de Google ), (3) explotación de motivaciones sociales (por ejemplo, etiquetar caras en Facebook para obtener imágenes faciales etiquetadas), (4) extracción de información (por ejemplo, aprovechando la auto-cuantificación dispositivos como rastreadores de actividad ) y (5) clickwork . [275]

Mühlhoff sostiene que en la mayoría de las aplicaciones comerciales de aprendizaje profundo para usuarios finales, como el sistema de reconocimiento facial de Facebook , la necesidad de datos de entrenamiento no cesa una vez que se entrena una ANN. Más bien, existe una demanda continua de datos de verificación generados por humanos para calibrar y actualizar constantemente la ANN. Para ello, Facebook introdujo la función de que una vez que un usuario es reconocido automáticamente en una imagen, recibe una notificación. Pueden elegir si les gusta o no ser etiquetados públicamente en la imagen, o decirle a Facebook que no son ellos los que aparecen en la imagen. [276] Esta interfaz de usuario es un mecanismo para generar "un flujo constante de datos de verificación" [275] para entrenar aún más la red en tiempo real. Como sostiene Mühlhoff, la participación de usuarios humanos para generar datos de capacitación y verificación es tan típica de la mayoría de las aplicaciones comerciales de aprendizaje profundo para usuarios finales que estos sistemas pueden denominarse "inteligencia artificial asistida por humanos". [275]

Ver también

Referencias

  1. ^ Schulz, Hannes; Behnke, Sven (1 de noviembre de 2012). "Aprendizaje profundo". KI-Künstliche Intelligenz . 26 (4): 357–363. doi :10.1007/s13218-012-0198-z. ISSN  1610-1987. S2CID  220523562.
  2. ^ ab LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015). "Aprendizaje profundo" (PDF) . Naturaleza . 521 (7553): 436–444. Código Bib :2015Natur.521..436L. doi : 10.1038/naturaleza14539. PMID  26017442. S2CID  3074096.
  3. ^ ab Ciresan, D.; Meier, U.; Schmidhuber, J. (2012). "Redes neuronales profundas de varias columnas para clasificación de imágenes". Conferencia IEEE 2012 sobre visión por computadora y reconocimiento de patrones . págs. 3642–3649. arXiv : 1202.2745 . doi :10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8. S2CID  2161592.
  4. ^ ab Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffrey (2012). "Clasificación de ImageNet con redes neuronales convolucionales profundas" (PDF) . NIPS 2012: Sistemas de procesamiento de información neuronal, Lake Tahoe, Nevada . Archivado (PDF) desde el original el 10 de enero de 2017 . Consultado el 24 de mayo de 2017 .
  5. ^ "AlphaGo AI de Google gana una serie de tres partidos contra el mejor jugador de Go del mundo". TechCrunch . 25 de mayo de 2017. Archivado desde el original el 17 de junio de 2018 . Consultado el 17 de junio de 2018 .
  6. ^ "Un estudio pide precaución al comparar las redes neuronales con el cerebro". Noticias del MIT | Instituto de Tecnología de Massachusetts . 2022-11-02 . Consultado el 6 de diciembre de 2023 .
  7. ^ abcd Bengio, Yoshua (2009). "Aprendizaje de arquitecturas profundas para IA" (PDF) . Fundamentos y tendencias en aprendizaje automático . 2 (1): 1–127. CiteSeerX 10.1.1.701.9550 . doi :10.1561/2200000006. S2CID  207178999. Archivado desde el original (PDF) el 4 de marzo de 2016 . Consultado el 3 de septiembre de 2015 . 
  8. ^ abcde Bengio, Y.; Courville, A.; Vicente, P. (2013). "Aprendizaje de representación: una revisión y nuevas perspectivas". Transacciones IEEE sobre análisis de patrones e inteligencia artificial . 35 (8): 1798–1828. arXiv : 1206.5538 . doi :10.1109/tpami.2013.50. PMID  23787338. S2CID  393948.
  9. ^ abcdefgh Schmidhuber, J. (2015). "Aprendizaje profundo en redes neuronales: una descripción general". Redes Neuronales . 61 : 85-117. arXiv : 1404.7828 . doi :10.1016/j.neunet.2014.09.003. PMID  25462637. S2CID  11715509.
  10. ^ Shigeki, Sugiyama (12 de abril de 2019). Comportamiento humano y otro tipo de conciencia: investigaciones y oportunidades emergentes: investigaciones y oportunidades emergentes. IGI Global. ISBN 978-1-5225-8218-2.
  11. ^ Bengio, Yoshua; Lamblin, Pascal; Popovici, Dan; Larochelle, Hugo (2007). Entrenamiento codicioso por capas de redes profundas (PDF) . Avances en los sistemas de procesamiento de información neuronal. págs. 153-160. Archivado (PDF) desde el original el 2019-10-20 . Consultado el 6 de octubre de 2019 .
  12. ^ ab Hinton, GE (2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 .
  13. ^ Rina Dechter (1986). Aprender mientras se busca en problemas de satisfacción de restricciones. Universidad de California, Departamento de Ciencias de la Computación, Laboratorio de Sistemas Cognitivos. En línea Archivado el 19 de abril de 2016 en Wayback Machine.
  14. ^ Aizenberg, IN; Aizenberg, NN; Vandewalle, J. (2000). Neuronas Binarias Universales y de Valores Múltiples. Medios científicos y empresariales. doi :10.1007/978-1-4757-3115-6. ISBN 978-0-7923-7824-2. Consultado el 27 de diciembre de 2023 .
  15. ^ Las neuronas recurrentes en coevolución aprenden POMDP de memoria profunda. Proc. GECCO, Washington, DC, págs. 1795–1802, ACM Press, Nueva York, NY, EE. UU., 2005.
  16. ^ Fradkov, Alexander L. (1 de enero de 2020). "Historia temprana del aprendizaje automático". IFAC-PapersOnLine . 21º Congreso Mundial de la IFAC. 53 (2): 1385-1390. doi : 10.1016/j.ifacol.2020.12.1888 . ISSN  2405-8963. S2CID  235081987.
  17. ^ abc Cybenko (1989). «Aproximaciones por superposiciones de funciones sigmoidales» (PDF) . Matemáticas de Control, Señales y Sistemas . 2 (4): 303–314. Código bibliográfico : 1989MCSS....2..303C. doi :10.1007/bf02551274. S2CID  3958369. Archivado desde el original (PDF) el 10 de octubre de 2015.
  18. ^ a b C Hornik, Kurt (1991). "Capacidades de aproximación de redes feedforward multicapa". Redes Neuronales . 4 (2): 251–257. doi :10.1016/0893-6080(91)90009-t. S2CID  7343126.
  19. ^ ab Haykin, Simon S. (1999). Redes neuronales: una base integral. Prentice Hall. ISBN 978-0-13-273350-2.
  20. ^ ab Hassoun, Mohamad H. (1995). Fundamentos de las redes neuronales artificiales. Prensa del MIT. pag. 48.ISBN 978-0-262-08239-6.
  21. ^ ab Lu, Z., Pu, H., Wang, F., Hu, Z. y Wang, L. (2017). El poder expresivo de las redes neuronales: una visión desde lo ancho Archivado el 13 de febrero de 2019 en Wayback Machine . Sistemas de procesamiento de información neuronal, 6231-6239.
  22. ^ Orhan, AE; Ma, WJ (2017). "Inferencia probabilística eficiente en redes neuronales genéricas entrenadas con retroalimentación no probabilística". Comunicaciones de la naturaleza . 8 (1): 138. Código bibliográfico : 2017NatCo...8..138O. doi : 10.1038/s41467-017-00181-8 . PMC 5527101 . PMID  28743932. 
  23. ^ abcde Deng, L.; Yu, D. (2014). "Aprendizaje profundo: métodos y aplicaciones" (PDF) . Fundamentos y Tendencias en Procesamiento de Señales . 7 (3–4): 1–199. doi :10.1561/2000000039. Archivado (PDF) desde el original el 14 de marzo de 2016 . Consultado el 18 de octubre de 2014 .
  24. ^ abcd Murphy, Kevin P. (24 de agosto de 2012). Aprendizaje automático: una perspectiva probabilística. Prensa del MIT. ISBN 978-0-262-01802-9.
  25. ^ ab Fukushima, K. (1969). "Extracción de características visuales mediante una red multicapa de elementos de umbral analógicos". Transacciones IEEE sobre ciencia de sistemas y cibernética . 5 (4): 322–333. doi :10.1109/TSSC.1969.300225.
  26. ^ Sonoda, Sho; Murata, Noboru (2017). "La red neuronal con funciones de activación ilimitadas es un aproximador universal". Análisis Armónico Aplicado y Computacional . 43 (2): 233–268. arXiv : 1505.03654 . doi :10.1016/j.acha.2015.12.005. S2CID  12149203.
  27. ^ Obispo, Christopher M. (2006). Reconocimiento de patrones y aprendizaje automático (PDF) . Saltador. ISBN 978-0-387-31073-2. Archivado (PDF) desde el original el 11 de enero de 2017 . Consultado el 6 de agosto de 2017 .
  28. ^ Rosenblatt, F. (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y organización de información en el cerebro". Revisión psicológica . 65 (6): 386–408. doi :10.1037/h0042519. ISSN  1939-1471. PMID  13602029.
  29. ^ ab Rosenblatt, Frank (1962). Principios de neurodinámica . Espartano, Nueva York.
  30. ^ Tappert, Charles C. (2019). "¿Quién es el padre del aprendizaje profundo?". 2019 Conferencia Internacional sobre Ciencias Computacionales e Inteligencia Computacional (CSCI) . IEEE. págs. 343–348. doi :10.1109/CSCI49370.2019.00067. ISBN 978-1-7281-5584-5. S2CID  216043128 . Consultado el 31 de mayo de 2021 .
  31. ^ Ivakhnenko, AG; Lapa, VG (1967). Cibernética y Técnicas de Previsión. ISBN de la empresa estadounidense Elsevier Publishing Co. 978-0-444-00020-0.
  32. ^ Ivakhnenko, AG (marzo de 1970). "Autoorganización heurística en problemas de ingeniería cibernética". Automática . 6 (2): 207–219. doi :10.1016/0005-1098(70)90092-0.
  33. ^ ab Ivakhnenko, Alexey (1971). "Teoría polinómica de sistemas complejos" (PDF) . Transacciones IEEE sobre sistemas, hombre y cibernética . SMC-1 (4): 364–378. doi :10.1109/TSMC.1971.4308320. Archivado (PDF) desde el original el 29 de agosto de 2017 . Consultado el 5 de noviembre de 2019 .
  34. ^ Robbins, H .; Monro, S. (1951). "Un método de aproximación estocástica". Los anales de la estadística matemática . 22 (3): 400. doi : 10.1214/aoms/1177729586 .
  35. ^ Amari, Shun'ichi (1967). "Una teoría del clasificador de patrones adaptativos". Transacciones IEEE . CE (16): 279–307.
  36. ^ abc Schmidhuber, Jürgen (2022). "Historia comentada de la IA moderna y el aprendizaje profundo". arXiv : 2212.11279 [cs.NE].
  37. ^ Leibniz, Gottfried Wilhelm Freiherr von (1920). Los primeros manuscritos matemáticos de Leibniz: traducidos de los textos latinos publicados por Carl Immanuel Gerhardt con notas críticas e históricas (Leibniz publicó la regla de la cadena en una memoria de 1676). Compañía editorial de corte abierta. ISBN 9780598818461.
  38. ^ Kelley, Henry J. (1960). "Teoría del gradiente de rutas de vuelo óptimas". Diario ARS . 30 (10): 947–954. doi : 10.2514/8.5282.
  39. ^ Linnainmaa, Seppo (1970). La representación del error de redondeo acumulativo de un algoritmo como una expansión de Taylor de los errores de redondeo locales (Masters) (en finlandés). Universidad de Helsinki. pag. 6–7.
  40. ^ Linnainmaa, Seppo (1976). "Expansión de Taylor del error de redondeo acumulado". BIT Matemáticas Numéricas . 16 (2): 146–160. doi :10.1007/bf01931367. S2CID  122357351.
  41. ^ Anderson, James A.; Rosenfeld, Edward, eds. (2000). Redes parlantes: una historia oral de las redes neuronales. La prensa del MIT. doi : 10.7551/mitpress/6626.003.0016. ISBN 978-0-262-26715-1.
  42. ^ Werbos, Paul (1982). «Aplicaciones de los avances en análisis de sensibilidad no lineal» (PDF) . Modelado y optimización de sistemas . Saltador. págs. 762–770. Archivado (PDF) desde el original el 14 de abril de 2016 . Consultado el 2 de julio de 2017 .
  43. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (octubre de 1986). "Aprendizaje de representaciones mediante errores de retropropagación". Naturaleza . 323 (6088): 533–536. Código Bib :1986Natur.323..533R. doi :10.1038/323533a0. ISSN  1476-4687.
  44. ^ Rumelhart, David E., Geoffrey E. Hinton y RJ Williams. "Aprendizaje de representaciones internas mediante propagación de errores Archivado el 13 de octubre de 2022 en Wayback Machine ". David E. Rumelhart, James L. McClelland y el grupo de investigación PDP. (editores), Procesamiento distribuido paralelo: Exploraciones en la microestructura de la cognición, Volumen 1: Fundación. Prensa del MIT, 1986.
  45. ^ Fukushima, K. (1980). "Neocognitron: un modelo de red neuronal autoorganizada para un mecanismo de reconocimiento de patrones que no se ve afectado por el cambio de posición". Biol. Cibern . 36 (4): 193–202. doi :10.1007/bf00344251. PMID  7370364. S2CID  206775608.
  46. ^ Ramachandran, Prajit; Barret, Zoph; Quoc, V. Le (16 de octubre de 2017). "Búsqueda de funciones de activación". arXiv : 1710.05941 [cs.NE].
  47. ^ Zhang, Wei (1988). "Red neuronal de reconocimiento de patrones de cambio invariante y su arquitectura óptica". Actas de la conferencia anual de la Sociedad Japonesa de Física Aplicada .
  48. ^ Zhang, Wei (1990). "Modelo de procesamiento distribuido paralelo con interconexiones locales invariantes en el espacio y su arquitectura óptica". Óptica Aplicada . 29 (32): 4790–7. Código Bib : 1990ApOpt..29.4790Z. doi :10.1364/AO.29.004790. PMID  20577468.
  49. ^ Alexander Waibel et al., Reconocimiento de fonemas mediante redes neuronales con retardo de tiempo Transacciones IEEE sobre acústica, habla y procesamiento de señales, volumen 37, núm. 3, págs. 328. - 339 de marzo de 1989.
  50. ^ LeCun y otros. , "Retropropagación aplicada al reconocimiento de códigos postales escritos a mano", Computación neuronal , 1, págs. 541–551, 1989.
  51. ^ Zhang, Wei (1991). "Procesamiento de imágenes del endotelio corneal humano basado en una red de aprendizaje". Óptica Aplicada . 30 (29): 4211–7. Código Bib : 1991ApOpt..30.4211Z. doi :10.1364/AO.30.004211. PMID  20706526.
  52. ^ Zhang, Wei (1994). "Detección computarizada de microcalcificaciones agrupadas en mamografías digitales utilizando una red neuronal artificial invariante por cambio". Física Médica . 21 (4): 517–24. Código bibliográfico : 1994MedPh..21..517Z. doi : 10.1118/1.597177. PMID  8058017.
  53. ^ LeCun, Yann; León Bottou; Yoshua Bengio; Patricio Haffner (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos" (PDF) . Actas del IEEE . 86 (11): 2278–2324. CiteSeerX 10.1.1.32.9552 . doi : 10.1109/5.726791. S2CID  14542261 . Consultado el 7 de octubre de 2016 . 
  54. ^ Jordania, Michael I. (1986). "Dinámica de atractores y paralelismo en una máquina secuencial conexionista". Actas de la reunión anual de la Sociedad de Ciencias Cognitivas . 8 .
  55. ^ Elman, Jeffrey L. (marzo de 1990). "Encontrar estructura en el tiempo". Ciencia cognitiva . 14 (2): 179–211. doi :10.1207/s15516709cog1402_1. ISSN  0364-0213.
  56. ^ abc S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen". Archivado el 6 de marzo de 2015 en Wayback Machine . Tesis de diploma. Instituto f. Informática, Universidad Técnica. Munich. Asesor: J. Schmidhuber , 1991.
  57. ^ Hochreiter, S.; et al. (15 de enero de 2001). "Flujo de gradiente en redes recurrentes: la dificultad de aprender dependencias a largo plazo". En Kolen, John F.; Kremer, Stefan C. (eds.). Una guía de campo para redes dinámicas recurrentes . John Wiley e hijos. ISBN 978-0-7803-5369-5.
  58. ^ Schmidhuber, Jürgen (1992). "Aprendizaje de secuencias extendidas y complejas utilizando el principio de compresión histórica (basado en TR FKI-148, 1991)" (PDF) . Computación neuronal . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID  18271205.[ enlace muerto permanente ]
  59. ^ Schmidhuber, Jürgen (1993). Tesis de habilitación: Modelado y optimización de sistemas (PDF) .[ enlace muerto permanente ] La página 150 y siguientes demuestra la asignación de crédito en el equivalente a 1200 capas en un RNN desplegado.
  60. ^ Sepp Hochreiter ; Jürgen Schmidhuber (21 de agosto de 1995), Memoria a largo plazo, Wikidata  Q98967430
  61. ^ Gers, Félix; Schmidhuber, Jürgen; Cummins, Fred (1999). "Aprender a olvidar: predicción continua con LSTM". 9ª Conferencia Internacional sobre Redes Neuronales Artificiales: ICANN '99 . vol. 1999, págs. 850–855. doi :10.1049/cp:19991218. ISBN 0-85296-721-7.
  62. ^ Ackley, David H.; Hinton, Geoffrey E.; Sejnowski, Terrence J. (1 de enero de 1985). "Un algoritmo de aprendizaje para máquinas Boltzmann". Ciencia cognitiva . 9 (1): 147–169. doi :10.1016/S0364-0213(85)80012-4 (inactivo 2024-08-07). ISSN  0364-0213.{{cite journal}}: CS1 maint: DOI inactive as of August 2024 (link)
  63. ^ Smolensky, Paul (1986). "Capítulo 6: Procesamiento de información en sistemas dinámicos: fundamentos de la teoría de la armonía" (PDF) . En Rumelhart, David E.; McLelland, James L. (eds.). Procesamiento distribuido paralelo: exploraciones en la microestructura de la cognición, volumen 1: fundamentos . Prensa del MIT. págs. 194–281. ISBN 0-262-68053-X.
  64. ^ Pedro, Dayán ; Hinton, Geoffrey E .; Neal, Radford M .; Zemel, Richard S. (1995). "La máquina de Helmholtz". Computación neuronal . 7 (5): 889–904. doi :10.1162/neco.1995.7.5.889. hdl : 21.11116/0000-0002-D6D3-E . PMID  7584891. S2CID  1890561. Icono de acceso cerrado
  65. ^ Hinton, Geoffrey E .; Dayán, Pedro ; Frey, Brendan J .; Neal, Radford (26 de mayo de 1995). "El algoritmo de vigilia-sueño para redes neuronales no supervisadas". Ciencia . 268 (5214): 1158-1161. Código Bib : 1995 Ciencia... 268.1158H. doi : 10.1126/ciencia.7761831. PMID  7761831. S2CID  871473.
  66. ^ Sejnowski, Terrence J. (2018). La revolución del aprendizaje profundo . Cambridge, Massachusetts: Prensa del MIT. ISBN 978-0-262-03803-4.
  67. ^ Qian, Ning; Sejnowski, Terrence J. (20 de agosto de 1988). "Predecir la estructura secundaria de proteínas globulares mediante modelos de redes neuronales". Revista de biología molecular . 202 (4): 865–884. doi :10.1016/0022-2836(88)90564-5. ISSN  0022-2836. PMID  3172241.
  68. ^ Morgan, Nelson; Bourlard, Hervé; Renales, Steve; Cohen, Michael; Franco, Horacio (1 de agosto de 1993). "Sistemas de modelo de Markov oculto / red neuronal híbrida para reconocimiento continuo de voz". Revista Internacional de Reconocimiento de Patrones e Inteligencia Artificial . 07 (4): 899–916. doi :10.1142/s0218001493000455. ISSN  0218-0014.
  69. ^ Robinson, T. (1992). "Un sistema de reconocimiento de palabras en red de propagación de errores recurrentes en tiempo real". ICASSP . Icassp'92: 617–620. ISBN 9780780305328. Archivado desde el original el 9 de mayo de 2021 . Consultado el 12 de junio de 2017 .
  70. ^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, KJ (marzo de 1989). "Reconocimiento de fonemas mediante redes neuronales con retardo de tiempo" (PDF) . Transacciones IEEE sobre acústica, voz y procesamiento de señales . 37 (3): 328–339. doi :10.1109/29.21701. hdl :10338.dmlcz/135496. ISSN  0096-3518. S2CID  9563026. Archivado (PDF) desde el original el 27 de abril de 2021 . Consultado el 24 de septiembre de 2019 .
  71. ^ Panadero, J.; Deng, Li; Vidrio, Jim; Khudanpur, S.; Lee, CH-H.; Morgan, N.; O'Shaughnessy, D. (2009). "Desarrollos y direcciones de la investigación en el reconocimiento y la comprensión del habla, parte 1". Revista de procesamiento de señales IEEE . 26 (3): 75–80. Código Bib : 2009 ISPM...26...75B. doi : 10.1109/msp.2009.932166. hdl :1721.1/51891. S2CID  357467.
  72. ^ Bengio, Y. (1991). "Redes neuronales artificiales y su aplicación al reconocimiento de secuencias y voz". Doctorado de la Universidad McGill. tesis. Archivado desde el original el 9 de mayo de 2021 . Consultado el 12 de junio de 2017 .
  73. ^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). "Análisis de estructura de correlación para un modelo predictivo neuronal con aplicaciones al reconocimiento de voz". Redes Neuronales . 7 (2): 331–339. doi :10.1016/0893-6080(94)90027-2.
  74. ^ Doddington, G.; Przybocki, M.; Martín, A.; Reynolds, D. (2000). "La evaluación de reconocimiento de oradores del NIST ± Descripción general, metodología, sistemas, resultados, perspectiva". Comunicación del habla . 31 (2): 225–254. doi :10.1016/S0167-6393(99)00080-1.
  75. ^ ab Diablos, L.; König, Y.; Sonmez, M.; Weintraub, M. (2000). "Robustez ante la distorsión del auricular telefónico en el reconocimiento del hablante mediante un diseño de características discriminativas". Comunicación del habla . 31 (2): 181-192. doi :10.1016/s0167-6393(99)00077-1.
  76. ^ LP Diablos y R. Teunen. "Transacciones seguras y convenientes con Nuance Verifier". Conferencia de usuarios de Nuance, abril de 1998.
  77. ^ "Modelado acústico con redes neuronales profundas utilizando señal de tiempo sin procesar para LVCSR (descarga en PDF disponible)". Puerta de investigación . Archivado desde el original el 9 de mayo de 2021 . Consultado el 14 de junio de 2017 .
  78. ^ ab Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). "Reconocimiento de voz biológicamente plausible con redes neuronales LSTM" (PDF) . 1er Internacional Taller sobre enfoques de inspiración biológica para tecnologías de la información avanzadas, Bio-ADIT 2004, Lausana, Suiza . págs. 175–184. Archivado (PDF) desde el original el 9 de mayo de 2021 . Consultado el 9 de abril de 2016 .
  79. ^ Tumbas, Alex ; Fernández, Santiago; Gómez, Faustino; Schmidhuber, Jürgen (2006). "Clasificación temporal conexionista: etiquetado de datos de secuencia no segmentados con redes neuronales recurrentes". Actas de la Conferencia Internacional sobre Aprendizaje Automático, ICML 2006 : 369–376. CiteSeerX 10.1.1.75.6306 . 
  80. ^ Santiago Fernández, Alex Graves y Jürgen Schmidhuber (2007). Una aplicación de redes neuronales recurrentes para la detección discriminativa de palabras clave Archivado el 18 de noviembre de 2018 en Wayback Machine . Actas de ICANN (2), págs. 220–229.
  81. ^ Tumbas, Alex; y Schmidhuber, Jürgen; Reconocimiento de escritura a mano sin conexión con redes neuronales recurrentes multidimensionales , en Bengio, Yoshua; Schuurmans, Dale; Lafferty, Juan; Williams, Chris KI; y Culotta, Aron (eds.), Advances in Neural Information Processing Systems 22 (NIPS'22), 7 al 10 de diciembre de 2009, Vancouver, BC , Neural Information Processing Systems (NIPS), Foundation, 2009, págs.
  82. ^ Hinton, Geoffrey E. (1 de octubre de 2007). "Aprender múltiples capas de representación". Tendencias en Ciencias Cognitivas . 11 (10): 428–434. doi :10.1016/j.tics.2007.09.004. ISSN  1364-6613. PMID  17921042. S2CID  15066318. Archivado desde el original el 11 de octubre de 2013 . Consultado el 12 de junio de 2017 .
  83. ^ Hinton, GE ; Osindero, S.; Teh, YW (2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas" (PDF) . Computación neuronal . 18 (7): 1527-1554. doi :10.1162/neco.2006.18.7.1527. PMID  16764513. S2CID  2309950. Archivado (PDF) desde el original el 23 de diciembre de 2015 . Consultado el 20 de julio de 2011 .
  84. ^ GE Hinton., "Aprendiendo múltiples capas de representación". Archivado el 22 de mayo de 2018 en Wayback Machine . Tendencias en ciencias cognitivas , 11, págs. 428–434, 2007.
  85. ^ Hinton, Geoffrey E. (octubre de 2007). "Aprender múltiples capas de representación". Tendencias en Ciencias Cognitivas . 11 (10): 428–434. doi :10.1016/j.tics.2007.09.004. PMID  17921042.
  86. ^ Hinton, Geoffrey E.; Osindero, Simón; Teh, Yee-Whye (julio de 2006). "Un algoritmo de aprendizaje rápido para redes de creencias profundas". Computación neuronal . 18 (7): 1527-1554. doi :10.1162/neco.2006.18.7.1527. ISSN  0899-7667. PMID  16764513.
  87. ^ Hinton, Geoffrey E. (31 de mayo de 2009). "Redes de creencias profundas". Scholarpedia . 4 (5): 5947. Código bibliográfico : 2009SchpJ...4.5947H. doi : 10.4249/scholarpedia.5947 . ISSN  1941-6016.
  88. ^ Yann LeCun (2016). Diapositivas sobre aprendizaje profundo en línea Archivado el 23 de abril de 2016 en Wayback Machine.
  89. ^ abc Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Mayor, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T .; Kingsbury, B. (2012). "Redes neuronales profundas para el modelado acústico en el reconocimiento de voz: las opiniones compartidas de cuatro grupos de investigación". Revista de procesamiento de señales IEEE . 29 (6): 82–97. Código Bib : 2012 ISPM...29...82H. doi :10.1109/msp.2012.2205597. S2CID  206485943.
  90. ^ abc Deng, L.; Hinton, G.; Kingsbury, B. (mayo de 2013). "Nuevos tipos de aprendizaje profundo de redes neuronales para el reconocimiento de voz y aplicaciones relacionadas: descripción general (ICASSP)" (PDF) . Microsoft. Archivado (PDF) desde el original el 26 de septiembre de 2017 . Consultado el 27 de diciembre de 2023 .
  91. ^ abc Yu, D.; Deng, L. (2014). Reconocimiento automático de voz: un enfoque de aprendizaje profundo (Editorial: Springer). Saltador. ISBN 978-1-4471-5779-3.
  92. ^ "Deng recibe el prestigioso premio IEEE Technical Achievement Award - Microsoft Research". Investigación de Microsoft . 3 de diciembre de 2015. Archivado desde el original el 16 de marzo de 2018 . Consultado el 16 de marzo de 2018 .
  93. ^ ab Li, Deng (septiembre de 2014). "Charla magistral: 'Logros y desafíos del aprendizaje profundo: desde el análisis y el reconocimiento del habla hasta el lenguaje y el procesamiento multimodal'". Interdiscurso . Archivado desde el original el 26 de septiembre de 2017 . Consultado el 12 de junio de 2017 .
  94. ^ Yu, D.; Deng, L. (2010). "Funciones de la capacitación previa y el ajuste en DBN-HMM dependientes del contexto para el reconocimiento de voz en el mundo real". Taller NIPS sobre aprendizaje profundo y aprendizaje de funciones no supervisadas . Archivado desde el original el 12 de octubre de 2017 . Consultado el 14 de junio de 2017 .
  95. ^ Seide, F.; Li, G.; Yu, D. (2011). "Transcripción de discurso conversacional utilizando redes neuronales profundas dependientes del contexto". Entre discursos : 437–440. doi : 10.21437/Interspeech.2011-169. S2CID  398770. Archivado desde el original el 12 de octubre de 2017 . Consultado el 14 de junio de 2017 .
  96. ^ Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; Él, Xiaodong (1 de mayo de 2013). "Avances recientes en aprendizaje profundo para la investigación del habla en Microsoft". Investigación de Microsoft . Archivado desde el original el 12 de octubre de 2017 . Consultado el 14 de junio de 2017 .
  97. ^ ab Oh, K.-S.; Jung, K. (2004). "Implementación GPU de redes neuronales". Reconocimiento de patrones . 37 (6): 1311-1314. Código Bib : 2004PatRe..37.1311O. doi :10.1016/j.patcog.2004.01.013.
  98. ^ ab Chellapilla, Kumar; Puri, Sidd; Simard, Patrice (2006), Redes neuronales convolucionales de alto rendimiento para el procesamiento de documentos, archivado desde el original el 18 de mayo de 2020 , consultado el 14 de febrero de 2021.
  99. ^ Tamaño, Vivienne ; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). "Procesamiento eficiente de redes neuronales profundas: tutorial y encuesta". arXiv : 1703.09039 [cs.CV].
  100. ^ Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (14 de junio de 2009). "Aprendizaje profundo no supervisado a gran escala mediante procesadores gráficos". Actas de la 26ª Conferencia Internacional Anual sobre Aprendizaje Automático . ICML '09. Nueva York, NY, EE.UU.: Asociación de Maquinaria de Computación. págs. 873–880. doi :10.1145/1553374.1553486. ISBN 978-1-60558-516-1.
  101. ^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca María; Schmidhuber, Jürgen (21 de septiembre de 2010). "Redes neuronales profundas, grandes y simples para el reconocimiento de dígitos escritos a mano". Computación neuronal . 22 (12): 3207–3220. arXiv : 1003.0358 . doi :10.1162/neco_a_00052. ISSN  0899-7667. PMID  20858131. S2CID  1918673.
  102. ^ Ciresan, CC; Meier, U.; Masci, J.; Gambardella, LM; Schmidhuber, J. (2011). "Redes neuronales convolucionales flexibles y de alto rendimiento para clasificación de imágenes" (PDF) . Conferencia Conjunta Internacional sobre Inteligencia Artificial . doi :10.5591/978-1-57735-516-8/ijcai11-210. Archivado (PDF) desde el original el 29 de septiembre de 2014 . Consultado el 13 de junio de 2017 .
  103. ^ Ciresano, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Jürgen (2012). Pereira, F.; Burges, CJC; Bottou, L.; Weinberger, KQ (eds.). Avances en los sistemas de procesamiento de información neuronal 25 (PDF) . Curran Associates, Inc. págs. 2843–2851. Archivado (PDF) desde el original el 9 de agosto de 2017 . Consultado el 13 de junio de 2017 .
  104. ^ Ciresan, D.; Giusti, A.; Gambardella, LM; Schmidhuber, J. (2013). "Detección de mitosis en imágenes histológicas de cáncer de mama con redes neuronales profundas". Computación de imágenes médicas e intervención asistida por computadora – MICCAI 2013 . Apuntes de conferencias sobre informática. vol. 7908. págs. 411–418. doi :10.1007/978-3-642-40763-5_51. ISBN 978-3-642-38708-1. PMID  24579167.
  105. ^ Ng, Andrés; Decano, Jeff (2012). "Creación de funciones de alto nivel mediante aprendizaje no supervisado a gran escala". arXiv : 1112.6209 [cs.LG].
  106. ^ Simonyan, Karen; Andrés, Zisserman (2014). "Redes de convolución muy profundas para el reconocimiento de imágenes a gran escala". arXiv : 1409.1556 [cs.CV].
  107. ^ Szegedy, cristiano (2015). "Profundizando con las convoluciones" (PDF) . Cvpr2015 .
  108. ^ Vinyals, Oriol; Toshev, Alejandro; Bengio, Samy; Erhan, Dumitru (2014). "Mostrar y contar: un generador de subtítulos de imágenes neuronales". arXiv : 1411.4555 [cs.CV]..
  109. ^ Colmillo, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; Él, Xiaodong; Mitchell, Margarita; Platt, John C; Lawrence Zitnick, C; Zweig, Geoffrey (2014). "De los subtítulos a los conceptos visuales y viceversa". arXiv : 1411.4952 [cs.CV]..
  110. ^ Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S (2014). "Unificación de incrustaciones visual-semánticas con modelos de lenguaje neuronal multimodal". arXiv : 1411.2539 [cs.LG]..
  111. ^ Simonyan, Karen; Zisserman, Andrew (10 de abril de 2015), Redes convolucionales muy profundas para el reconocimiento de imágenes a gran escala , arXiv : 1409.1556
  112. ^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2016). "Profundizar en los rectificadores: superar el rendimiento a nivel humano en la clasificación ImageNet". arXiv : 1502.01852 [cs.CV].
  113. ^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sun, Jian (10 de diciembre de 2015). Aprendizaje residual profundo para el reconocimiento de imágenes . arXiv : 1512.03385 .
  114. ^ Srivastava, Rupesh Kumar; Greff, Klaus; Schmidhuber, Jürgen (2 de mayo de 2015). "Redes de Carreteras". arXiv : 1505.00387 [cs.LG].
  115. ^ Él, Kaiming; Zhang, Xiangyu; Ren, Shaoqing; Sol, Jian (2016). Aprendizaje residual profundo para el reconocimiento de imágenes. Conferencia IEEE 2016 sobre visión por computadora y reconocimiento de patrones (CVPR) . Las Vegas, NV, EE.UU.: IEEE. págs. 770–778. arXiv : 1512.03385 . doi :10.1109/CVPR.2016.90. ISBN 978-1-4673-8851-1.
  116. ^ Linn, Allison (10 de diciembre de 2015). "Los investigadores de Microsoft ganan el desafío de visión por computadora de ImageNet". El blog de IA . Consultado el 29 de junio de 2024 .
  117. ^ Gatys, León A.; Ecker, Alejandro S.; Bethge, Matthias (26 de agosto de 2015). "Un algoritmo neuronal de estilo artístico". arXiv : 1508.06576 [cs.CV].
  118. ^ Buen compañero, Ian; Pouget-Abadie, Jean; Mirza, Mehdi; Xu, Bing; Warde-Farley, David; Ozair, Sherjil; Courville, Aarón; Bengio, Yoshua (2014). Redes generativas adversarias (PDF) . Actas de la Conferencia Internacional sobre Sistemas de Procesamiento de Información Neural (NIPS 2014). págs. 2672–2680. Archivado (PDF) desde el original el 22 de noviembre de 2019 . Consultado el 20 de agosto de 2019 .
  119. ^ "GAN 2.0: generador de rostros hiperrealista de NVIDIA". SyncedReview.com . 14 de diciembre de 2018 . Consultado el 3 de octubre de 2019 .
  120. ^ Karras, T.; Aila, T.; Laine, S.; Lehtinen, J. (26 de febrero de 2018). "Crecimiento progresivo de GAN para mejorar la calidad, la estabilidad y la variación". arXiv : 1710.10196 [cs.NE].
  121. ^ "Prepárese, que no cunda el pánico: medios sintéticos y deepfakes". testigo.org. Archivado desde el original el 2 de diciembre de 2020 . Consultado el 25 de noviembre de 2020 .
  122. ^ Sohl-Dickstein, Jascha; Weiss, Eric; Maheswaranathan, Niru; Ganguli, Surya (1 de junio de 2015). "Aprendizaje profundo no supervisado utilizando termodinámica de desequilibrio" (PDF) . Actas de la 32ª Conferencia Internacional sobre Aprendizaje Automático . 37 . PMLR: 2256–2265.
  123. ^ Blog de investigación de Google. Las redes neuronales detrás de la transcripción de Google Voice. 11 de agosto de 2015. Por Françoise Beaufays http://googleresearch.blogspot.co.at/2015/08/the-neural-networks-behind-google-voice.html
  124. ^ ab Sak, Haşim; Mayor, Andrés; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (septiembre de 2015). "Búsqueda por voz de Google: más rápida y precisa". Archivado desde el original el 9 de marzo de 2016 . Consultado el 9 de abril de 2016 .
  125. ^ Singh, Premjeet; Saha, Goutam; Sahidullah, Maryland (2021). "Deformación de frecuencia no lineal mediante transformación Q constante para el reconocimiento de emociones del habla". 2021 Conferencia Internacional sobre Informática y Comunicación Informática (ICCCI) . págs. 1–4. arXiv : 2102.04029 . doi :10.1109/ICCCI50826.2021.9402569. ISBN 978-1-7281-5875-4. S2CID  231846518.
  126. ^ Sak, Hasim; Mayor, Andrés; Beaufays, Françoise (2014). "Arquitecturas de redes neuronales recurrentes de memoria a corto plazo para modelado acústico a gran escala" (PDF) . Archivado desde el original (PDF) el 24 de abril de 2018.
  127. ^ Li, Xiangang; Wu, Xihong (2014). "Construcción de redes neuronales recurrentes profundas basadas en memoria a largo plazo para el reconocimiento de voz de gran vocabulario". arXiv : 1410.4281 [cs.CL].
  128. ^ Zen, Heiga; Sak, Hasim (2015). "Red neuronal recurrente unidireccional de memoria a corto plazo con capa de salida recurrente para síntesis de voz de baja latencia" (PDF) . Google.com . ICASP. págs. 4470–4474. Archivado (PDF) desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
  129. ^ "Ganadores del premio ACM AM Turing 2018". premios.acm.org . Consultado el 7 de agosto de 2024 .
  130. ^ Ferrie, C. y Kaiser, S. (2019). Redes neuronales para bebés . Libros de consulta. ISBN 978-1492671206.{{cite book}}: CS1 maint: multiple names: authors list (link)
  131. ^ Plata, David; Huang, Aja; Maddison, Chris J.; Guez, Arturo; Sifré, Laurent; Driessche, George van den; Schrittwieser, Julián; Antonoglou, Ioannis; Panneershelvam, Veda (enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Naturaleza . 529 (7587): 484–489. Código Bib :2016Natur.529..484S. doi : 10.1038/naturaleza16961. ISSN  1476-4687. PMID  26819042. S2CID  515925.
  132. ^ Una guía para el aprendizaje profundo y las redes neuronales, archivado desde el original el 2 de noviembre de 2020 , consultado el 16 de noviembre de 2020
  133. ^ Szegedy, cristiano; Toshev, Alejandro; Erhan, Dumitru (2013). "Redes neuronales profundas para la detección de objetos". Avances en los sistemas de procesamiento de información neuronal : 2553–2561. Archivado desde el original el 29 de junio de 2017 . Consultado el 13 de junio de 2017 .
  134. ^ Rolnick, David; Tegmark, Max (2018). "El poder de redes más profundas para expresar funciones naturales". Conferencia Internacional sobre Representaciones del Aprendizaje . ICLR 2018. Archivado desde el original el 7 de enero de 2021 . Consultado el 5 de enero de 2021 .
  135. ^ Hof, Robert D. "¿La inteligencia artificial finalmente está ganando terreno?". Revisión de tecnología del MIT . Archivado desde el original el 31 de marzo de 2019 . Consultado el 10 de julio de 2018 .
  136. ^ ab Gers, Félix A.; Schmidhuber, Jürgen (2001). "Las redes recurrentes de LSTM aprenden lenguajes simples sensibles al contexto y libres de contexto". Transacciones IEEE en redes neuronales . 12 (6): 1333-1340. doi : 10.1109/72.963769. PMID  18249962. S2CID  10192330. Archivado desde el original el 26 de enero de 2020 . Consultado el 25 de febrero de 2020 .
  137. ^ a b C Sutskever, L .; Vinyals, O.; Le, Q. (2014). "Aprendizaje secuencia a secuencial con redes neuronales" (PDF) . Proc. NIPS . arXiv : 1409.3215 . Código Bib : 2014arXiv1409.3215S. Archivado (PDF) desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
  138. ^ ab Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). "Explorando los límites del modelado del lenguaje". arXiv : 1602.02410 [cs.CL].
  139. ^ ab Gillick, Dan; Brunk, acantilado; Vinyals, Oriol; Subramanya, Amarnag (2015). "Procesamiento de idiomas multilingües a partir de bytes". arXiv : 1512.00103 [cs.CL].
  140. ^ Mikolov, T.; et al. (2010). "Modelo de lenguaje basado en redes neuronales recurrentes" (PDF) . Entre discursos : 1045–1048. doi : 10.21437/Interspeech.2010-343. S2CID  17048224. Archivado (PDF) desde el original el 16 de mayo de 2017 . Consultado el 13 de junio de 2017 .
  141. ^ Hochreiter, Sepp; Schmidhuber, Jürgen (1 de noviembre de 1997). "Memoria a largo plazo". Computación neuronal . 9 (8): 1735–1780. doi :10.1162/neco.1997.9.8.1735. ISSN  0899-7667. PMID  9377276. S2CID  1915014.
  142. ^ ab "Aprendizaje de la sincronización precisa con redes recurrentes LSTM (descarga en PDF disponible)". Puerta de investigación . Archivado desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
  143. ^ LeCun, Y.; et al. (1998). "Aprendizaje basado en gradientes aplicado al reconocimiento de documentos". Actas del IEEE . 86 (11): 2278–2324. doi : 10.1109/5.726791. S2CID  14542261.
  144. ^ Sainath, Tara N .; Mohamed, Abdel-Rahman; Kingsbury, Brian; Ramabhadran, Bhuvana (2013). "Redes neuronales convolucionales profundas para LVCSR". Conferencia internacional IEEE 2013 sobre acústica, habla y procesamiento de señales . págs. 8614–8618. doi :10.1109/icassp.2013.6639347. ISBN 978-1-4799-0356-6. S2CID  13816461.
  145. ^ Bengio, Yoshua; Boulanger-Lewandowski, Nicolas; Pascanu, Razvan (2013). "Avances en la optimización de redes recurrentes". Conferencia internacional IEEE 2013 sobre acústica, habla y procesamiento de señales . págs. 8624–8628. arXiv : 1212.0901 . CiteSeerX 10.1.1.752.9151 . doi :10.1109/icassp.2013.6639349. ISBN  978-1-4799-0356-6. S2CID  12485056.
  146. ^ Dahl, G.; et al. (2013). "Mejora de DNN para LVCSR utilizando unidades lineales rectificadas y abandono" (PDF) . ICASSP . Archivado (PDF) desde el original el 12 de agosto de 2017 . Consultado el 13 de junio de 2017 .
  147. ^ "Aumento de datos - deeplearning.ai | Coursera". Coursera . Archivado desde el original el 1 de diciembre de 2017 . Consultado el 30 de noviembre de 2017 .
  148. ^ Hinton, GE (2010). "Una guía práctica para el entrenamiento de máquinas Boltzmann restringidas". Tecnología. Representante UTML TR 2010-003 . Archivado desde el original el 9 de mayo de 2021 . Consultado el 13 de junio de 2017 .
  149. ^ Tú, Yang; Buluç, Aydin; Demmel, James (noviembre de 2017). "Ampliación del aprendizaje profundo en GPU y clústeres de aterrizaje de caballeros". Actas de la Conferencia Internacional sobre Computación, Redes, Almacenamiento y Análisis de Alto Rendimiento en - SC '17. SC '17, ACM. págs. 1–12. doi :10.1145/3126908.3126912. ISBN 9781450351140. S2CID  8869270. Archivado desde el original el 29 de julio de 2020 . Consultado el 5 de marzo de 2018 .
  150. ^ Viebke, André; Memeti, Suejb; Pllana, Sabri; Abraham, Ajith (2019). "CHAOS: un esquema de paralelización para entrenar redes neuronales convolucionales en Intel Xeon Phi". La revista de supercomputación . 75 : 197–227. arXiv : 1702.07908 . Código Bib : 2017arXiv170207908V. doi :10.1007/s11227-017-1994-x. S2CID  14135321.
  151. ^ Ting Qin, et al. "Un algoritmo de aprendizaje de CMAC basado en RLS". Cartas de procesamiento neuronal 19.1 (2004): 49-61.
  152. ^ Ting Qin, et al. "CMAC-QRLS continuo y su matriz sistólica". Archivado el 18 de noviembre de 2018 en Wayback Machine . Cartas de procesamiento neuronal 22.1 (2005): 1-16.
  153. ^ Investigación, IA (23 de octubre de 2015). "Redes neuronales profundas para modelado acústico en reconocimiento de voz". airesearch.com . Archivado desde el original el 1 de febrero de 2016 . Consultado el 23 de octubre de 2015 .
  154. ^ "Las GPU continúan dominando el mercado de aceleradores de IA por ahora". Semana de la Información . Diciembre de 2019. Archivado desde el original el 10 de junio de 2020 . Consultado el 11 de junio de 2020 .
  155. ^ Ray, Tiernan (2019). "La IA está cambiando toda la naturaleza de la computación". ZDNet . Archivado desde el original el 25 de mayo de 2020 . Consultado el 11 de junio de 2020 .
  156. ^ "IA y informática". AbiertoAI . 16 de mayo de 2018. Archivado desde el original el 17 de junio de 2020 . Consultado el 11 de junio de 2020 .
  157. ^ "HUAWEI revela el futuro de la IA móvil en IFA 2017 | Últimas noticias de HUAWEI | HUAWEI Global". consumidor.huawei.com .
  158. ^ P, JouppiNorman; Acantilado joven; Patil Nishant; PattersonDavid; AgrawalGaurav; Bajwa Raminder; BatesSarah; BhatiaSuresh; BodenNan; BorchersAl; BoyleRick (24 de junio de 2017). "Análisis de rendimiento en el centro de datos de una unidad de procesamiento tensorial". Noticias de arquitectura informática de ACM SIGARCH . 45 (2): 1–12. arXiv : 1704.04760 . doi : 10.1145/3140659.3080246 .
  159. ^ Woodie, Alex (1 de noviembre de 2021). "Cerebras pisa el acelerador de cargas de trabajo de aprendizaje profundo". Datanami . Consultado el 3 de agosto de 2022 .
  160. ^ "Cerebras lanza un nuevo procesador de supercomputación de IA con 2,6 billones de transistores". VentureBeat . 2021-04-20 . Consultado el 3 de agosto de 2022 .
  161. ^ Marega, Guilherme Migliato; Zhao, Yanfei; Avsar, Ahmet; Wang, Zhenyu; Tripati, Mukesh; Radenovic, Aleksandra; Kis, Anras (2020). "Lógica en memoria basada en un semiconductor atómicamente delgado". Naturaleza . 587 (2): 72–77. Código Bib :2020Natur.587...72M. doi :10.1038/s41586-020-2861-0. PMC 7116757 . PMID  33149289. 
  162. ^ abcFeldmann , J.; Sangre joven, N.; Kárpov, M.; et al. (2021). "Procesamiento convolucional paralelo mediante un tensor fotónico integrado". Naturaleza . 589 (2): 52–58. arXiv : 2002.00281 . doi :10.1038/s41586-020-03070-1. PMID  33408373. S2CID  211010976.
  163. ^ Garofolo, JS; Lamel, LF; Pescador, WM; Fiscus, JG; Pallett, DS; Dahlgren, Países Bajos; Zué, V. (1993). Corpus de habla continua acústico-fonética TIMIT. Consorcio de Datos Lingüísticos. doi :10.35111/17gk-bn40. ISBN 1-58563-019-5. Consultado el 27 de diciembre de 2023 .
  164. ^ Robinson, Tony (30 de septiembre de 1991). "Varias mejoras en un sistema de reconocimiento telefónico de red de propagación de errores recurrentes". Informe técnico del Departamento de Ingeniería de la Universidad de Cambridge . CUED/F-INFENG/TR82. doi :10.13140/RG.2.2.15418.90567.
  165. ^ Abdel-Hamid, O.; et al. (2014). "Redes neuronales convolucionales para el reconocimiento de voz". Transacciones IEEE/ACM sobre procesamiento de audio, voz y lenguaje . 22 (10): 1533-1545. doi :10.1109/taslp.2014.2339736. S2CID  206602362. Archivado desde el original el 22 de septiembre de 2020 . Consultado el 20 de abril de 2018 .
  166. ^ Deng, L.; Platt, J. (2014). "Aprendizaje profundo conjunto para el reconocimiento de voz". Proc. Entre discursos : 1915-1919. doi : 10.21437/Interspeech.2014-433. S2CID  15641618.
  167. ^ Tóth, Laszló (2015). "Reconocimiento de teléfono con redes jerárquicas convolucionales Deep Maxout" (PDF) . Revista EURASIP sobre procesamiento de audio, voz y música . 2015 . doi : 10.1186/s13636-015-0068-3 . S2CID  217950236. Archivado (PDF) desde el original el 24 de septiembre de 2020 . Consultado el 1 de abril de 2019 .
  168. ^ McMillan, Robert (17 de diciembre de 2014). "Cómo Skype utilizó la IA para crear su increíble nuevo traductor de idiomas | WIRED". Cableado . Archivado desde el original el 8 de junio de 2017 . Consultado el 14 de junio de 2017 .
  169. ^ Hannun, Awni; Caso, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adán; Ng, Andrew Y (2014). "Deep Speech: ampliación del reconocimiento de voz de un extremo a otro". arXiv : 1412.5567 [cs.CL].
  170. ^ "Base de datos de dígitos escritos a mano del MNIST, Yann LeCun, Corinna Cortes y Chris Burges". yann.lecun.com . Archivado desde el original el 13 de enero de 2014 . Consultado el 28 de enero de 2014 .
  171. ^ Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (agosto de 2012). "Red neuronal profunda de varias columnas para clasificación de señales de tráfico". Redes Neuronales . Artículos seleccionados de IJCNN 2011. 32 : 333–338. CiteSeerX 10.1.1.226.8219 . doi :10.1016/j.neunet.2012.02.023. PMID  22386783. 
  172. ^ Chaochao Lu; Xiaoou Tang (2014). "Superando el reconocimiento facial a nivel humano". arXiv : 1404.3840 [cs.CV].
  173. ^ Nvidia demuestra una computadora para automóvil entrenada con "aprendizaje profundo" (6 de enero de 2015), David Talbot, MIT Technology Review
  174. ^ a B C GW Smith; Frédéric Fol Leymarie (10 de abril de 2017). "La máquina como artista: una introducción". Artes . 6 (4): 5. doi : 10.3390/arts6020005 .
  175. ^ abc Blaise Agüera y Arcas (29 de septiembre de 2017). "Arte en la era de la inteligencia artificial". Artes . 6 (4): 18. doi : 10.3390/arts6040018 .
  176. ^ Goldberg, Yoav; Levy, Omar (2014). "Explicación de word2vec: derivación del método de incrustación de palabras de muestreo negativo de Mikolov et al." arXiv : 1402.3722 [cs.CL].
  177. ^ ab Socher, Richard; Manning, Cristóbal. "Aprendizaje profundo para PNL" (PDF) . Archivado (PDF) desde el original el 6 de julio de 2014 . Consultado el 26 de octubre de 2014 .
  178. ^ Socher, Richard; Bauer, Juan; Manning, Cristóbal; Ng, Andrés (2013). "Análisis con gramáticas vectoriales composicionales" (PDF) . Actas de la Conferencia ACL 2013 . Archivado (PDF) desde el original el 27 de noviembre de 2014 . Consultado el 3 de septiembre de 2014 .
  179. ^ Socher, R.; Perelygin, A.; Wu, J.; Chuang, J.; Manning, CD; Ng, A.; Potts, C. (octubre de 2013). "Modelos profundos recursivos para la composicionalidad semántica sobre un banco de árboles de sentimientos" (PDF) . Actas de la Conferencia de 2013 sobre métodos empíricos en el procesamiento del lenguaje natural . Asociación de Lingüística Computacional. Archivado (PDF) desde el original el 28 de diciembre de 2016 . Consultado el 21 de diciembre de 2023 .
  180. ^ Shen, Yelong; Él, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1 de noviembre de 2014). "Un modelo semántico latente con estructura de agrupación convolucional para la recuperación de información". Investigación de Microsoft . Archivado desde el original el 27 de octubre de 2017 . Consultado el 14 de junio de 2017 .
  181. ^ Huang, Po-Sen; Él, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Álex; Diablos, Larry (1 de octubre de 2013). "Aprendizaje de modelos semánticos estructurados profundos para búsquedas web utilizando datos de clics". Investigación de Microsoft . Archivado desde el original el 27 de octubre de 2017 . Consultado el 14 de junio de 2017 .
  182. ^ Mesnil, G.; Delfín, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D .; Él, X.; Diablos, L.; Tur, G.; Yu, D.; Zweig, G. (2015). "Uso de redes neuronales recurrentes para completar espacios en la comprensión del lenguaje hablado". Transacciones IEEE sobre procesamiento de audio, voz y lenguaje . 23 (3): 530–539. doi :10.1109/taslp.2014.2383614. S2CID  1317136.
  183. ^ ab Gao, Jianfeng; Él, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1 de junio de 2014). "Aprendizaje de representaciones de frases continuas para el modelado de traducción". Investigación de Microsoft . Archivado desde el original el 27 de octubre de 2017 . Consultado el 14 de junio de 2017 .
  184. ^ Brocardo, Marcelo Luiz; Traoré, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). "Verificación de autoría mediante sistemas de redes de creencias profundas". Revista Internacional de Sistemas de Comunicación . 30 (12): e3259. doi :10.1002/dac.3259. S2CID  40745740.
  185. ^ Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun; Xu, Yanji; Zhu, Qian (2023). "Extracción de información de precisión para la epidemiología de enfermedades raras a escala". Revista de medicina traslacional . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634 . PMID  36855134. 
  186. ^ "Aprendizaje profundo para el procesamiento del lenguaje natural: teoría y práctica (tutorial CIKM2014) - Microsoft Research". Investigación de Microsoft . Archivado desde el original el 13 de marzo de 2017 . Consultado el 14 de junio de 2017 .
  187. ^ Turovsky, Barak (15 de noviembre de 2016). "Encontrado en traducción: oraciones más precisas y fluidas en Google Translate". La palabra clave del blog de Google . Archivado desde el original el 7 de abril de 2017 . Consultado el 23 de marzo de 2017 .
  188. ^ abcd Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22 de noviembre de 2016). "Traducción Zero-Shot con el sistema de traducción automática neuronal multilingüe de Google". Blog de investigación de Google . Archivado desde el original el 10 de julio de 2017 . Consultado el 23 de marzo de 2017 .
  189. ^ Wu, Yonghui; Schuster, Mike; Chen, Zhifeng; Le, Quoc V; Norouzi, Mohammad; Macherey, Wolfgang; Krikún, Maxim; Cao, Yuan; Gao, Qin; Macherey, Klaus; Klingner, Jeff; Shah, Apurva; Johnson, Melvin; Liu, Xiaobing; Káiser, Łukasz; Gouws, Stephan; Kato, Yoshikiyo; Felicitaciones, Taku; Kazawa, Hideto; Stevens, Keith; Kurian, George; Patil, Nishant; Wang, Wei; Joven, acantilado; Smith, Jason; Riesa, Jason; Rudnick, Alex; Vinyals, Oriol; Corrado, Greg; et al. (2016). "Sistema de traducción automática neuronal de Google: reduciendo la brecha entre la traducción humana y la automática". arXiv : 1609.08144 [cs.CL].
  190. ^ Metz, Cade (27 de septiembre de 2016). "Una infusión de inteligencia artificial hace que Google Translate sea más poderoso que nunca". Cableado . Archivado desde el original el 8 de noviembre de 2020 . Consultado el 12 de octubre de 2017 .
  191. ^ ab Boitet, cristiano; Blanchon, Hervé; Seligman, Marcos; Bellynck, Valérie (2010). «MT en y para la Web» (PDF) . Archivado desde el original (PDF) el 29 de marzo de 2017 . Consultado el 1 de diciembre de 2016 .
  192. ^ Arrowsmith, J; Molinero, P (2013). "Vigilancia de prueba: tasas de deserción de las fases II y III 2011-2012". Nature Reviews Descubrimiento de fármacos . 12 (8): 569. doi : 10.1038/nrd4090 . PMID  23903212. S2CID  20246434.
  193. ^ Verbista, B; Klambauer, G; Vervoort, L; Talloen, W; El Consorcio Qstar; Shkedy, Z; Eso, oh; Bender, A; Göhlmann, HW; Hochreiter, S (2015). "Uso de la transcriptómica para guiar la optimización de clientes potenciales en proyectos de descubrimiento de fármacos: lecciones aprendidas del proyecto QSTAR". Descubrimiento de fármacos hoy . 20 (5): 505–513. doi : 10.1016/j.drudis.2014.12.014 . hdl : 1942/18723 . PMID  25582842.
  194. ^ "Desafío de actividad molecular de Merck". kaggle.com . Archivado desde el original el 16 de julio de 2020 . Consultado el 16 de julio de 2020 .
  195. ^ "Redes neuronales multitarea para predicciones QSAR | Asociación de ciencia de datos". www.datascienceassn.org . Archivado desde el original el 30 de abril de 2017 . Consultado el 14 de junio de 2017 .
  196. ^ "Toxicología en el desafío de datos del siglo XXI"
  197. ^ "NCATS anuncia los ganadores del desafío de datos Tox21". Archivado desde el original el 8 de septiembre de 2015 . Consultado el 5 de marzo de 2015 .
  198. ^ "NCATS anuncia los ganadores del desafío de datos Tox21". Archivado desde el original el 28 de febrero de 2015 . Consultado el 5 de marzo de 2015 .
  199. ^ Valaco, Izhar; Dzamba, Michael; Heifets, Abraham (9 de octubre de 2015). "AtomNet: una red neuronal convolucional profunda para la predicción de la bioactividad en el descubrimiento de fármacos basado en estructuras". arXiv : 1510.02855 [cs.LG].
  200. ^ ab "La startup de Toronto tiene una forma más rápida de descubrir medicamentos eficaces". El globo y el correo . Archivado desde el original el 20 de octubre de 2015 . Consultado el 9 de noviembre de 2015 .
  201. ^ "Startup aprovecha las supercomputadoras para buscar curas". KQED El futuro de ti . 27 de mayo de 2015. Archivado desde el original el 24 de diciembre de 2015 . Consultado el 9 de noviembre de 2015 .
  202. ^ Gilmer, Justin; Schoenholz, Samuel S.; Riley, Patrick F.; Vinyals, Oriol; Dahl, George E. (12 de junio de 2017). "Transmisión de mensajes neuronales para la química cuántica". arXiv : 1704.01212 [cs.LG].
  203. ^ Zhavoronkov, Alex (2019). "El aprendizaje profundo permite la identificación rápida de potentes inhibidores de la quinasa DDR1". Biotecnología de la Naturaleza . 37 (9): 1038-1040. doi :10.1038/s41587-019-0224-x. PMID  31477924. S2CID  201716327.
  204. ^ Gregorio, barbero. "Una molécula diseñada por IA exhibe cualidades 'similares a las de una droga'". Cableado . Archivado desde el original el 30 de abril de 2020 . Consultado el 5 de septiembre de 2019 .
  205. ^ Tkachenko, Yegor (8 de abril de 2015). "Control de CRM autónomo mediante aproximación CLV con aprendizaje por refuerzo profundo en un espacio de acción discreto y continuo". arXiv : 1504.01840 [cs.LG].
  206. ^ van den Oord, Aarón; Dieleman, Sander; Schrauwen, Benjamín (2013). Burges, CJC; Bottou, L.; Bien, M.; Ghahramani, Z.; Weinberger, KQ (eds.). Avances en los sistemas de procesamiento de información neuronal 26 (PDF) . Curran Associates, Inc. págs. 2643–2651. Archivado (PDF) desde el original el 16 de mayo de 2017 . Consultado el 14 de junio de 2017 .
  207. ^ Feng, XY; Zhang, H.; Ren, YJ; Shang, PH; Zhu, Y.; Liang, YC; Guan, RC; Xu, D. (2019). "El sistema de recomendación basado en aprendizaje profundo" Pubmender "para elegir un lugar de publicación biomédica: estudio de desarrollo y validación". Revista de investigación médica en Internet . 21 (5): e12957. doi : 10.2196/12957 . PMC 6555124 . PMID  31127715. 
  208. ^ Elkahky, Ali Mamdouh; Canción, Yang; Él, Xiaodong (1 de mayo de 2015). "Un enfoque de aprendizaje profundo de múltiples vistas para el modelado de usuarios entre dominios en sistemas de recomendación". Investigación de Microsoft . Archivado desde el original el 25 de enero de 2018 . Consultado el 14 de junio de 2017 .
  209. ^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1 de enero de 2014). "Redes neuronales de codificador automático profundo para predicciones de anotaciones de ontología genética". Actas de la V Conferencia ACM sobre Bioinformática, Biología Computacional e Informática de la Salud. ACM. págs. 533–540. doi :10.1145/2649387.2649442. hdl :11311/964622. ISBN 9781450328944. S2CID  207217210. Archivado desde el original el 9 de mayo de 2021 . Consultado el 23 de noviembre de 2015 .
  210. ^ Sathyanarayana, Aarti (1 de enero de 2016). "Predicción de la calidad del sueño a partir de datos portátiles mediante aprendizaje profundo". JMIR mHealth y uHealth . 4 (4): e125. doi : 10.2196/mhealth.6562 . PMC 5116102 . PMID  27815231. S2CID  3821594. 
  211. ^ Choi, Eduardo; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13 de agosto de 2016). "Uso de modelos de redes neuronales recurrentes para la detección temprana de la aparición de insuficiencia cardíaca". Revista de la Asociación Estadounidense de Informática Médica . 24 (2): 361–370. doi :10.1093/jamia/ocw112. ISSN  1067-5027. PMC 5391725 . PMID  27521897. 
  212. ^ "La IA de plegamiento de proteínas de DeepMind ha resuelto un gran desafío de la biología de 50 años". Revisión de tecnología del MIT . Consultado el 10 de mayo de 2024 .
  213. ^ Cabeza, Sam (30 de noviembre de 2020). "DeepMind resuelve el 'gran desafío' de 50 años con IA para el plegamiento de proteínas" CNBC . Consultado el 10 de mayo de 2024 .
  214. ^ ab Shalev, Y.; Painsky, A.; Ben-Gal, I. (2022). "Estimación de la entropía conjunta neuronal" (PDF) . Transacciones IEEE sobre redes neuronales y sistemas de aprendizaje . PP (4): 5488–5500. arXiv : 2012.11197 . doi :10.1109/TNNLS.2022.3204919. PMID  36155469. S2CID  229339809.
  215. ^ Litjens, Geert; Kooi, Thijs; Bejnordi, Babak Ehteshami; Setio, Arnaud Arindra Adiyoso; Ciompi, Francesco; Ghafoorian, Mohsen; van der Laak, Jeroen AWM; van Ginneken, Bram; Sánchez, Clara I. (diciembre 2017). "Una encuesta sobre aprendizaje profundo en el análisis de imágenes médicas". Análisis de Imágenes Médicas . 42 : 60–88. arXiv : 1702.05747 . Código Bib : 2017arXiv170205747L. doi :10.1016/j.media.2017.07.005. PMID  28778026. S2CID  2088679.
  216. ^ Forslid, Gustav; Wieslander, Hakan; Bengtsson, Ewert; Wahlby, Carolina; Hirsch, Jan-Michael; Stark, Christina Runow; Sadanandan, Sajith Kecheril (2017). "Redes neuronales convolucionales profundas para detectar cambios celulares debidos a malignidad". Conferencia internacional IEEE 2017 sobre talleres de visión por computadora (ICCVW) . págs. 82–89. doi :10.1109/ICCVW.2017.18. ISBN 9781538610343. S2CID  4728736. Archivado desde el original el 9 de mayo de 2021 . Consultado el 12 de noviembre de 2019 .
  217. ^ Dong, Xin; Zhou, Yizhao; Wang, Lantian; Peng, Jingfeng; Lou, Yanbo; Fan, Yiqun (2020). "Detección de cáncer de hígado mediante una red neuronal híbrida totalmente convolucional basada en un marco de aprendizaje profundo". Acceso IEEE . 8 : 129889–129898. Código Bib : 2020IEEEA...8l9889D. doi : 10.1109/ACCESS.2020.3006362 . ISSN  2169-3536. S2CID  220733699.
  218. ^ Lyakhov, Pavel Alekseevich; Lyakhova, Ulyana Alekseevna; Nagornov, Nikolay Nikolaevich (3 de abril de 2022). "Sistema de reconocimiento de lesiones cutáneas pigmentadas con fusión y análisis de datos heterogéneos basado en una red neuronal multimodal". Cánceres . 14 (7): 1819. doi : 10.3390/cánceres14071819 . ISSN  2072-6694. PMC 8997449 . PMID  35406591. 
  219. ^ De, Shaunak; Maity, Abhishek; Goel, Vritti; Shitole, Sanjay; Bhattacharya, Avik (2017). "Predecir la popularidad de las publicaciones de Instagram para una revista de estilo de vida mediante el aprendizaje profundo". 2017 2do Congreso Internacional sobre Sistemas de Comunicación, Computación y Aplicaciones TI (CSCITA) . págs. 174-177. doi :10.1109/CSCITA.2017.8066548. ISBN 978-1-5090-4381-1. S2CID  35350962.
  220. ^ "Colorear y restaurar imágenes antiguas con aprendizaje profundo". Blog de FloydHub . 13 de noviembre de 2018. Archivado desde el original el 11 de octubre de 2019 . Consultado el 11 de octubre de 2019 .
  221. ^ Schmidt, Uwe; Roth, Stefan. Campos de contracción para una restauración eficaz de la imagen (PDF) . Visión por computadora y reconocimiento de patrones (CVPR), Conferencia IEEE de 2014. Archivado (PDF) desde el original el 2 de enero de 2018 . Consultado el 1 de enero de 2018 .
  222. ^ Cleanthous, Christos; Chatzis, Sotirios (2020). "Codificadores automáticos variacionales de mezcla cerrada para la selección de casos de auditoría del impuesto al valor agregado". Sistemas basados ​​en el conocimiento . 188 : 105048. doi : 10.1016/j.knosys.2019.105048. S2CID  204092079.
  223. ^ Checo, Tomasz (28 de junio de 2018). "Aprendizaje profundo: la próxima frontera para la detección del blanqueo de capitales". Revisión global de banca y finanzas . Archivado desde el original el 16 de noviembre de 2018 . Consultado el 15 de julio de 2018 .
  224. ^ Núñez, Michael (29 de noviembre de 2023). "La IA de materiales de Google DeepMind ya ha descubierto 2,2 millones de nuevos cristales". VentureBeat . Consultado el 19 de diciembre de 2023 .
  225. ^ Comerciante, Amil; Batzner, Simón; Schoenholz, Samuel S.; Aykol, Muratahan; Cheon, Gowoon; Cubuk, Ekin Dogus (diciembre de 2023). "Ampliación del aprendizaje profundo para el descubrimiento de materiales". Naturaleza . 624 (7990): 80–85. Código Bib :2023Natur.624...80M. doi : 10.1038/s41586-023-06735-9 . ISSN  1476-4687. PMC 10700131 . PMID  38030720. 
  226. ^ Peplow, Mark (29 de noviembre de 2023). "La IA de Google y los robots unen fuerzas para construir nuevos materiales". Naturaleza . doi :10.1038/d41586-023-03745-5. PMID  38030771. S2CID  265503872.
  227. ^ abc "Investigadores del ejército desarrollan nuevos algoritmos para entrenar robots". Eurek¡Alerta! . Archivado desde el original el 28 de agosto de 2018 . Consultado el 29 de agosto de 2018 .
  228. ^ Raisi, M.; Perdikaris, P.; Karniadakis, GE (1 de febrero de 2019). "Redes neuronales basadas en la física: un marco de aprendizaje profundo para resolver problemas directos e inversos que involucran ecuaciones diferenciales parciales no lineales". Revista de Física Computacional . 378 : 686–707. Código Bib : 2019JCoPh.378..686R. doi : 10.1016/j.jcp.2018.10.045 . ISSN  0021-9991. OSTI  1595805. S2CID  57379996.
  229. ^ Mao, Zhiping; Jagtap, Ameya D.; Karniadakis, George Em (1 de marzo de 2020). "Redes neuronales basadas en la física para flujos de alta velocidad". Métodos Informáticos en Mecánica e Ingeniería Aplicadas . 360 : 112789. Código Bib : 2020CMAME.360k2789M. doi : 10.1016/j.cma.2019.112789 . ISSN  0045-7825. S2CID  212755458.
  230. ^ Raissi, Maziar; Yazdani, Alireza; Karniadakis, George Em (28 de febrero de 2020). "Mecánica de fluidos oculta: aprendizaje de campos de velocidad y presión a partir de visualizaciones de flujo". Ciencia . 367 (6481): 1026–1030. Código Bib : 2020 Ciencia... 367.1026R. doi : 10.1126/ciencia.aaw4741. PMC 7219083 . PMID  32001523. 
  231. ^ Han, J.; Jentzen, A.; E, W. (2018). "Resolución de ecuaciones diferenciales parciales de alta dimensión mediante aprendizaje profundo". Actas de la Academia Nacional de Ciencias . 115 (34): 8505–8510. arXiv : 1707.02568 . Código Bib : 2018PNAS..115.8505H. doi : 10.1073/pnas.1718942115 . PMC 6112690 . PMID  30082389. 
  232. ^ Oktem, Figen S.; Kar, Oğuzhan Fatih; Bézek, Can Deniz; Kamalabadi, Farzad (2021). "Imágenes multiespectrales de alta resolución con lentes difractivas y reconstrucción aprendida". Transacciones IEEE sobre imágenes computacionales . 7 : 489–504. arXiv : 2008.11625 . doi :10.1109/TCI.2021.3075349. ISSN  2333-9403. S2CID  235340737.
  233. ^ Bernhardt, Melanie; Vishnevskiy, Valery; Rau, Richard; Goksel, Orcun (diciembre de 2020). "Entrenamiento de redes variacionales con simulaciones multidominio: reconstrucción de imágenes a la velocidad del sonido". Transacciones IEEE sobre ultrasonidos, ferroeléctricos y control de frecuencia . 67 (12): 2584–2594. arXiv : 2006.14395 . doi :10.1109/TUFFC.2020.3010186. ISSN  1525-8955. PMID  32746211. S2CID  220055785.
  234. ^ Lam, Rémi; Sánchez-González, Álvaro; Willson, Mateo; Wirnsberger, Peter; Fortunato, Meire; Alet, Ferrán; Ravuri, Suman; Ewalds, Timo; Eaton-Rosen, Zach; Hu, Weihua; Merosa, Alejandro; Hoyer, Stephan; Holanda, George; Vinyals, Oriol; Stott, Jacklynn (22 de diciembre de 2023). "Aprender a realizar predicciones meteorológicas globales hábiles a medio plazo". Ciencia . 382 (6677): 1416-1421. arXiv : 2212.12794 . Código Bib : 2023 Ciencia... 382.1416L. doi : 10.1126/ciencia.adi2336 . ISSN  0036-8075. PMID  37962497.
  235. ^ Sivakumar, Ramakrishnan (27 de noviembre de 2023). "GraphCast: un gran avance en la previsión meteorológica". Medio . Consultado el 19 de mayo de 2024 .
  236. ^ Galkin, F.; Mamoshina, P.; Kochetov, K.; Sidorenko, D.; Zhavoronkov, A. (2020). "DeepMAge: un reloj de envejecimiento por metilación desarrollado con aprendizaje profundo". Envejecimiento y enfermedad . doi : 10.14336/AD .
  237. ^ Utgoff, PE; Stracuzzi, DJ (2002). "Aprendizaje en muchos niveles". Computación neuronal . 14 (10): 2497–2529. doi :10.1162/08997660260293319. PMID  12396572. S2CID  1119517.
  238. ^ Elman, Jeffrey L. (1998). Repensar lo innato: una perspectiva conexionista sobre el desarrollo. Prensa del MIT. ISBN 978-0-262-55030-7.
  239. ^ Shrager, J.; Johnson, MH (1996). "La plasticidad dinámica influye en el surgimiento de funciones en una matriz cortical simple". Redes Neuronales . 9 (7): 1119-1129. doi :10.1016/0893-6080(96)00033-0. PMID  12662587.
  240. ^ Cuarzo, SR; Sejnowski, TJ (1997). "La base neuronal del desarrollo cognitivo: un manifiesto constructivista". Ciencias del comportamiento y del cerebro . 20 (4): 537–556. CiteSeerX 10.1.1.41.7854 . doi :10.1017/s0140525x97001581. PMID  10097006. S2CID  5818342. 
  241. ^ S. Blakeslee, "En el crecimiento inicial del cerebro, el calendario puede ser fundamental", The New York Times, Sección de Ciencias , págs. B5-B6, 1995.
  242. ^ Mazzoni, P.; Andersen, RA; Jordania, MI (15 de mayo de 1991). "Una regla de aprendizaje biológicamente más plausible para las redes neuronales". Actas de la Academia Nacional de Ciencias . 88 (10): 4433–4437. Código bibliográfico : 1991PNAS...88.4433M. doi : 10.1073/pnas.88.10.4433 . ISSN  0027-8424. PMC 51674 . PMID  1903542. 
  243. ^ O'Reilly, Randall C. (1 de julio de 1996). "Aprendizaje basado en errores biológicamente plausible utilizando diferencias de activación local: el algoritmo de recirculación generalizada". Computación neuronal . 8 (5): 895–938. doi :10.1162/neco.1996.8.5.895. ISSN  0899-7667. S2CID  2376781.
  244. ^ Testolín, Alberto; Zorzi, Marco (2016). "Modelos probabilísticos y redes neuronales generativas: hacia un marco unificado para modelar funciones neurocognitivas normales y deterioradas". Fronteras en neurociencia computacional . 10 : 73. doi : 10.3389/fncom.2016.00073 . ISSN  1662-5188. PMC 4943066 . PMID  27468262. S2CID  9868901. 
  245. ^ Testolín, Alberto; Stoianov, Ivilin; Zorzi, Marco (septiembre de 2017). "La percepción de las letras surge del aprendizaje profundo no supervisado y del reciclaje de características naturales de la imagen". Naturaleza Comportamiento Humano . 1 (9): 657–664. doi :10.1038/s41562-017-0186-2. ISSN  2397-3374. PMID  31024135. S2CID  24504018.
  246. ^ Buesing, Lars; Bill, Johannes; Nessler, Bernhard; Maass, Wolfgang (3 de noviembre de 2011). "Dinámica neuronal como muestreo: un modelo para la computación estocástica en redes recurrentes de neuronas con picos". PLOS Biología Computacional . 7 (11): e1002211. Código Bib : 2011PLSCB...7E2211B. doi : 10.1371/journal.pcbi.1002211 . ISSN  1553-7358. PMC 3207943 . PMID  22096452. S2CID  7504633. 
  247. ^ Efectivo, S.; Yuste, R. (febrero de 1999). "Suma lineal de entradas excitadoras de neuronas piramidales CA1". Neurona . 22 (2): 383–394. doi : 10.1016/s0896-6273(00)81098-3 . ISSN  0896-6273. PMID  10069343. S2CID  14663106.
  248. ^ Olshausen, B; Field, D (1 de agosto de 2004). "Codificación escasa de entradas sensoriales". Opinión actual en neurobiología . 14 (4): 481–487. doi :10.1016/j.conb.2004.07.007. ISSN  0959-4388. PMID  15321069. S2CID  16560320.
  249. ^ Yamins, Daniel LK; DiCarlo, James J (marzo de 2016). "Uso de modelos de aprendizaje profundo basados ​​en objetivos para comprender la corteza sensorial". Neurociencia de la Naturaleza . 19 (3): 356–365. doi :10.1038/nn.4244. ISSN  1546-1726. PMID  26906502. S2CID  16970545.
  250. ^ Zorzi, Marco; Testolín, Alberto (19 de febrero de 2018). "Una perspectiva emergentista sobre el origen del sentido numérico". Fil. Trans. R. Soc. B . 373 (1740): 20170043. doi :10.1098/rstb.2017.0043. ISSN  0962-8436. PMC 5784047 . PMID  29292348. S2CID  39281431. 
  251. ^ Güçlü, Umut; van Gerven, Marcel AJ (8 de julio de 2015). "Las redes neuronales profundas revelan un gradiente en la complejidad de las representaciones neuronales a través de la corriente ventral". Revista de Neurociencia . 35 (27): 10005–10014. arXiv : 1411.6422 . doi :10.1523/jneurosci.5023-14.2015. PMC 6605414 . PMID  26157000. 
  252. ^ Metz, C. (12 de diciembre de 2013). "El gurú del 'aprendizaje profundo' de Facebook revela el futuro de la IA". Cableado . Archivado desde el original el 28 de marzo de 2014 . Consultado el 26 de agosto de 2017 .
  253. ^ Gibney, Elizabeth (2016). "El algoritmo de IA de Google domina el antiguo juego de Go". Naturaleza . 529 (7587): 445–446. Código Bib :2016Natur.529..445G. doi : 10.1038/529445a . PMID  26819021. S2CID  4460235.
  254. ^ Plata, David ; Huang, Aja ; Maddison, Chris J.; Guez, Arturo; Sifré, Laurent; Driessche, George van den; Schrittwieser, Julián; Antonoglou, Ioannis; Panneershelvam, Veda; Lanctot, Marc; Dieleman, Sander; Grewe, Dominik; Nham, Juan; Kalchbrenner, Nal; Sutskever, Ilya ; Lillicrap, Timoteo; Lixiviación, Madeleine; Kavukcuoglu, Koray; Graepel, Thore; Hassabis, Demis (28 de enero de 2016). "Dominar el juego de Go con redes neuronales profundas y búsqueda de árboles". Naturaleza . 529 (7587): 484–489. Código Bib :2016Natur.529..484S. doi : 10.1038/naturaleza16961. ISSN  0028-0836. PMID  26819042. S2CID  515925.Icono de acceso cerrado
  255. ^ "Un algoritmo de Google DeepMind utiliza el aprendizaje profundo y más para dominar el juego del Go | MIT Technology Review". Revisión de tecnología del MIT . Archivado desde el original el 1 de febrero de 2016 . Consultado el 30 de enero de 2016 .
  256. ^ Metz, Cade (6 de noviembre de 2017). "Los investigadores de IA abandonan el laboratorio de Elon Musk para comenzar la puesta en marcha de robótica". Los New York Times . Archivado desde el original el 7 de julio de 2019 . Consultado el 5 de julio de 2019 .
  257. ^ Bradley Knox, W.; Piedra, Peter (2008). "TAMER: Capacitación manual de un agente mediante refuerzo evaluativo". 2008 Séptima Conferencia Internacional IEEE sobre Desarrollo y Aprendizaje . págs. 292-297. doi :10.1109/devlrn.2008.4640845. ISBN 978-1-4244-2661-4. S2CID  5613334.
  258. ^ "Hable con los algoritmos: la IA aprende más rápido". gobiernociomedia.com . 16 de mayo de 2018. Archivado desde el original el 28 de agosto de 2018 . Consultado el 29 de agosto de 2018 .
  259. ^ Marcus, Gary (14 de enero de 2018). "En defensa del escepticismo sobre el aprendizaje profundo". Gary Marcos . Archivado desde el original el 12 de octubre de 2018 . Consultado el 11 de octubre de 2018 .
  260. ^ Caballero, Will (14 de marzo de 2017). "DARPA está financiando proyectos que intentarán abrir las cajas negras de la IA". Revisión de tecnología del MIT . Archivado desde el original el 4 de noviembre de 2019 . Consultado el 2 de noviembre de 2017 .
  261. ^ Marcus, Gary (25 de noviembre de 2012). "¿Es el" aprendizaje profundo "una revolución en la inteligencia artificial?". El neoyorquino . Archivado desde el original el 27 de noviembre de 2009 . Consultado el 14 de junio de 2017 .
  262. ^ Alejandro Mordvintsev; Cristóbal Olá; Mike Tyka (17 de junio de 2015). "Incepcionismo: profundizar en las redes neuronales". Blog de investigación de Google. Archivado desde el original el 3 de julio de 2015 . Consultado el 20 de junio de 2015 .
  263. ^ Alex Hern (18 de junio de 2015). "Sí, los androides sueñan con ovejas eléctricas". El guardián . Archivado desde el original el 19 de junio de 2015 . Consultado el 20 de junio de 2015 .
  264. ^ abc Goertzel, Ben (2015). "¿Existen razones profundas detrás de las patologías de los algoritmos de aprendizaje profundo actuales?" (PDF) . Archivado (PDF) desde el original el 13 de mayo de 2015 . Consultado el 10 de mayo de 2015 .
  265. ^ Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). "Las redes neuronales profundas se engañan fácilmente: predicciones de alta confianza para imágenes irreconocibles". arXiv : 1412.1897 [cs.CV].
  266. ^ Szegedy, cristiano; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Juana; Erhan, Dumitru; Buen compañero, Ian; Fergus, Rob (2013). "Propiedades intrigantes de las redes neuronales". arXiv : 1312.6199 [cs.CV].
  267. ^ Zhu, Carolina del Sur; Mumford, D. (2006). "Una gramática estocástica de imágenes". Encontró. Computación de tendencias. Gráfico. Vis . 2 (4): 259–362. CiteSeerX 10.1.1.681.2190 . doi :10.1561/0600000018. 
  268. ^ Miller, GA y N. Chomsky. "Concepción de patrón". Documento para la conferencia sobre detección de patrones, Universidad de Michigan. 1957.
  269. ^ Eisner, Jason. "Aprendizaje profundo de la estructura recursiva: inducción gramatical". Archivado desde el original el 30 de diciembre de 2017 . Consultado el 10 de mayo de 2015 .
  270. ^ "Los piratas informáticos ya han comenzado a utilizar la inteligencia artificial como arma". Gizmodo . 11 de septiembre de 2017. Archivado desde el original el 11 de octubre de 2019 . Consultado el 11 de octubre de 2019 .
  271. ^ "Cómo los piratas informáticos pueden obligar a la IA a cometer errores tontos". El punto diario . 18 de junio de 2018. Archivado desde el original el 11 de octubre de 2019 . Consultado el 11 de octubre de 2019 .
  272. ^ abcde "La IA es fácil de engañar: por qué es necesario cambiar". Centro de singularidad . 10 de octubre de 2017. Archivado desde el original el 11 de octubre de 2017 . Consultado el 11 de octubre de 2017 .
  273. ^ Gibney, Elizabeth (2017). "El científico que detecta vídeos falsos". Naturaleza . doi :10.1038/naturaleza.2017.22784. Archivado desde el original el 10 de octubre de 2017 . Consultado el 11 de octubre de 2017 .
  274. ^ Túbaro, Paola (2020). "¿De quién es la inteligencia artificial?". Diálogo global : 38–39.
  275. ^ abcd Mühlhoff, Rainer (6 de noviembre de 2019). "Inteligencia artificial asistida por humanos: ¿o cómo ejecutar grandes cálculos en cerebros humanos? Hacia una sociología mediática del aprendizaje automático". Nuevos medios y sociedad . 22 (10): 1868–1884. doi : 10.1177/1461444819885334 . ISSN  1461-4448. S2CID  209363848.
  276. ^ "Facebook ahora puede encontrar tu rostro, incluso cuando no está etiquetado". Cableado . ISSN  1059-1028. Archivado desde el original el 10 de agosto de 2019 . Consultado el 22 de noviembre de 2019 .

Lectura adicional