El aprendizaje profundo es un subconjunto de los métodos de aprendizaje automático basados en redes neuronales con aprendizaje de representación . El campo se inspira en la neurociencia biológica y se centra en apilar neuronas artificiales en capas y "entrenarlas" para procesar datos. El adjetivo "profundo" se refiere al uso de múltiples capas (que van desde tres hasta varios cientos o miles) en la red. Los métodos utilizados pueden ser supervisados , semisupervisados o no supervisados . [2]
Algunas arquitecturas de redes de aprendizaje profundo comunes incluyen redes completamente conectadas , redes de creencias profundas , redes neuronales recurrentes , redes neuronales convolucionales , redes generativas adversarias , transformadores y campos de radiancia neuronal . Estas arquitecturas se han aplicado a campos que incluyen visión artificial , reconocimiento de voz , procesamiento de lenguaje natural , traducción automática , bioinformática , diseño de fármacos , análisis de imágenes médicas , ciencia climática , inspección de materiales y programas de juegos de mesa , donde han producido resultados comparables y en algunos casos superiores al desempeño de los expertos humanos. [3] [4] [5]
Las primeras formas de redes neuronales se inspiraron en los nodos de procesamiento de información y comunicación distribuida de los sistemas biológicos , en particular el cerebro humano . Sin embargo, las redes neuronales actuales no pretenden modelar la función cerebral de los organismos y, en general, se las considera modelos de baja calidad para ese propósito. [6]
La mayoría de los modelos de aprendizaje profundo modernos se basan en redes neuronales multicapa , como redes neuronales convolucionales y transformadores , aunque también pueden incluir fórmulas proposicionales o variables latentes organizadas capa por capa en modelos generativos profundos, como los nodos en redes de creencias profundas y máquinas de Boltzmann profundas . [7]
Básicamente, el aprendizaje profundo se refiere a una clase de algoritmos de aprendizaje automático en los que se utiliza una jerarquía de capas para transformar los datos de entrada en una representación ligeramente más abstracta y compuesta. Por ejemplo, en un modelo de reconocimiento de imágenes , la entrada sin procesar puede ser una imagen (representada como un tensor de píxeles ). La primera capa de representación puede intentar identificar formas básicas como líneas y círculos, la segunda capa puede componer y codificar disposiciones de bordes, la tercera capa puede codificar una nariz y ojos, y la cuarta capa puede reconocer que la imagen contiene una cara.
Es importante destacar que un proceso de aprendizaje profundo puede aprender por sí solo qué características colocar de manera óptima en qué nivel . Antes del aprendizaje profundo, las técnicas de aprendizaje automático a menudo implicaban una ingeniería de características hecha a mano para transformar los datos en una representación más adecuada para que un algoritmo de clasificación pudiera operar sobre ellos. En el enfoque de aprendizaje profundo, las características no se crean a mano y el modelo descubre representaciones de características útiles a partir de los datos de manera automática. Esto no elimina la necesidad de realizar ajustes manuales; por ejemplo, variar la cantidad y el tamaño de las capas puede proporcionar diferentes grados de abstracción. [8] [2]
La palabra "profundo" en "aprendizaje profundo" se refiere al número de capas a través de las cuales se transforman los datos. Más precisamente, los sistemas de aprendizaje profundo tienen una profundidad sustancial de ruta de asignación de crédito (CAP). La CAP es la cadena de transformaciones de entrada a salida. Las CAP describen conexiones potencialmente causales entre la entrada y la salida. Para una red neuronal de propagación hacia adelante , la profundidad de las CAP es la de la red y es el número de capas ocultas más uno (ya que la capa de salida también está parametrizada). Para las redes neuronales recurrentes , en las que una señal puede propagarse a través de una capa más de una vez, la profundidad de la CAP es potencialmente ilimitada. [9] No existe un umbral de profundidad acordado universalmente que divida el aprendizaje superficial del aprendizaje profundo, pero la mayoría de los investigadores coinciden en que el aprendizaje profundo implica una profundidad de CAP superior a dos. Se ha demostrado que la CAP de profundidad dos es un aproximador universal en el sentido de que puede emular cualquier función. [10] Más allá de eso, más capas no se suman a la capacidad de aproximación de funciones de la red. Los modelos profundos (CAP > dos) pueden extraer mejores características que los modelos superficiales y, por lo tanto, las capas adicionales ayudan a aprender las características de manera efectiva.
Las arquitecturas de aprendizaje profundo se pueden construir con un método codicioso de capa por capa. [11] El aprendizaje profundo ayuda a desenredar estas abstracciones y a identificar qué características mejoran el rendimiento. [8]
Los algoritmos de aprendizaje profundo se pueden aplicar a tareas de aprendizaje no supervisado. Este es un beneficio importante porque los datos no etiquetados son más abundantes que los etiquetados. Ejemplos de estructuras profundas que se pueden entrenar de manera no supervisada son las redes de creencias profundas . [8] [12]
El término Deep Learning fue introducido en la comunidad de aprendizaje automático por Rina Dechter en 1986, [13] y en las redes neuronales artificiales por Igor Aizenberg y colegas en 2000, en el contexto de las neuronas de umbral booleano . [14] [15] Aunque la historia de su aparición es aparentemente más complicada. [16]
Las redes neuronales profundas generalmente se interpretan en términos del teorema de aproximación universal [17] [18] [19] [20] [21] o inferencia probabilística . [22] [23] [8] [9] [24]
El teorema clásico de aproximación universal se refiere a la capacidad de las redes neuronales de propagación hacia adelante con una única capa oculta de tamaño finito para aproximarse a funciones continuas . [17] [18] [19] [20] En 1989, George Cybenko publicó la primera prueba para funciones de activación sigmoideas [17] y Kurt Hornik la generalizó a arquitecturas multicapa de propagación hacia adelante en 1991. [18] Un trabajo reciente también mostró que la aproximación universal también se cumple para funciones de activación no acotadas, como la unidad lineal rectificada de Kunihiko Fukushima . [25] [26]
El teorema de aproximación universal para redes neuronales profundas se refiere a la capacidad de las redes con ancho limitado pero a las que se les permite crecer en profundidad. Lu et al. [21] demostraron que si el ancho de una red neuronal profunda con activación ReLU es estrictamente mayor que la dimensión de entrada, entonces la red puede aproximarse a cualquier función integrable de Lebesgue ; si el ancho es menor o igual a la dimensión de entrada, entonces una red neuronal profunda no es un aproximador universal.
La interpretación probabilística [24] se deriva del campo del aprendizaje automático . Presenta inferencia, [23] [7] [8] [9] [12] [24] así como los conceptos de optimización de entrenamiento y prueba , relacionados con el ajuste y la generalización , respectivamente. Más específicamente, la interpretación probabilística considera la no linealidad de activación como una función de distribución acumulativa . [24] La interpretación probabilística condujo a la introducción de la deserción como regularizador en redes neuronales. La interpretación probabilística fue introducida por investigadores como Hopfield , Widrow y Narendra y popularizada en encuestas como la de Bishop . [27]
Existen dos tipos de redes neuronales artificiales (RNA): redes neuronales de propagación hacia adelante (FNN) o perceptrones multicapa (MLP) y redes neuronales recurrentes (RNN). Las RNN tienen ciclos en su estructura de conectividad, las FNN no. En la década de 1920, Wilhelm Lenz y Ernst Ising crearon el modelo de Ising [28] [29] que es esencialmente una arquitectura de RNN sin aprendizaje que consiste en elementos de umbral similares a neuronas. En 1972, Shun'ichi Amari hizo que esta arquitectura fuera adaptativa. [30] [31] Su RNN de aprendizaje fue republicada por John Hopfield en 1982. [32] Otras redes neuronales recurrentes tempranas fueron publicadas por Kaoru Nakano en 1971. [33] [34] Ya en 1948, Alan Turing produjo un trabajo sobre "Maquinaria inteligente" que no fue publicado en vida de él, [35] que contiene "ideas relacionadas con la evolución artificial y las RNN de aprendizaje". [31]
Frank Rosenblatt (1958) [36] propuso el perceptrón, un MLP con 3 capas: una capa de entrada, una capa oculta con pesos aleatorios que no aprenden y una capa de salida. Más tarde publicó un libro en 1962 que también introdujo variantes y experimentos informáticos, incluida una versión con perceptrones de cuatro capas "con redes preterminales adaptativas" donde las dos últimas capas han aprendido pesos (aquí le da crédito a HD Block y BW Knight). [37] : sección 16 El libro cita una red anterior de RD Joseph (1960) [38] "funcionalmente equivalente a una variación de" este sistema de cuatro capas (el libro menciona a Joseph más de 30 veces). ¿Debería considerarse a Joseph el creador de los perceptrones multicapa adaptativos adecuados con unidades ocultas de aprendizaje? Desafortunadamente, el algoritmo de aprendizaje no era funcional y cayó en el olvido.
El primer algoritmo de aprendizaje profundo funcional fue el método de grupo de manejo de datos , un método para entrenar redes neuronales arbitrariamente profundas, publicado por Alexey Ivakhnenko y Lapa en 1965. Lo consideraron como una forma de regresión polinomial, [39] o una generalización del perceptrón de Rosenblatt. [40] Un artículo de 1971 describió una red profunda con ocho capas entrenadas por este método, [41] que se basa en el entrenamiento capa por capa a través del análisis de regresión. Las unidades ocultas superfluas se podan utilizando un conjunto de validación separado. Dado que las funciones de activación de los nodos son polinomios de Kolmogorov-Gabor, estas también fueron las primeras redes profundas con unidades multiplicativas o "puertas". [31]
El primer perceptrón multicapa de aprendizaje profundo entrenado por descenso de gradiente estocástico [42] fue publicado en 1967 por Shun'ichi Amari . [43] En experimentos informáticos realizados por el estudiante de Amari, Saito, un MLP de cinco capas con dos capas modificables aprendió representaciones internas para clasificar clases de patrones no linealmente separables. [31] Los desarrollos posteriores en hardware y ajustes de hiperparámetros han hecho que el descenso de gradiente estocástico de extremo a extremo sea la técnica de entrenamiento actualmente dominante.
En 1969, Kunihiko Fukushima introdujo la función de activación ReLU (unidad lineal rectificada) . [25] [31] El rectificador se ha convertido en la función de activación más popular para el aprendizaje profundo. [44]
Las arquitecturas de aprendizaje profundo para redes neuronales convolucionales (CNN) con capas convolucionales y capas de submuestreo comenzaron con el Neocognitron introducido por Kunihiko Fukushima en 1979, aunque no entrenado por retropropagación. [45] [46]
La retropropagación es una aplicación eficiente de la regla de la cadena derivada por Gottfried Wilhelm Leibniz en 1673 [47] a redes de nodos diferenciables. La terminología "errores de retropropagación" fue introducida en 1962 por Rosenblatt, [37] pero no sabía cómo implementarla, aunque Henry J. Kelley tuvo un precursor continuo de la retropropagación en 1960 en el contexto de la teoría de control . [48] La forma moderna de retropropagación se publicó por primera vez en la tesis de maestría de Seppo Linnainmaa (1970). [49] [50] [31] GM Ostrovski et al. Lo republicó en 1971. [51] [52] Paul Werbos aplicó la retropropagación a las redes neuronales en 1982 [53] (su tesis doctoral de 1974, reimpresa en un libro de 1994, [54] aún no describía el algoritmo [52] ). En 1986, David E. Rumelhart et al. popularizaron la retropropagación pero no citaron el trabajo original. [55] [56]
La red neuronal con retardo temporal (TDNN) fue introducida en 1987 por Alex Waibel para aplicar la CNN al reconocimiento de fonemas. Utilizaba convoluciones, reparto de peso y retropropagación. [57] [58] En 1988, Wei Zhang aplicó una CNN entrenada por retropropagación al reconocimiento de alfabetos. [59] En 1989, Yann LeCun et al. crearon una CNN llamada LeNet para reconocer códigos postales escritos a mano en el correo. El entrenamiento requería 3 días. [60] En 1990, Wei Zhang implementó una CNN en hardware de computación óptica . [61] En 1991, se aplicó una CNN a la segmentación de objetos de imágenes médicas [62] y a la detección de cáncer de mama en mamografías. [63] LeNet -5 (1998), una CNN de 7 niveles de Yann LeCun et al., que clasifica dígitos, fue aplicada por varios bancos para reconocer números escritos a mano en cheques digitalizados en imágenes de 32x32 píxeles. [64]
Las redes neuronales recurrentes (RNN) [28] [30] se desarrollaron aún más en la década de 1980. La recurrencia se utiliza para el procesamiento de secuencias y, cuando se desenrolla una red recurrente, se asemeja matemáticamente a una capa de retroalimentación profunda. En consecuencia, tienen propiedades y problemas similares, y sus desarrollos tuvieron influencias mutuas. En RNN, dos trabajos influyentes tempranos fueron la red Jordan (1986) [65] y la red Elman (1990), [66] que aplicaron RNN para estudiar problemas en psicología cognitiva .
En la década de 1980, la retropropagación no funcionó bien para el aprendizaje profundo con largas rutas de asignación de créditos. Para superar este problema, en 1991, Jürgen Schmidhuber propuso una jerarquía de RNN preentrenadas un nivel a la vez mediante aprendizaje autosupervisado donde cada RNN intenta predecir su propia próxima entrada, que es la próxima entrada inesperada de la RNN inferior. [67] [68] Este "compresor de historial neuronal" utiliza codificación predictiva para aprender representaciones internas en múltiples escalas de tiempo autoorganizadas. Esto puede facilitar sustancialmente el aprendizaje profundo posterior. La jerarquía de RNN se puede colapsar en una sola RNN, destilando una red de fragmentación de nivel superior en una red de automatizador de nivel inferior . [67] [68] [31] En 1993, un compresor de historial neuronal resolvió una tarea de "aprendizaje muy profundo" que requería más de 1000 capas subsiguientes en una RNN desplegada en el tiempo. [69] La "P" en ChatGPT se refiere a dicho entrenamiento previo.
La tesis de diploma de Sepp Hochreiter (1991) [70] implementó el compresor de historia neuronal, [67] e identificó y analizó el problema del gradiente evanescente . [70] [71] Hochreiter propuso conexiones residuales recurrentes para resolver el problema del gradiente evanescente. Esto condujo a la memoria a corto plazo larga (LSTM), publicada en 1995. [72] LSTM puede aprender tareas de "aprendizaje muy profundo" [9] con largas rutas de asignación de créditos que requieren recuerdos de eventos que sucedieron miles de pasos de tiempo discretos antes. Esa LSTM aún no era la arquitectura moderna, que requería una "puerta de olvido", introducida en 1999, [73] que se convirtió en la arquitectura RNN estándar.
En 1991, Jürgen Schmidhuber también publicó redes neuronales adversarias que compiten entre sí en forma de un juego de suma cero , donde la ganancia de una red es la pérdida de la otra. [74] [75] La primera red es un modelo generativo que modela una distribución de probabilidad sobre patrones de salida. La segunda red aprende por descenso de gradiente para predecir las reacciones del entorno a estos patrones. Esto se llamó "curiosidad artificial". En 2014, este principio se utilizó en redes generativas adversarias (GAN). [76]
Durante 1985-1995, inspirados por la mecánica estadística, Terry Sejnowski , Peter Dayan , Geoffrey Hinton , etc. desarrollaron varias arquitecturas y métodos , incluyendo la máquina de Boltzmann , [77] la máquina de Boltzmann restringida , [78] la máquina de Helmholtz , [79] y el algoritmo de vigilia-sueño . [80] Estos fueron diseñados para el aprendizaje no supervisado de modelos generativos profundos. Sin embargo, estos eran más costosos computacionalmente en comparación con la retropropagación. El algoritmo de aprendizaje automático de Boltzmann, publicado en 1985, fue brevemente popular antes de ser eclipsado por el algoritmo de retropropagación en 1986. (p. 112 [81] ). Una red de 1988 se convirtió en el estado del arte en la predicción de la estructura de proteínas , una aplicación temprana del aprendizaje profundo a la bioinformática. [82]
Durante muchos años se han explorado tanto el aprendizaje superficial como el profundo (por ejemplo, redes recurrentes) de las ANN para el reconocimiento de voz . [83] [84] [85] Estos métodos nunca superaron la tecnología del modelo de mezcla gaussiana de elaboración interna no uniforme / modelo de Markov oculto (GMM-HMM) basada en modelos generativos de habla entrenados de forma discriminativa. [86] Se han analizado las dificultades clave, incluida la disminución del gradiente [70] y la estructura de correlación temporal débil en los modelos predictivos neuronales. [87] [88] Las dificultades adicionales fueron la falta de datos de entrenamiento y la potencia informática limitada.
La mayoría de los investigadores en reconocimiento de voz se alejaron de las redes neuronales para dedicarse al modelado generativo. Una excepción fue SRI International a fines de la década de 1990. Financiado por la NSA y la DARPA del gobierno de los EE. UU. , SRI investigó en reconocimiento de habla y de habla . El equipo de reconocimiento de hablantes dirigido por Larry Heck informó un éxito significativo con redes neuronales profundas en el procesamiento del habla en el punto de referencia de reconocimiento de hablantes del NIST de 1998. [89] [90] Se implementó en Nuance Verifier, lo que representó la primera aplicación industrial importante del aprendizaje profundo. [91]
El principio de elevar las características "en bruto" por sobre la optimización hecha a mano se exploró por primera vez con éxito en la arquitectura del autocodificador profundo en el espectrograma "en bruto" o las características del banco de filtros lineales a fines de la década de 1990, [90] mostrando su superioridad sobre las características Mel-Cepstral que contienen etapas de transformación fija de los espectrogramas. Las características en bruto del habla, formas de onda , produjeron posteriormente excelentes resultados a mayor escala. [92]
Las redes neuronales entraron en un punto muerto y los modelos más simples que utilizan características específicas para cada tarea, como filtros de Gabor y máquinas de vectores de soporte (SVM), se convirtieron en las opciones preferidas en los años 1990 y 2000, debido al costo computacional de las redes neuronales artificiales y a la falta de comprensión de cómo el cerebro conecta sus redes biológicas. [ cita requerida ]
En 2003, LSTM comenzó a competir con los reconocedores de voz tradicionales en ciertas tareas. [93] En 2006, Alex Graves , Santiago Fernández, Faustino Gomez y Schmidhuber lo combinaron con la clasificación temporal conexionista (CTC) [94] en pilas de LSTM. [95] En 2009, se convirtió en la primera RNN en ganar un concurso de reconocimiento de patrones , en reconocimiento de escritura a mano conectada . [96] [9]
En 2006, Geoff Hinton , Ruslan Salakhutdinov , Osindero y Teh [97] [98] publicaron redes de creencias profundas para modelado generativo. Se entrenan entrenando una máquina de Boltzmann restringida, luego congelándola y entrenando otra sobre la primera, y así sucesivamente, y luego se afinan opcionalmente utilizando retropropagación supervisada. [99] Podrían modelar distribuciones de probabilidad de alta dimensión, como la distribución de imágenes MNIST , pero la convergencia era lenta. [100] [101] [102]
El impacto del aprendizaje profundo en la industria comenzó a principios de la década de 2000, cuando las CNN ya procesaban aproximadamente entre el 10% y el 20% de todos los cheques emitidos en los EE. UU., según Yann LeCun. [103] Las aplicaciones industriales del aprendizaje profundo para el reconocimiento de voz a gran escala comenzaron alrededor de 2010.
El Taller NIPS de 2009 sobre aprendizaje profundo para el reconocimiento de voz estuvo motivado por las limitaciones de los modelos generativos profundos del habla y la posibilidad de que, dado un hardware más capaz y conjuntos de datos a gran escala, las redes neuronales profundas pudieran volverse prácticas. Se creía que el entrenamiento previo de las DNN utilizando modelos generativos de redes de creencias profundas (DBN) superaría las principales dificultades de las redes neuronales. Sin embargo, se descubrió que reemplazar el entrenamiento previo con grandes cantidades de datos de entrenamiento para una retropropagación directa cuando se utilizan DNN con capas de salida grandes y dependientes del contexto produjo tasas de error drásticamente más bajas que el modelo de mezcla gaussiana (GMM)/modelo de Markov oculto (HMM) de última generación en ese momento y también que los sistemas basados en modelos generativos más avanzados. [104] La naturaleza de los errores de reconocimiento producidos por los dos tipos de sistemas era característicamente diferente, [105] ofreciendo perspectivas técnicas sobre cómo integrar el aprendizaje profundo en el sistema de decodificación de voz en tiempo de ejecución altamente eficiente existente implementado por todos los principales sistemas de reconocimiento de voz. [23] [106] [107] El análisis realizado entre 2009 y 2010, que contrastaba el GMM (y otros modelos de habla generativa) con los modelos DNN, estimuló la inversión industrial temprana en aprendizaje profundo para el reconocimiento de voz. [105] Ese análisis se realizó con un rendimiento comparable (menos del 1,5 % en tasa de error) entre las DNN discriminativas y los modelos generativos. [104] [105] [108] En 2010, los investigadores extendieron el aprendizaje profundo de TIMIT al reconocimiento de voz de vocabulario amplio, adoptando grandes capas de salida de la DNN basadas en estados HMM dependientes del contexto construidos por árboles de decisión . [109] [110] [111] [106]
La revolución del aprendizaje profundo comenzó en torno a la visión artificial basada en CNN y GPU.
Aunque las CNN entrenadas por retropropagación han existido durante décadas y las implementaciones de NN en GPU durante años, [112] incluidas las CNN, [113] se necesitaban implementaciones más rápidas de CNN en GPU para avanzar en la visión artificial. Más tarde, a medida que el aprendizaje profundo se generalizó, se desarrollaron optimizaciones de algoritmos y hardware especializados específicamente para el aprendizaje profundo. [114]
Un avance clave para la revolución del aprendizaje profundo fueron los avances en hardware, especialmente en GPU. Algunos de los primeros trabajos se remontan a 2004. [112] [113] En 2009, Raina, Madhavan y Andrew Ng informaron sobre una red de creencias profundas de 100 millones entrenada en 30 GPU Nvidia GeForce GTX 280 , una demostración temprana del aprendizaje profundo basado en GPU. Informaron de un entrenamiento hasta 70 veces más rápido. [115]
En 2011, una CNN llamada DanNet [116] [117] de Dan Ciresan, Ueli Meier, Jonathan Masci, Luca Maria Gambardella y Jürgen Schmidhuber logró por primera vez un rendimiento sobrehumano en un concurso de reconocimiento de patrones visuales, superando a los métodos tradicionales por un factor de 3. [9] Luego ganó más concursos. [118] [119] También demostraron cómo la agrupación máxima de CNN en la GPU mejoró el rendimiento significativamente. [3]
En 2012, Andrew Ng y Jeff Dean crearon una FNN que aprendió a reconocer conceptos de nivel superior, como los gatos, solo al mirar imágenes sin etiquetas tomadas de videos de YouTube . [120]
En octubre de 2012, AlexNet de Alex Krizhevsky , Ilya Sutskever y Geoffrey Hinton [4] ganó la competencia a gran escala de ImageNet por un margen significativo frente a los métodos de aprendizaje automático superficial. Otras mejoras incrementales incluyeron la red VGG-16 de Karen Simonyan y Andrew Zisserman [121] y la Inceptionv3 de Google . [122]
El éxito en la clasificación de imágenes se extendió luego a la tarea más desafiante de generar descripciones (títulos) para imágenes, a menudo como una combinación de CNN y LSTM. [123] [124] [125]
En 2014, el estado del arte era entrenar “redes neuronales muy profundas” con 20 a 30 capas. [126] Apilar demasiadas capas condujo a una reducción pronunciada en la precisión del entrenamiento , [127] conocido como el problema de “degradación”. [128] En 2015, se desarrollaron dos técnicas para entrenar redes muy profundas: la Highway Network se publicó en mayo de 2015 y la red neuronal residual (ResNet) [129] en diciembre de 2015. ResNet se comporta como una Highway Net de compuerta abierta.
Casi al mismo tiempo, el aprendizaje profundo comenzó a tener un impacto en el campo del arte. Los primeros ejemplos incluyeron Google DeepDream (2015) y la transferencia de estilo neuronal (2015), [130] ambos basados en redes neuronales de clasificación de imágenes preentrenadas, como VGG-19 .
La red generativa antagónica (GAN) de ( Ian Goodfellow et al., 2014) [131] (basada en el principio de curiosidad artificial de Jürgen Schmidhuber [74] [76] ) se convirtió en el estado del arte en modelado generativo durante el período 2014-2018. Se logra una excelente calidad de imagen con StyleGAN de Nvidia (2018) [132] basado en la GAN progresiva de Tero Karras et al. [133] Aquí, el generador de GAN crece de pequeña a gran escala de manera piramidal. La generación de imágenes por GAN alcanzó un éxito popular y provocó discusiones sobre deepfakes . [134] Los modelos de difusión (2015) [135] eclipsaron a las GAN en el modelado generativo desde entonces, con sistemas como DALL·E 2 (2022) y Stable Diffusion (2022).
En 2015, el reconocimiento de voz de Google mejoró en un 49% gracias a un modelo basado en LSTM, que pusieron a disposición a través de Google Voice Search en teléfonos inteligentes . [136] [137]
El aprendizaje profundo es parte de los sistemas de última generación en varias disciplinas, particularmente la visión por computadora y el reconocimiento automático de voz (ASR). Los resultados en conjuntos de evaluación de uso común, como TIMIT (ASR) y MNIST ( clasificación de imágenes ), así como una variedad de tareas de reconocimiento de voz de vocabulario amplio, han mejorado constantemente. [104] [138] Las redes neuronales convolucionales fueron reemplazadas para ASR por LSTM . [137] [139] [140] [141] pero son más exitosas en la visión por computadora.
Yoshua Bengio , Geoffrey Hinton y Yann LeCun recibieron el Premio Turing 2018 por "avances conceptuales y de ingeniería que han hecho de las redes neuronales profundas un componente crítico de la informática". [142]
Las redes neuronales artificiales ( RNA ) o sistemas conexionistas son sistemas informáticos inspirados en las redes neuronales biológicas que constituyen los cerebros animales. Dichos sistemas aprenden (mejoran progresivamente su capacidad) a realizar tareas considerando ejemplos, generalmente sin programación específica para la tarea. Por ejemplo, en el reconocimiento de imágenes, podrían aprender a identificar imágenes que contienen gatos analizando imágenes de ejemplo que han sido etiquetadas manualmente como "gato" o "sin gato" y utilizando los resultados analíticos para identificar gatos en otras imágenes. Han encontrado mayor utilidad en aplicaciones difíciles de expresar con un algoritmo informático tradicional que utilice programación basada en reglas .
Una ANN se basa en una colección de unidades conectadas llamadas neuronas artificiales (análogas a las neuronas biológicas en un cerebro biológico ). Cada conexión ( sinapsis ) entre neuronas puede transmitir una señal a otra neurona. La neurona receptora (postsináptica) puede procesar la(s) señal(es) y luego enviar señales a las neuronas posteriores conectadas a ella. Las neuronas pueden tener un estado, generalmente representado por números reales , típicamente entre 0 y 1. Las neuronas y las sinapsis también pueden tener un peso que varía a medida que avanza el aprendizaje, lo que puede aumentar o disminuir la fuerza de la señal que envía.
Por lo general, las neuronas se organizan en capas. Las distintas capas pueden realizar distintos tipos de transformaciones en sus entradas. Las señales viajan desde la primera capa (de entrada) hasta la última (de salida), posiblemente después de atravesar las capas varias veces.
El objetivo original del enfoque de redes neuronales era resolver problemas de la misma manera que lo haría un cerebro humano. Con el tiempo, la atención se centró en la combinación de capacidades mentales específicas, lo que llevó a desviaciones de la biología, como la retropropagación , o el paso de información en la dirección inversa y el ajuste de la red para reflejar esa información.
Las redes neuronales se han utilizado en una variedad de tareas, incluidas la visión artificial, el reconocimiento de voz , la traducción automática , el filtrado de redes sociales , los juegos de mesa y de vídeo y el diagnóstico médico.
A partir de 2017, las redes neuronales suelen tener entre unos pocos miles y unos pocos millones de unidades y millones de conexiones. A pesar de que este número es varios órdenes de magnitud menor que el número de neuronas en un cerebro humano, estas redes pueden realizar muchas tareas a un nivel que supera al de los humanos (por ejemplo, reconocer rostros o jugar al "Go" [144] ).
Una red neuronal profunda (DNN) es una red neuronal artificial con múltiples capas entre las capas de entrada y salida. [7] [9] Existen diferentes tipos de redes neuronales, pero siempre constan de los mismos componentes: neuronas, sinapsis, pesos, sesgos y funciones. [145] Estos componentes en su conjunto funcionan de una manera que imita las funciones del cerebro humano y se pueden entrenar como cualquier otro algoritmo de aprendizaje automático. [ cita requerida ]
Por ejemplo, una red neuronal profunda (DNN) que está entrenada para reconocer razas de perros examinará la imagen dada y calculará la probabilidad de que el perro en la imagen sea de una raza determinada. El usuario puede revisar los resultados y seleccionar qué probabilidades debe mostrar la red (por encima de un cierto umbral, etc.) y devolver la etiqueta propuesta. Cada manipulación matemática como tal se considera una capa, [ cita requerida ] y las DNN complejas tienen muchas capas, de ahí el nombre de redes "profundas".
Las redes neuronales profundas (DNN) pueden modelar relaciones no lineales complejas. Las arquitecturas de DNN generan modelos compositivos en los que el objeto se expresa como una composición en capas de primitivos . [146] Las capas adicionales permiten la composición de características de capas inferiores, lo que potencialmente modela datos complejos con menos unidades que una red superficial de rendimiento similar. [7] Por ejemplo, se demostró que los polinomios multivariados dispersos son exponencialmente más fáciles de aproximar con DNN que con redes superficiales. [147]
Las arquitecturas profundas incluyen muchas variantes de unos pocos enfoques básicos. Cada arquitectura ha tenido éxito en dominios específicos. No siempre es posible comparar el rendimiento de varias arquitecturas, a menos que se hayan evaluado en los mismos conjuntos de datos.
Las redes neuronales profundas (DNN) son redes de retroalimentación en las que los datos fluyen desde la capa de entrada a la capa de salida sin retroceder. En primer lugar, la DNN crea un mapa de neuronas virtuales y asigna valores numéricos aleatorios, o "pesos", a las conexiones entre ellas. Los pesos y las entradas se multiplican y devuelven una salida entre 0 y 1. Si la red no reconoce con precisión un patrón particular, un algoritmo ajustaría los pesos. [148] De esa manera, el algoritmo puede hacer que ciertos parámetros sean más influyentes, hasta que determine la manipulación matemática correcta para procesar completamente los datos.
Las redes neuronales recurrentes , en las que los datos pueden fluir en cualquier dirección, se utilizan para aplicaciones como el modelado del lenguaje . [149] [150] [151] [152] [153] La memoria a corto plazo es particularmente eficaz para este uso. [154] [155]
Las redes neuronales convolucionales (CNN) se utilizan en la visión artificial. [156] Las CNN también se han aplicado al modelado acústico para el reconocimiento automático del habla (ASR). [157]
Al igual que con las ANN, pueden surgir muchos problemas con las DNN entrenadas de forma ingenua. Dos problemas comunes son el sobreajuste y el tiempo de cálculo.
Las redes neuronales profundas son propensas a sobreajustarse debido a las capas de abstracción agregadas, que les permiten modelar dependencias raras en los datos de entrenamiento. Los métodos de regularización como la poda de unidades de Ivakhnenko [41] o la disminución de peso ( -regularización) o la escasez ( -regularización) se pueden aplicar durante el entrenamiento para combatir el sobreajuste. [158] Alternativamente, la regularización de abandono omite aleatoriamente unidades de las capas ocultas durante el entrenamiento. Esto ayuda a excluir dependencias raras. [159] Finalmente, los datos se pueden aumentar a través de métodos como el recorte y la rotación de modo que se pueda aumentar el tamaño de los conjuntos de entrenamiento más pequeños para reducir las posibilidades de sobreajuste. [160]
Las DNN deben considerar muchos parámetros de entrenamiento, como el tamaño (número de capas y número de unidades por capa), la tasa de aprendizaje y los pesos iniciales. Es posible que no sea posible recorrer el espacio de parámetros para encontrar los parámetros óptimos debido al costo en tiempo y recursos computacionales. Varios trucos, como el procesamiento por lotes (computar el gradiente en varios ejemplos de entrenamiento a la vez en lugar de ejemplos individuales) [161] aceleran el cálculo. Las grandes capacidades de procesamiento de las arquitecturas de múltiples núcleos (como las GPU o Intel Xeon Phi) han producido aceleraciones significativas en el entrenamiento, debido a la idoneidad de dichas arquitecturas de procesamiento para los cálculos matriciales y vectoriales. [162] [163]
Como alternativa, los ingenieros pueden buscar otros tipos de redes neuronales con algoritmos de entrenamiento más sencillos y convergentes. CMAC ( controlador de articulación del modelo cerebeloso ) es uno de esos tipos de redes neuronales. No requiere tasas de aprendizaje ni pesos iniciales aleatorios. Se puede garantizar que el proceso de entrenamiento converja en un solo paso con un nuevo lote de datos, y la complejidad computacional del algoritmo de entrenamiento es lineal con respecto al número de neuronas involucradas. [164] [165]
Desde la década de 2010, los avances tanto en algoritmos de aprendizaje automático como en hardware informático han dado lugar a métodos más eficientes para entrenar redes neuronales profundas que contienen muchas capas de unidades ocultas no lineales y una capa de salida muy grande. [166] Para 2019, las unidades de procesamiento gráfico (GPU), a menudo con mejoras específicas de IA, habían desplazado a las CPU como el método dominante para entrenar IA comercial en la nube a gran escala. [167] OpenAI estimó el cálculo de hardware utilizado en los proyectos de aprendizaje profundo más grandes desde AlexNet (2012) hasta AlphaZero (2017) y encontró un aumento de 300.000 veces en la cantidad de cálculo requerido, con una línea de tendencia de tiempo de duplicación de 3,4 meses. [168] [169]
Se diseñaron circuitos electrónicos especiales llamados procesadores de aprendizaje profundo para acelerar los algoritmos de aprendizaje profundo. Los procesadores de aprendizaje profundo incluyen unidades de procesamiento neuronal (NPU) en los teléfonos celulares Huawei [170] y servidores de computación en la nube como unidades de procesamiento tensorial (TPU) en Google Cloud Platform . [171] Cerebras Systems también ha construido un sistema dedicado para manejar grandes modelos de aprendizaje profundo, el CS-2, basado en el procesador más grande de la industria, el Wafer Scale Engine (WSE-2) de segunda generación. [172] [173]
Los semiconductores atómicamente delgados se consideran prometedores para el hardware de aprendizaje profundo de bajo consumo energético, donde se utiliza la misma estructura básica del dispositivo tanto para las operaciones lógicas como para el almacenamiento de datos. En 2020, Marega et al. publicaron experimentos con un material de canal activo de área grande para desarrollar dispositivos y circuitos de lógica en memoria basados en transistores de efecto de campo de puerta flotante (FGFET). [174]
En 2021, J. Feldmann et al. propusieron un acelerador de hardware fotónico integrado para el procesamiento convolucional paralelo. [175] Los autores identifican dos ventajas clave de la fotónica integrada sobre sus contrapartes electrónicas: (1) transferencia masiva de datos en paralelo a través de multiplexación por división de longitud de onda junto con peines de frecuencia , y (2) velocidades de modulación de datos extremadamente altas. [175] Su sistema puede ejecutar billones de operaciones de multiplicación-acumulación por segundo, lo que indica el potencial de la fotónica integrada en aplicaciones de IA con gran cantidad de datos. [175]
El reconocimiento automático de voz a gran escala es el primer y más convincente caso exitoso de aprendizaje profundo. Las RNN LSTM pueden aprender tareas de "aprendizaje muy profundo" [9] que involucran intervalos de varios segundos que contienen eventos de voz separados por miles de pasos de tiempo discretos, donde un paso de tiempo corresponde a aproximadamente 10 ms. El LSTM con puertas de olvido [155] es competitivo con los reconocedores de voz tradicionales en ciertas tareas. [93]
El éxito inicial en el reconocimiento de voz se basó en tareas de reconocimiento a pequeña escala basadas en TIMIT. El conjunto de datos contiene 630 hablantes de ocho dialectos principales del inglés americano , donde cada hablante lee 10 oraciones. [176] Su pequeño tamaño permite probar muchas configuraciones. Más importante aún, la tarea TIMIT se refiere al reconocimiento de secuencias de fonemas , que, a diferencia del reconocimiento de secuencias de palabras, permite modelos de lenguaje de bigramas de fonemas débiles . Esto permite analizar más fácilmente la solidez de los aspectos de modelado acústico del reconocimiento de voz. Las tasas de error que se enumeran a continuación, incluidos estos primeros resultados y medidas como porcentajes de tasas de error de fonemas (PER), se han resumido desde 1991.
El debut de las DNN para el reconocimiento de hablantes a finales de los años 1990 y el reconocimiento de voz alrededor de 2009-2011 y de LSTM alrededor de 2003-2007, aceleró el progreso en ocho áreas principales: [23] [108] [106]
Todos los principales sistemas comerciales de reconocimiento de voz (por ejemplo, Microsoft Cortana , Xbox , Skype Translator , Amazon Alexa , Google Now , Apple Siri , búsqueda por voz de Baidu e iFlyTek y una gama de productos de voz de Nuance , etc.) se basan en el aprendizaje profundo. [23] [181] [182]
Un conjunto de evaluación común para la clasificación de imágenes es el conjunto de datos de la base de datos MNIST . MNIST está compuesto de dígitos escritos a mano e incluye 60.000 ejemplos de entrenamiento y 10.000 ejemplos de prueba. Al igual que con TIMIT, su pequeño tamaño permite a los usuarios probar múltiples configuraciones. Hay disponible una lista completa de resultados de este conjunto. [183]
El reconocimiento de imágenes basado en el aprendizaje profundo se ha vuelto "sobrehumano", ya que produce resultados más precisos que los de los participantes humanos. Esto ocurrió por primera vez en 2011 con el reconocimiento de señales de tráfico y, en 2014, con el reconocimiento de rostros humanos. [184] [185]
Los vehículos entrenados mediante aprendizaje profundo ahora interpretan vistas de cámara de 360°. [186] Otro ejemplo es el Análisis Novel de Dismorfología Facial (FDNA) utilizado para analizar casos de malformaciones humanas conectados a una gran base de datos de síndromes genéticos.
Estrechamente relacionado con el progreso que se ha logrado en el reconocimiento de imágenes está la creciente aplicación de técnicas de aprendizaje profundo a diversas tareas de arte visual. Las redes neuronales profundas han demostrado ser capaces, por ejemplo, de:
Las redes neuronales se han utilizado para implementar modelos de lenguaje desde principios de la década de 2000. [149] LSTM ayudó a mejorar la traducción automática y el modelado del lenguaje. [150] [151] [152]
Otras técnicas clave en este campo son el muestreo negativo [189] y la incrustación de palabras . La incrustación de palabras, como word2vec , puede considerarse como una capa de representación en una arquitectura de aprendizaje profundo que transforma una palabra atómica en una representación posicional de la palabra en relación con otras palabras en el conjunto de datos; la posición se representa como un punto en un espacio vectorial . El uso de la incrustación de palabras como una capa de entrada de RNN permite que la red analice oraciones y frases utilizando una gramática vectorial compositiva eficaz. Una gramática vectorial compositiva puede considerarse como una gramática probabilística libre de contexto (PCFG) implementada por una RNN. [190] Los autocodificadores recursivos construidos sobre incrustaciones de palabras pueden evaluar la similitud de oraciones y detectar paráfrasis. [190] Las arquitecturas neuronales profundas proporcionan los mejores resultados para el análisis de distritos electorales, [191] análisis de sentimientos , [192] recuperación de información, [193] [194] comprensión del lenguaje hablado, [195] traducción automática, [150] [196] vinculación de entidades contextuales, [196] reconocimiento de estilo de escritura, [197] reconocimiento de entidades nombradas (clasificación de tokens), [198] clasificación de texto y otros. [199]
Los desarrollos recientes generalizan la incrustación de palabras a la incrustación de oraciones .
Google Translate (GT) utiliza una gran red de memoria a corto plazo (LSTM) de extremo a extremo . [200] [201] [202] [203] Google Neural Machine Translation (GNMT) utiliza un método de traducción automática basado en ejemplos en el que el sistema "aprende de millones de ejemplos". [201] Traduce "oraciones completas a la vez, en lugar de fragmentos". Google Translate admite más de cien idiomas. [201] La red codifica la "semántica de la oración en lugar de simplemente memorizar traducciones frase por frase". [201] [204] GT utiliza el inglés como intermediario entre la mayoría de los pares de idiomas. [204]
En 2023, Murray et al. desarrollaron una arquitectura de aprendizaje profundo capaz de determinar si un acusado debería ser juzgado como niño o como adulto. Su software pudo estimar la edad del sujeto con una precisión significativa. El mismo equipo ha desarrollado arquitecturas capaces de realizar comparaciones ante-mortem y post-mortem y determinar el sexo del sujeto. [205]
Un gran porcentaje de fármacos candidatos no consigue la aprobación regulatoria. Estos fracasos se deben a una eficacia insuficiente (efecto en el objetivo), interacciones no deseadas (efectos fuera del objetivo) o efectos tóxicos imprevistos . [206] [207] La investigación ha explorado el uso del aprendizaje profundo para predecir los objetivos biomoleculares , [208] [209] los efectos fuera del objetivo y los efectos tóxicos de los productos químicos ambientales en nutrientes, productos domésticos y medicamentos. [210] [211] [212]
AtomNet es un sistema de aprendizaje profundo para el diseño racional de fármacos basado en la estructura . [213] AtomNet se utilizó para predecir nuevas biomoléculas candidatas para enfermedades como el virus del Ébola [214] y la esclerosis múltiple . [215] [214]
En 2017, se utilizaron por primera vez redes neuronales gráficas para predecir varias propiedades de moléculas en un gran conjunto de datos toxicológicos. [216] En 2019, se utilizaron redes neuronales generativas para producir moléculas que se validaron experimentalmente en ratones. [217] [218]
El aprendizaje por refuerzo profundo se ha utilizado para aproximar el valor de posibles acciones de marketing directo , definidas en términos de variables RFM . Se ha demostrado que la función de valor estimada tiene una interpretación natural como valor de vida del cliente . [219]
Los sistemas de recomendación han utilizado el aprendizaje profundo para extraer características significativas para un modelo de factor latente para recomendaciones de música y revistas basadas en contenido. [220] [221] El aprendizaje profundo de múltiples vistas se ha aplicado para conocer las preferencias de los usuarios de múltiples dominios. [222] El modelo utiliza un enfoque híbrido colaborativo y basado en contenido y mejora las recomendaciones en múltiples tareas.
Se utilizó una ANN autocodificadora en bioinformática para predecir anotaciones de ontología genética y relaciones entre genes y funciones. [223]
En informática médica, se utilizó el aprendizaje profundo para predecir la calidad del sueño basándose en datos de dispositivos portátiles [224] y predicciones de complicaciones de salud a partir de datos de registros médicos electrónicos . [225]
Las redes neuronales profundas han demostrado un rendimiento incomparable en la predicción de la estructura de las proteínas , según la secuencia de los aminoácidos que la componen. En 2020, AlphaFold , un sistema basado en aprendizaje profundo, logró un nivel de precisión significativamente superior a todos los métodos computacionales anteriores. [226] [227]
Las redes neuronales profundas se pueden utilizar para estimar la entropía de un proceso estocástico y se denominan Estimador de entropía conjunta neuronal (NJEE). [228] Dicha estimación proporciona información sobre los efectos de las variables aleatorias de entrada en una variable aleatoria independiente . En la práctica, la DNN se entrena como un clasificador que asigna un vector o matriz de entrada X a una distribución de probabilidad de salida sobre las posibles clases de la variable aleatoria Y, dada la entrada X. Por ejemplo, en tareas de clasificación de imágenes , el NJEE asigna un vector de valores de color de píxeles a probabilidades sobre posibles clases de imágenes. En la práctica, la distribución de probabilidad de Y se obtiene mediante una capa Softmax con un número de nodos que es igual al tamaño del alfabeto de Y. El NJEE utiliza funciones de activación continuamente diferenciables , de modo que se cumplen las condiciones para el teorema de aproximación universal . Se muestra que este método proporciona un estimador fuertemente consistente y supera a otros métodos en caso de tamaños de alfabeto grandes. [228]
Se ha demostrado que el aprendizaje profundo produce resultados competitivos en aplicaciones médicas como la clasificación de células cancerosas, la detección de lesiones, la segmentación de órganos y la mejora de imágenes. [229] [230] Las herramientas modernas de aprendizaje profundo demuestran la alta precisión en la detección de diversas enfermedades y la utilidad de su uso por parte de los especialistas para mejorar la eficiencia del diagnóstico. [231] [232]
Encontrar la audiencia móvil adecuada para la publicidad móvil siempre es un desafío, ya que se deben considerar y analizar muchos puntos de datos antes de que un segmento objetivo pueda crearse y usarse en la publicación de anuncios por parte de cualquier servidor de anuncios. [233] El aprendizaje profundo se ha utilizado para interpretar conjuntos de datos publicitarios grandes y multidimensionales. Muchos puntos de datos se recopilan durante el ciclo de solicitud/publicidad/clic en Internet. Esta información puede formar la base del aprendizaje automático para mejorar la selección de anuncios.
El aprendizaje profundo se ha aplicado con éxito a problemas inversos como la eliminación de ruido , la superresolución , la restauración de imágenes y la coloración de películas . [234] Estas aplicaciones incluyen métodos de aprendizaje como "Campos de contracción para una restauración de imágenes efectiva" [235] que se entrena en un conjunto de datos de imágenes, y Deep Image Prior , que se entrena en la imagen que necesita restauración.
El aprendizaje profundo se está aplicando con éxito a la detección de fraude financiero , evasión fiscal [236] y lucha contra el lavado de dinero. [237]
En noviembre de 2023, los investigadores de Google DeepMind y del Laboratorio Nacional Lawrence Berkeley anunciaron que habían desarrollado un sistema de IA conocido como GNoME. Este sistema ha contribuido a la ciencia de los materiales al descubrir más de 2 millones de materiales nuevos en un período de tiempo relativamente corto. GNoME emplea técnicas de aprendizaje profundo para explorar de manera eficiente las posibles estructuras de los materiales, logrando un aumento significativo en la identificación de estructuras cristalinas inorgánicas estables . Las predicciones del sistema se validaron a través de experimentos robóticos autónomos, demostrando una notable tasa de éxito del 71%. Los datos de los materiales recién descubiertos están disponibles públicamente a través de la base de datos del Proyecto de Materiales , lo que ofrece a los investigadores la oportunidad de identificar materiales con las propiedades deseadas para diversas aplicaciones. Este desarrollo tiene implicaciones para el futuro del descubrimiento científico y la integración de la IA en la investigación de la ciencia de los materiales, acelerando potencialmente la innovación de materiales y reduciendo los costos en el desarrollo de productos. El uso de la IA y el aprendizaje profundo sugiere la posibilidad de minimizar o eliminar los experimentos manuales de laboratorio y permitir que los científicos se concentren más en el diseño y análisis de compuestos únicos. [238] [239] [240]
El Departamento de Defensa de los Estados Unidos aplicó el aprendizaje profundo para entrenar robots en nuevas tareas a través de la observación. [241]
Las redes neuronales informadas por la física se han utilizado para resolver ecuaciones diferenciales parciales en problemas tanto directos como inversos de una manera basada en datos. [242] Un ejemplo es la reconstrucción del flujo de fluidos gobernado por las ecuaciones de Navier-Stokes . El uso de redes neuronales informadas por la física no requiere la generación de mallas, a menudo costosa, en la que se basan los métodos CFD convencionales . [243] [244]
El método de ecuación diferencial estocástica hacia atrás profunda es un método numérico que combina el aprendizaje profundo con la ecuación diferencial estocástica hacia atrás (BSDE). Este método es particularmente útil para resolver problemas de alta dimensión en matemáticas financieras. Al aprovechar las poderosas capacidades de aproximación de funciones de las redes neuronales profundas , la BSDE profunda aborda los desafíos computacionales que enfrentan los métodos numéricos tradicionales en entornos de alta dimensión. Específicamente, los métodos tradicionales como los métodos de diferencias finitas o las simulaciones de Monte Carlo a menudo luchan con la maldición de la dimensionalidad, donde el costo computacional aumenta exponencialmente con el número de dimensiones. Los métodos BSDE profundos, sin embargo, emplean redes neuronales profundas para aproximar soluciones de ecuaciones diferenciales parciales (PDE) de alta dimensión, lo que reduce efectivamente la carga computacional. [245]
Además, la integración de redes neuronales informadas por la física (PINN) en el marco BSDE profundo mejora su capacidad al incorporar las leyes físicas subyacentes directamente en la arquitectura de la red neuronal. Esto garantiza que las soluciones no solo se ajusten a los datos, sino que también cumplan con las ecuaciones diferenciales estocásticas que las rigen. Las PINN aprovechan el poder del aprendizaje profundo al tiempo que respetan las limitaciones impuestas por los modelos físicos, lo que da como resultado soluciones más precisas y confiables para los problemas de matemáticas financieras.
La reconstrucción de imágenes es la reconstrucción de las imágenes subyacentes a partir de las mediciones relacionadas con las imágenes. Varios trabajos demostraron que los métodos de aprendizaje profundo tienen un rendimiento mejor y superior al de los métodos analíticos para diversas aplicaciones, por ejemplo, imágenes espectrales [246] e imágenes por ultrasonidos. [247]
Los sistemas tradicionales de predicción meteorológica resuelven un sistema muy complejo de ecuaciones diferenciales parciales. GraphCast es un modelo basado en aprendizaje profundo, entrenado con un largo historial de datos meteorológicos para predecir cómo cambian los patrones meteorológicos con el tiempo. Es capaz de predecir las condiciones meteorológicas para hasta 10 días a nivel mundial, con un nivel muy detallado y en menos de un minuto, con una precisión similar a la de los sistemas de última generación. [248] [249]
Un reloj epigenético es una prueba bioquímica que se puede utilizar para medir la edad. Galkin et al. utilizaron redes neuronales profundas para entrenar un reloj de envejecimiento epigenético de precisión sin precedentes utilizando >6000 muestras de sangre. [250] El reloj utiliza información de 1000 sitios CpG y predice que las personas con ciertas afecciones serán mayores que los controles sanos: EII , demencia frontotemporal , cáncer de ovario , obesidad . El reloj de envejecimiento estaba previsto que se lanzara para uso público en 2021 por una empresa derivada de Insilico Medicine, Deep Longevity.
El aprendizaje profundo está estrechamente relacionado con una clase de teorías del desarrollo cerebral (específicamente, el desarrollo neocortical) propuestas por neurocientíficos cognitivos a principios de la década de 1990. [251] [252] [253] [254] Estas teorías del desarrollo se instanciaron en modelos computacionales, lo que las convierte en predecesoras de los sistemas de aprendizaje profundo. Estos modelos de desarrollo comparten la propiedad de que varias dinámicas de aprendizaje propuestas en el cerebro (por ejemplo, una onda del factor de crecimiento nervioso ) respaldan la autoorganización de manera algo análoga a las redes neuronales utilizadas en los modelos de aprendizaje profundo. Al igual que el neocórtex , las redes neuronales emplean una jerarquía de filtros en capas en la que cada capa considera la información de una capa anterior (o el entorno operativo) y luego pasa su salida (y posiblemente la entrada original) a otras capas. Este proceso produce una pila autoorganizada de transductores , bien ajustados a su entorno operativo. Una descripción de 1995 afirmaba: "... el cerebro del bebé parece organizarse bajo la influencia de ondas de los llamados factores tróficos... diferentes regiones del cerebro se conectan secuencialmente, con una capa de tejido madurando antes que otra y así sucesivamente hasta que todo el cerebro está maduro". [255]
Se han utilizado diversos enfoques para investigar la plausibilidad de los modelos de aprendizaje profundo desde una perspectiva neurobiológica. Por un lado, se han propuesto varias variantes del algoritmo de retropropagación con el fin de aumentar su realismo de procesamiento. [256] [257] Otros investigadores han argumentado que las formas no supervisadas de aprendizaje profundo, como las basadas en modelos generativos jerárquicos y redes de creencias profundas , pueden estar más cerca de la realidad biológica. [258] [259] En este sentido, los modelos de redes neuronales generativas se han relacionado con la evidencia neurobiológica sobre el procesamiento basado en muestreo en la corteza cerebral. [260]
Aunque todavía no se ha establecido una comparación sistemática entre la organización del cerebro humano y la codificación neuronal en redes profundas, se han reportado varias analogías. Por ejemplo, los cálculos realizados por unidades de aprendizaje profundo podrían ser similares a los de las neuronas reales [261] y las poblaciones neuronales. [262] De manera similar, las representaciones desarrolladas por modelos de aprendizaje profundo son similares a las medidas en el sistema visual de los primates [263] tanto a nivel de unidad individual [264] como a nivel de población [265] .
El laboratorio de inteligencia artificial de Facebook realiza tareas como etiquetar automáticamente las imágenes cargadas con los nombres de las personas que aparecen en ellas. [266]
DeepMind Technologies de Google desarrolló un sistema capaz de aprender a jugar a los videojuegos de Atari utilizando solo píxeles como entrada de datos. En 2015, demostraron su sistema AlphaGo , que aprendió el juego de Go lo suficientemente bien como para vencer a un jugador profesional de Go. [267] [268] [269] Google Translate utiliza una red neuronal para traducir entre más de 100 idiomas.
En 2017, se lanzó Covariant.ai, que se centra en integrar el aprendizaje profundo en las fábricas. [270]
A partir de 2008, [271] investigadores de la Universidad de Texas en Austin (UT) desarrollaron un marco de aprendizaje automático llamado Entrenamiento manual de un agente mediante refuerzo evaluativo, o TAMER, que proponía nuevos métodos para que los robots o los programas informáticos aprendieran a realizar tareas interactuando con un instructor humano. [241] Desarrollado inicialmente como TAMER, un nuevo algoritmo llamado Deep TAMER se introdujo más tarde en 2018 durante una colaboración entre el Laboratorio de Investigación del Ejército de EE. UU. (ARL) e investigadores de UT. Deep TAMER utilizó el aprendizaje profundo para proporcionar a un robot la capacidad de aprender nuevas tareas a través de la observación. [241] Con Deep TAMER, un robot aprendió una tarea con un entrenador humano, viendo transmisiones de video u observando a un humano realizar una tarea en persona. Posteriormente, el robot practicó la tarea con la ayuda de algún entrenamiento del entrenador, quien proporcionó comentarios como "buen trabajo" y "mal trabajo". [272]
El aprendizaje profundo ha atraído tanto críticas como comentarios, en algunos casos desde fuera del campo de la informática.
Una crítica principal se refiere a la falta de teoría en torno a algunos métodos. [273] El aprendizaje en las arquitecturas profundas más comunes se implementa utilizando un descenso de gradiente bien entendido. Sin embargo, la teoría que rodea a otros algoritmos, como la divergencia contrastiva, es menos clara. [ cita requerida ] (por ejemplo, ¿converge? Si es así, ¿qué tan rápido? ¿A qué se aproxima?) Los métodos de aprendizaje profundo a menudo se consideran una caja negra , con la mayoría de las confirmaciones realizadas empíricamente, en lugar de teóricamente. [274]
Otros señalan que el aprendizaje profundo debe considerarse un paso hacia la consecución de una IA potente , no una solución integral. A pesar del poder de los métodos de aprendizaje profundo, aún carecen de gran parte de la funcionalidad necesaria para alcanzar este objetivo por completo. El psicólogo investigador Gary Marcus señaló:
En términos realistas, el aprendizaje profundo es solo una parte del desafío más amplio de construir máquinas inteligentes. Estas técnicas carecen de formas de representar relaciones causales (...) no tienen formas obvias de realizar inferencias lógicas y también están muy lejos de integrar conocimiento abstracto, como información sobre qué son los objetos, para qué sirven y cómo se usan típicamente. Los sistemas de IA más poderosos, como Watson (...) usan técnicas como el aprendizaje profundo como solo un elemento en un conjunto muy complicado de técnicas, que van desde la técnica estadística de inferencia bayesiana hasta el razonamiento deductivo . [275]
En referencia adicional a la idea de que la sensibilidad artística podría ser inherente a niveles relativamente bajos de la jerarquía cognitiva, una serie publicada de representaciones gráficas de los estados internos de redes neuronales profundas (20-30 capas) que intentan discernir dentro de datos esencialmente aleatorios las imágenes en las que fueron entrenadas [276] demuestran un atractivo visual: el aviso de investigación original recibió más de 1.000 comentarios y fue el tema de lo que durante un tiempo fue el artículo al que se accedió con mayor frecuencia en el sitio web de The Guardian [277] .
Algunas arquitecturas de aprendizaje profundo presentan comportamientos problemáticos, [278] como clasificar con seguridad imágenes irreconocibles como pertenecientes a una categoría familiar de imágenes ordinarias (2014) [279] y clasificar erróneamente perturbaciones minúsculas de imágenes clasificadas correctamente (2013). [280] Goertzel planteó la hipótesis de que estos comportamientos se deben a limitaciones en sus representaciones internas y que estas limitaciones inhibirían la integración en arquitecturas de inteligencia artificial general (AGI) heterogéneas de múltiples componentes. [278] Estos problemas posiblemente se puedan abordar mediante arquitecturas de aprendizaje profundo que formen internamente estados homólogos a las descomposiciones de imágenes-gramaticales [281] de entidades y eventos observados. [278] Aprender una gramática (visual o lingüística) a partir de datos de entrenamiento sería equivalente a restringir el sistema al razonamiento de sentido común que opera sobre conceptos en términos de reglas de producción gramaticales y es un objetivo básico tanto de la adquisición del lenguaje humano [282] como de la inteligencia artificial (IA). [283]
A medida que el aprendizaje profundo pasa del laboratorio al mundo real, la investigación y la experiencia muestran que las redes neuronales artificiales son vulnerables a los ataques y al engaño. [284] Al identificar los patrones que estos sistemas utilizan para funcionar, los atacantes pueden modificar las entradas a las ANN de tal manera que la ANN encuentre una coincidencia que los observadores humanos no reconocerían. Por ejemplo, un atacante puede realizar cambios sutiles en una imagen de tal manera que la ANN encuentre una coincidencia aunque la imagen no se parezca en nada al objetivo de búsqueda para un humano. Tal manipulación se denomina " ataque adversarial ". [285]
En 2016, los investigadores utilizaron una ANN para manipular imágenes mediante ensayo y error, identificar los puntos focales de otra y, de ese modo, generar imágenes que la engañaran. Las imágenes modificadas no se veían diferentes a los ojos humanos. Otro grupo demostró que las impresiones de imágenes manipuladas y luego fotografiadas engañaron con éxito a un sistema de clasificación de imágenes. [286] Una defensa es la búsqueda inversa de imágenes, en la que una posible imagen falsa se envía a un sitio como TinEye que luego puede encontrar otras instancias de la misma. Un refinamiento es buscar utilizando solo partes de la imagen, para identificar imágenes de las que se puede haber tomado esa parte . [287]
Otro grupo demostró que ciertos espectáculos psicodélicos podían engañar a un sistema de reconocimiento facial para que pensara que la gente común era una celebridad, lo que potencialmente permitía que una persona se hiciera pasar por otra. En 2017, unos investigadores añadieron pegatinas a las señales de stop y provocaron que una red neuronal artificial las clasificara erróneamente. [286]
Sin embargo, las ANN pueden ser entrenadas aún más para detectar intentos de engaño , lo que podría llevar a los atacantes y defensores a una carrera armamentista similar a la que ya define la industria de defensa contra malware . Las ANN han sido entrenadas para derrotar al software anti- malware basado en ANN atacando repetidamente una defensa con malware que fue alterado continuamente por un algoritmo genético hasta que engañó al anti-malware mientras conservaba su capacidad de dañar el objetivo. [286]
En 2016, otro grupo demostró que ciertos sonidos podían hacer que el sistema de comandos de voz de Google Now abriera una dirección web en particular, y planteó la hipótesis de que esto podría "servir como trampolín para futuros ataques (por ejemplo, abrir una página web que alberga malware drive-by)". [286]
En el " envenenamiento de datos ", se introducen continuamente datos falsos en el conjunto de entrenamiento de un sistema de aprendizaje automático para evitar que logre dominarlo. [286]
La mayoría de los sistemas de aprendizaje profundo se basan en datos de entrenamiento y verificación generados y/o anotados por humanos. [288] Se ha argumentado en la filosofía de los medios que no solo se implementa regularmente el trabajo de clic mal pagado (por ejemplo, en Amazon Mechanical Turk ) para este propósito, sino también formas implícitas de microtrabajo humano que a menudo no se reconocen como tales. [289] El filósofo Rainer Mühlhoff distingue cinco tipos de "captura maquínica" de microtrabajo humano para generar datos de entrenamiento: (1) gamificación (la incrustación de tareas de anotación o cálculo en el flujo de un juego), (2) "captura y seguimiento" (por ejemplo, CAPTCHA para reconocimiento de imágenes o seguimiento de clics en las páginas de resultados de búsqueda de Google ), (3) explotación de motivaciones sociales (por ejemplo, etiquetar rostros en Facebook para obtener imágenes faciales etiquetadas), (4) minería de información (por ejemplo, aprovechando dispositivos de yo cuantificado como rastreadores de actividad ) y (5) trabajo de clic . [289]
Mühlhoff sostiene que en la mayoría de las aplicaciones comerciales de aprendizaje profundo para usuarios finales, como el sistema de reconocimiento facial de Facebook , la necesidad de datos de entrenamiento no se detiene una vez que se entrena una ANN. Más bien, existe una demanda continua de datos de verificación generados por humanos para calibrar y actualizar constantemente la ANN. Para este propósito, Facebook introdujo la función de que una vez que un usuario es reconocido automáticamente en una imagen, recibe una notificación. Puede elegir si desea o no ser etiquetado públicamente en la imagen, o decirle a Facebook que no es él el que está en la imagen. [290] Esta interfaz de usuario es un mecanismo para generar "un flujo constante de datos de verificación" [289] para entrenar aún más la red en tiempo real. Como sostiene Mühlhoff, la participación de usuarios humanos para generar datos de entrenamiento y verificación es tan típica para la mayoría de las aplicaciones comerciales de aprendizaje profundo para usuarios finales que dichos sistemas pueden denominarse "inteligencia artificial asistida por humanos". [289]
{{cite journal}}
: CS1 maint: DOI inactive as of August 2024 (link){{cite book}}
: CS1 maint: multiple names: authors list (link){{cite book}}
: CS1 maint: postscript (link)