Jürgen Schmidhuber (nacido el 17 de enero de 1963) [1] es un informático alemán conocido por su trabajo en el campo de la inteligencia artificial , específicamente las redes neuronales artificiales . Es director científico del Instituto Dalle Molle para la Investigación de Inteligencia Artificial en Suiza . [2] También es director de la Iniciativa de Inteligencia Artificial y profesor del programa de Ciencias de la Computación en la división de Ciencias e Ingeniería Informática, Eléctrica y Matemática (CEMSE) de la Universidad de Ciencia y Tecnología Rey Abdullah (KAUST) en Arabia Saudita . [3]
Es mejor conocido por su trabajo fundamental y muy citado [4] sobre la memoria a corto plazo (LSTM), un tipo de arquitectura de red neuronal que se convirtió en la técnica dominante para diversas tareas de procesamiento del lenguaje natural en aplicaciones comerciales y de investigación. en la década de 2010. También introdujo principios de metaaprendizaje , redes generativas adversarias [5] [6] [7] y transformadores lineales , [8] [9] [7], todos los cuales están muy extendidos en la IA moderna.
Schmidhuber completó sus estudios de pregrado (1987) y doctorado (1991) en la Universidad Técnica de Munich en Munich , Alemania. [1] Sus asesores de doctorado fueron Wilfried Brauer y Klaus Schulten . [10] Enseñó allí desde 2004 hasta 2009. Desde 2009, [11] hasta 2021, fue profesor de inteligencia artificial en la Università della Svizzera Italiana en Lugano , Suiza. [1]
Se ha desempeñado como director del Instituto Dalle Molle para la Investigación de Inteligencia Artificial (IDSIA), un laboratorio suizo de IA, desde 1995. [1]
En 2014, Schmidhuber formó una empresa, Nnaisense, para trabajar en aplicaciones comerciales de inteligencia artificial en campos como las finanzas, la industria pesada y los vehículos autónomos . Sepp Hochreiter , Jaan Tallinn y Marcus Hutter son asesores de la empresa. [2] Las ventas fueron inferiores a 11 millones de dólares estadounidenses en 2016; Sin embargo, Schmidhuber afirma que actualmente el énfasis está en la investigación y no en los ingresos. Nnaisense recaudó su primera ronda de financiación de capital en enero de 2017. El objetivo general de Schmidhuber es crear una IA multipropósito entrenando una sola IA en secuencia en una variedad de tareas específicas. [12]
En la década de 1980, la retropropagación no funcionó bien para el aprendizaje profundo con rutas largas de asignación de créditos en redes neuronales artificiales . Para superar este problema, Schmidhuber (1991) propuso una jerarquía de redes neuronales recurrentes (RNN) preentrenadas de un nivel a la vez mediante aprendizaje autosupervisado . [13] Utiliza codificación predictiva para aprender representaciones internas en múltiples escalas de tiempo autoorganizadas. Esto puede facilitar sustancialmente el aprendizaje profundo posterior. La jerarquía RNN se puede colapsar en un solo RNN, destilando una red fragmentadora de nivel superior en una red automatizadora de nivel inferior . [13] [14] En 1993, un fragmentador resolvió una tarea de aprendizaje profundo cuya profundidad excedía los 1000. [15]
En 1991, Schmidhuber publicó redes neuronales adversarias que compiten entre sí en forma de un juego de suma cero , donde la ganancia de una red es la pérdida de la otra. [5] [16] [6] [7] La primera red es un modelo generativo que modela una distribución de probabilidad sobre patrones de salida. La segunda red aprende mediante descenso de gradiente a predecir las reacciones del entorno a estos patrones. A esto se le llamó "curiosidad artificial". En 2014, este principio se utilizó en una red generativa adversaria donde la reacción ambiental es 1 o 0 dependiendo de si la salida de la primera red está en un conjunto determinado. Esto se puede utilizar para crear deepfakes realistas . [7]
Schmidhuber supervisó la tesis de diploma de 1991 de su alumno Sepp Hochreiter [17] y la llamó "uno de los documentos más importantes en la historia del aprendizaje automático". [14] No solo probó el compresor de historia neuronal, [13] sino que también analizó y superó el problema del gradiente de fuga . Esto llevó al método de aprendizaje profundo llamado memoria a corto plazo (LSTM), un tipo de red neuronal recurrente . El nombre LSTM se introdujo en un informe técnico (1995) que condujo a la publicación LSTM más citada (1997), en coautoría de Hochreiter y Schmidhuber. [18] La arquitectura LSTM estándar que se utiliza en casi todas las aplicaciones actuales fue introducida en 2000 por Felix Gers , Schmidhuber y Fred Cummins. [19] El "LSTM vainilla" actual que utiliza retropropagación a través del tiempo se publicó con su alumno Alex Graves en 2005, [20] [21] y su algoritmo de entrenamiento de clasificación temporal conexionista (CTC) [22] en 2006. CTC permitió el finalizar el reconocimiento de voz con LSTM. En la década de 2010, LSTM se convirtió en la técnica dominante para una variedad de tareas de procesamiento del lenguaje natural, incluido el reconocimiento de voz y la traducción automática , y se implementó ampliamente en tecnologías comerciales como Google Translate y Siri . [23] LSTM se ha convertido en la red neuronal más citada del siglo XX. [14] LSTM fue llamado "posiblemente el logro de IA más comercial". [23]
En 2015, Rupesh Kumar Srivastava, Klaus Greff y Schmidhuber utilizaron los principios de LSTM para crear la red Highway , una red neuronal feedforward con cientos de capas, mucho más profunda que las redes anteriores. [7] [24] [25] 7 meses después, el concurso ImageNet 2015 se ganó con una variante de red de autopistas con puertas abiertas o sin puertas llamada Red neuronal residual . [26] Esta se ha convertido en la red neuronal más citada del siglo XXI. [14]
Desde 2018, los transformadores han superado a LSTM como la arquitectura de red neuronal dominante en el procesamiento del lenguaje natural [27] a través de grandes modelos de lenguaje como ChatGPT . Ya en 1992, Schmidhuber publicó una alternativa a las redes neuronales recurrentes [8] que ahora se llama Transformador con autoatención linealizada [7] [9] [28] [14] (salvo un operador de normalización). Aprende focos de atención internos : [29] una red neuronal de avance lento aprende mediante descenso de gradiente a controlar los pesos rápidos de otra red neuronal a través de productos externos de patrones de activación autogenerados DESDE y HACIA (que ahora se denominan clave y valor para uno mismo) . -atención ). [9] Este rápido mapeo de atención de peso se aplica a un patrón de consulta.
En 2011, el equipo de Schmidhuber en IDSIA con su postdoctorado Dan Ciresan también logró aceleraciones espectaculares de las redes neuronales convolucionales (CNN) en rápidas computadoras paralelas llamadas GPU . Una CNN anterior sobre GPU de Chellapilla et al. (2006) fue 4 veces más rápido que una implementación equivalente en CPU. [30] La profunda CNN de Dan Ciresan et al. (2011) en IDSIA ya era 60 veces más rápido [31] y logró la primera actuación sobrehumana en un concurso de visión por computadora en agosto de 2011. [32] Entre el 15 de mayo de 2011 y el 10 de septiembre de 2012, sus rápidas y profundas CNN ganaron no menos de cuatro concursos de imagen. [33] [34] También mejoraron significativamente el mejor rendimiento en la literatura para múltiples bases de datos de imágenes. [35] El enfoque se ha vuelto central en el campo de la visión por computadora . [34] Se basa en diseños de CNN presentados mucho antes por Yann LeCun et al. (1989) [36] quienes aplicaron el algoritmo de retropropagación a una variante de la arquitectura CNN original de Kunihiko Fukushima llamada neocognitron , [37] modificado posteriormente por el método de J. Weng llamado max-pooling . [38] [34]
Schmidhuber ha argumentado polémicamente que a él y a otros investigadores se les ha negado el reconocimiento adecuado por su contribución al campo del aprendizaje profundo , a favor de Geoffrey Hinton , Yoshua Bengio y Yann LeCun , quienes compartieron el Premio Turing 2018 por su trabajo en aprendizaje profundo. [2] [23] [39] Escribió un artículo "mordaz" en 2015 argumentando que Hinton, Bengio y Lecun "se citan mucho entre sí" pero "no dan crédito a los pioneros en el campo". [39] En una declaración al New York Times , Yann LeCun escribió que "Jürgen está obsesionado maníacamente con el reconocimiento y sigue reclamando crédito que no merece por muchas, muchas cosas... Esto le hace levantarse sistemáticamente al final. de cada charla y reclamar el crédito por lo que se acaba de presentar, generalmente no de manera justificada". [2] Schmidhuber respondió que LeCun hizo esto "sin ninguna justificación, sin dar un solo ejemplo", [40] y publicó detalles de numerosas disputas de prioridad con Hinton, Bengio y LeCun. [41] [42]
El término "schmidhubered" se ha utilizado en broma en la comunidad de IA para describir el hábito de Schmidhuber de desafiar públicamente la originalidad del trabajo de otros investigadores, una práctica vista por algunos miembros de la comunidad de IA como un "rito de iniciación" para los investigadores jóvenes. Algunos sugieren que los importantes logros de Schmidhuber han sido subestimados debido a su personalidad conflictiva. [43] [23]
Schmidhuber recibió el Premio Helmholtz de la Sociedad Internacional de Redes Neurales en 2013, [44] y el Premio Pionero en Redes Neurales de la Sociedad de Inteligencia Computacional IEEE en 2016 [45] por "contribuciones pioneras al aprendizaje profundo y las redes neuronales". [1] Es miembro de la Academia Europea de Ciencias y Artes . [46] [11]
Se le ha referido como el "padre de la IA moderna" o similar, [7] [2] [47] [48] [49] [50] [51] [52] [53] [54] [ 55] [ 23] y también el "padre del aprendizaje profundo". [56] [49] El propio Schmidhuber, sin embargo, ha llamado a Alexey Grigorevich Ivakhnenko el "padre del aprendizaje profundo" [57] y da crédito a muchos pioneros de la IA incluso anteriores. [14]
Schmidhuber afirma que "en el 95% de los casos, la investigación en IA se centra realmente en nuestro antiguo lema: hacer que la vida humana sea más larga, más saludable y más fácil". [53] Admite que "las mismas herramientas que ahora se utilizan para mejorar vidas pueden ser utilizadas por los malos actores", pero enfatiza que "también pueden usarse contra los malos actores". [52]
No cree que la IA represente una "nueva calidad de amenaza existencial" y está más preocupado por las viejas ojivas nucleares que pueden "acabar con la civilización humana en dos horas, sin ninguna IA". [7] "Una gran cabeza nuclear no necesita un sofisticado reconocimiento facial para matar a un individuo. No, simplemente arrasa con una ciudad entera con 10 millones de habitantes." [7]
Desde los años 70, Schmidhuber quería crear "máquinas inteligentes que pudieran aprender y mejorar por sí mismas y llegar a ser más inteligentes que él durante su vida". [7] Diferencia entre dos tipos de IA: herramientas de IA dirigidas por humanos, en particular para mejorar la atención sanitaria, y IA más interesantes que "están estableciendo sus propios objetivos", inventando sus propios experimentos y aprendiendo de ellos, como científicos curiosos. Ha trabajado en ambos tipos durante décadas [7] y ha predicho que las versiones ampliadas de los científicos de IA eventualmente "irán donde están la mayoría de los recursos físicos, para construir más IA y más grandes". Dentro de "unas pocas decenas de miles de millones de años, curiosas IA automejoradas colonizarán el cosmos visible de una manera que es inviable para los humanos. Aquellos que no lo hagan no tendrán ningún impacto". [7] Dijo: "no piensen en los humanos como la corona de la creación. En cambio, vean la civilización humana como parte de un plan mucho más amplio, un paso importante (pero no el último) en el camino del universo desde muy lejos. condiciones iniciales simples hacia una complejidad cada vez más insondable. Ahora parece estar listo para dar el siguiente paso, un paso comparable a la invención de la vida misma hace más de 3.500 millones de años". [7]
Apoya firmemente el movimiento de código abierto y cree que va a "desafiar cualquier dominio de las grandes tecnologías que pueda haber en este momento", también porque la IA sigue siendo 100 veces más barata por década. [7]