Conexionismo (acuñado por Edward Thorndike en 1931 [1] ) es el nombre de un enfoque para el estudio de los procesos mentales y la cognición humanos que utiliza modelos matemáticos conocidos como redes conexionistas o redes neuronales artificiales. [2] El conexionismo ha tenido muchas 'olas' desde sus inicios.
La primera ola apareció en 1943 con Warren Sturgis McCulloch y Walter Pitts, ambos centrándose en comprender los circuitos neuronales a través de un enfoque formal y matemático, [3] y Frank Rosenblatt , quien publicó el libro de 1958 "El perceptrón: un modelo probabilístico para el almacenamiento y organización de información en el mundo". Brain” en Psychoological Review , mientras trabajaba en el Laboratorio Aeronáutico de Cornell. [4] La primera ola terminó con el libro de 1969 sobre las limitaciones de la idea original del perceptrón, escrito por Marvin Minsky y Papert , que contribuyó a disuadir a las principales agencias de financiación de Estados Unidos de invertir en investigación conexionista. [5] Con algunas desviaciones notables, la mayoría de la investigación conexionista entró en un período de inactividad hasta mediados de los años 1980. El término modelo conexionista fue reintroducido a principios de la década de 1980 en un artículo sobre ciencia cognitiva escrito por Jerome Feldman y Dana Ballard.
La segunda ola floreció a finales de la década de 1980, tras el libro de 1987 sobre procesamiento distribuido paralelo de James L. McClelland , David E. Rumelhart et al., que introdujo un par de mejoras a la idea del perceptrón simple, como procesadores intermedios (conocidos como " capas ocultas " ahora) junto con las unidades de entrada y salida y utilizó la función de activación sigmoidea en lugar de la antigua función de 'todo o nada'. Su trabajo, a su vez, se ha basado en el de John Hopfield , quien fue una figura clave en la investigación de las características matemáticas de las funciones de activación sigmoidea. [4] Desde finales de los años 1980 hasta mediados de los años 1990, el conexionismo adquirió un tono casi revolucionario cuando Schneider, [6] Terence Horgan y Tienson plantearon la cuestión de si el conexionismo representaba un cambio fundamental en la psicología y GOFAI . [4] Algunas ventajas del enfoque conexionista de la segunda ola incluyeron su aplicabilidad a una amplia gama de funciones, la aproximación estructural a las neuronas biológicas, los bajos requisitos de estructura innata y la capacidad de degradación elegante . [7] Algunas desventajas del enfoque conexionista de la segunda ola incluyeron la dificultad para descifrar cómo las RNA procesan la información o explican la composicionalidad de las representaciones mentales, y la dificultad resultante para explicar los fenómenos a un nivel superior. [8]
La (tercera) ola actual ha estado marcada por avances en el aprendizaje profundo que permiten modelos de lenguaje grandes . [4] El éxito de las redes de aprendizaje profundo en la última década ha aumentado considerablemente la popularidad de este enfoque, pero la complejidad y escala de dichas redes ha traído consigo mayores problemas de interpretabilidad . [9]
El principio conexionista central es que los fenómenos mentales pueden describirse mediante redes interconectadas de unidades simples y a menudo uniformes. La forma de las conexiones y de las unidades puede variar de un modelo a otro. Por ejemplo, las unidades de la red podrían representar neuronas y las conexiones podrían representar sinapsis , como en el cerebro humano . Este principio ha sido visto como una alternativa al GOFAI y las teorías clásicas de la mente basadas en la computación simbólica, pero hasta qué punto los dos enfoques son compatibles ha sido objeto de mucho debate desde sus inicios. [9]
Los estados internos de cualquier red cambian con el tiempo debido a que las neuronas envían una señal a una capa siguiente de neuronas en el caso de una red feedforward, o a una capa anterior en el caso de una red recurrente. El descubrimiento de funciones de activación no lineales ha permitido la segunda ola de conexionismo.
Las redes neuronales siguen dos principios básicos:
La mayor parte de la variedad entre los modelos proviene de:
El trabajo conexionista en general no necesita ser biológicamente realista. [11] [12] [13] [14] [15] [16] [17] Un área donde se cree que los modelos conexionistas son biológicamente inverosímiles es con respecto a las redes de propagación de errores que se necesitan para respaldar el aprendizaje, [18] [19] pero la propagación de errores puede explicar parte de la actividad eléctrica generada biológicamente que se observa en el cuero cabelludo en potenciales relacionados con eventos como el N400 y el P600 , [20] y esto proporciona cierto apoyo biológico para una de las suposiciones clave del aprendizaje conexionista. procedimientos. Muchos modelos conexionistas recurrentes también incorporan la teoría de sistemas dinámicos . Muchos investigadores, como el conexionista Paul Smolensky , han argumentado que los modelos conexionistas evolucionarán hacia enfoques de sistemas dinámicos , no lineales , de alta dimensión y totalmente continuos .
Los precursores de los principios conexionistas se remontan a los primeros trabajos en psicología , como el de William James . [21] Las teorías psicológicas basadas en el conocimiento sobre el cerebro humano estuvieron de moda a finales del siglo XIX. Ya en 1869, el neurólogo John Hughlings Jackson defendía los sistemas distribuidos multinivel. Siguiendo esta línea, los Principios de Psicología de Herbert Spencer , tercera edición (1872), y el Proyecto para una Psicología Científica de Sigmund Freud (compuesto en 1895) propusieron teorías conexionistas o protoconexionistas. Estas tendían a ser teorías especulativas. Pero a principios del siglo XX, Edward Thorndike estaba experimentando con un aprendizaje que postulaba una red de tipo conexionista.
Las redes de Hopfield tuvieron precursores en el modelo de Ising gracias a Wilhelm Lenz (1920) y Ernst Ising (1925), aunque el modelo de Ising concebido por ellos no implicaba tiempo. Las simulaciones de Monte Carlo del modelo de Ising requirieron la llegada de las computadoras en la década de 1950. [22]
La primera ola comenzó en 1943 con Warren Sturgis McCulloch y Walter Pitts, ambos centrándose en comprender los circuitos neuronales a través de un enfoque formal y matemático. McCulloch y Pitts demostraron cómo los sistemas neuronales podrían implementar la lógica de primer orden : su artículo clásico "Un cálculo lógico de ideas inmanentes en la actividad nerviosa" (1943) es importante en este desarrollo. Fueron influenciados por el trabajo de Nicolas Rashevsky en la década de 1930 y la lógica simbólica al estilo de Principia Mathematica . [23] [4]
Hebb contribuyó en gran medida a las especulaciones sobre el funcionamiento neuronal y propuso un principio de aprendizaje, el aprendizaje hebbiano . Lashley abogó por las representaciones distribuidas como resultado de su incapacidad para encontrar algo parecido a un engrama localizado en años de experimentos con lesiones . Friedrich Hayek concibió el modelo de forma independiente, primero en un breve manuscrito inédito en 1920, [24] [25] y luego ampliado a un libro en 1952. [26]
Las máquinas Perceptrón fueron propuestas y construidas por Frank Rosenblatt , quien publicó el artículo de 1958 “El perceptrón: un modelo probabilístico para el almacenamiento y organización de información en el cerebro” en Psychological Review , mientras trabajaba en el Laboratorio Aeronáutico de Cornell. Citó a Hebb, Hayek, Uttley y Ashby como principales influencias.
Otra forma de modelo conexionista fue el marco de red relacional desarrollado por el lingüista Sydney Lamb en la década de 1960.
El grupo de investigación liderado por Widrow buscó empíricamente métodos para entrenar redes ADALINE de dos capas (MADALINE), con un éxito limitado. [27] [28]
Alexey Grigorevich Ivakhnenko y Valentin Lapa publicaron en 1965 un método para entrenar perceptrones de múltiples capas con niveles arbitrarios de pesos entrenables , llamado Método grupal de manejo de datos . Este método emplea un entrenamiento incremental capa por capa basado en análisis de regresión , donde las unidades inútiles en capas ocultas se eliminan con la ayuda de un conjunto de validación. [29] [30] [31]
Los primeros perceptrones multicapa entrenados mediante descenso de gradiente estocástico [32] fueron publicados en 1967 por Shun'ichi Amari . [33] En experimentos informáticos realizados por Saito, estudiante de Amari, un MLP de cinco capas con dos capas modificables aprendió representaciones internas útiles para clasificar clases de patrones no linealmente separables. [30]
En 1972, Shun'ichi Amari produjo un ejemplo temprano de red autoorganizada . [34]
Hubo cierto conflicto entre los investigadores de inteligencia artificial sobre para qué sirven las redes neuronales. Hacia finales de la década de 1960, hubo una pausa generalizada en la investigación y publicaciones sobre redes neuronales, "el invierno de las redes neuronales", que duró hasta la década de 1970, durante la cual el campo de la inteligencia artificial giró hacia métodos simbólicos. La publicación de Perceptrons (1969) suele considerarse un catalizador de este acontecimiento. [35] [36]
La segunda ola comenzó a principios de los años 1980. Algunas publicaciones clave incluyeron ( John Hopfield , 1982) [37] que popularizó las redes Hopfield , el artículo de 1986 que popularizó la retropropagación [38] y el libro de dos volúmenes de 1987 sobre el procesamiento distribuido paralelo (PDP) de James L. McClelland , David. E. Rumelhart et al., que ha introducido un par de mejoras a la idea del perceptrón simple, como procesadores intermedios (ahora conocidos como " capas ocultas ") junto con unidades de entrada y salida y el uso de la función de activación sigmoidea en lugar de la antigua "capa completa". función "o nada".
Hopfield abordó el campo desde la perspectiva de la mecánica estadística, proporcionando algunas formas tempranas de rigor matemático que aumentaron la respetabilidad percibida del campo. [4] Otra serie importante de publicaciones demostró que las redes neuronales son aproximadores de funciones universales , lo que también proporcionó cierta respetabilidad matemática. [39]
Durante este tiempo aparecieron algunos de los primeros proyectos de demostración popular. NETtalk (1987) aprendió a pronunciar inglés escrito. Logró éxito popular, apareciendo en el programa Today . [40] TD-Gammon (1992) alcanzó el máximo nivel humano en backgammon . [41]
A medida que el conexionismo se hizo cada vez más popular a finales de los años 1980, algunos investigadores (incluidos Jerry Fodor , Steven Pinker y otros) reaccionaron en su contra. Argumentaron que el conexionismo, tal como se estaba desarrollando entonces, amenazaba con borrar lo que consideraban el progreso realizado en los campos de la ciencia cognitiva y la psicología mediante el enfoque clásico del computacionalismo . El computacionalismo es una forma específica de cognitivismo que sostiene que la actividad mental es computacional , es decir, que la mente opera realizando operaciones puramente formales sobre símbolos, como una máquina de Turing . Algunos investigadores argumentaron que la tendencia del conexionismo representaba una reversión hacia el asociacionismo y el abandono de la idea de un lenguaje de pensamiento , algo que consideraban erróneo. Por el contrario, esas mismas tendencias hicieron que el conexionismo fuera atractivo para otros investigadores.
El conexionismo y el computacionalismo no tienen por qué estar reñidos, pero el debate de finales de los 80 y principios de los 90 condujo a una oposición entre los dos enfoques. A lo largo del debate, algunos investigadores han argumentado que el conexionismo y el computacionalismo son totalmente compatibles, aunque no se ha alcanzado un consenso total sobre esta cuestión. Las diferencias entre los dos enfoques incluyen las siguientes:
A pesar de estas diferencias, algunos teóricos han propuesto que la arquitectura conexionista es simplemente la manera en que los cerebros orgánicos implementan el sistema de manipulación de símbolos. Esto es lógicamente posible, ya que es bien sabido que los modelos conexionistas pueden implementar sistemas de manipulación de símbolos del tipo utilizado en los modelos computacionalistas, [42] como de hecho deben poder hacerlo si quieren explicar la capacidad humana para realizar tareas de manipulación de símbolos. . Se han propuesto varios modelos cognitivos que combinan arquitecturas de manipulación de símbolos y conexionistas. Entre ellos se encuentra la Arquitectura Cognitiva Simbólica/Conexionista Integrada (ICS) de Paul Smolensky . [9] [43] y CLARION (arquitectura cognitiva) de Ron Sun. Pero el debate se basa en si esta manipulación de símbolos constituye la base de la cognición en general, por lo que no se trata de una posible reivindicación del computacionalismo. No obstante, las descripciones computacionales pueden ser útiles para descripciones de alto nivel de la cognición de la lógica, por ejemplo.
El debate se centró en gran medida en argumentos lógicos sobre si las redes conexionistas podrían producir la estructura sintáctica observada en este tipo de razonamiento. Esto se logró más tarde aunque se utilizaron capacidades de vinculación de variables rápidas fuera de las asumidas estándar en los modelos conexionistas. [42] [44]
Parte del atractivo de las descripciones computacionales es que son relativamente fáciles de interpretar y, por lo tanto, pueden considerarse como una contribución a nuestra comprensión de procesos mentales particulares, mientras que los modelos conexionistas son en general más opacos, hasta el punto de que sólo pueden describirse en términos muy generales (como especificar el algoritmo de aprendizaje, el número de unidades, etc.), o en términos inútiles de bajo nivel. En este sentido, los modelos conexionistas pueden instanciar, y por lo tanto proporcionar evidencia para, una teoría amplia de la cognición (es decir, el conexionismo), sin representar una teoría útil del proceso particular que se está modelando. En este sentido, se podría considerar que el debate refleja hasta cierto punto una mera diferencia en el nivel de análisis en el que se enmarcan teorías particulares. Algunos investigadores sugieren que la brecha de análisis es consecuencia de mecanismos conexionistas que dan lugar a fenómenos emergentes que pueden describirse en términos computacionales. [45]
En la década de 2000, la popularidad de los sistemas dinámicos en la filosofía de la mente añadió una nueva perspectiva al debate; [46] [47] algunos autores [ ¿cuáles? ] ahora sostienen que cualquier división entre conexionismo y computacionalismo se caracteriza de manera más concluyente como una división entre computacionalismo y sistemas dinámicos .
En 2014, Alex Graves y otros de DeepMind publicaron una serie de artículos que describen una novedosa estructura de red neuronal profunda llamada Neural Turing Machine [48] capaz de leer símbolos en una cinta y almacenar símbolos en la memoria. Las redes relacionales, otro módulo de Deep Network publicado por DeepMind, pueden crear representaciones similares a objetos y manipularlas para responder preguntas complejas. Las redes relacionales y las máquinas neuronales de Turing son una prueba más de que el conexionismo y el computacionalismo no tienen por qué estar reñidos.
El paradigma subsimbólico de Smolensky [49] [50] tiene que enfrentar el desafío Fodor-Pylyshyn [51] [52] [53] [54] formulado por la teoría clásica del símbolo para una teoría convincente de la cognición en el conexionismo moderno. Para ser una teoría alternativa adecuada de la cognición, el paradigma subsimbólico de Smolensky tendría que explicar la existencia de sistematicidad o relaciones sistemáticas en la cognición del lenguaje sin el supuesto de que los procesos cognitivos sean causalmente sensibles a la estructura constituyente clásica de las representaciones mentales. El paradigma subsimbólico, o el conexionismo en general, tendría entonces que explicar la existencia de la sistematicidad y la composicionalidad sin depender de la mera implementación de una arquitectura cognitiva clásica. Este desafío implica un dilema: si el paradigma subsimbólico no pudiera contribuir en nada a la sistematicidad y composicionalidad de las representaciones mentales, sería insuficiente como base para una teoría alternativa de la cognición. Sin embargo, si la contribución del paradigma subsimbólico a la sistematicidad requiere procesos mentales basados en la estructura constituyente clásica de las representaciones mentales, la teoría de la cognición que desarrolla sería, en el mejor de los casos, una arquitectura de implementación del modelo clásico de la teoría del símbolo y, por tanto, no una alternativa genuina. Teoría (conexionista) de la cognición. [55] El modelo clásico de simbolismo se caracteriza por (1) una sintaxis y semántica combinatoria de las representaciones mentales y (2) operaciones mentales como procesos sensibles a la estructura, basados en el principio fundamental de la estructura constituyente sintáctica y semántica de las representaciones mentales tal como se utilizan. en el "Lenguaje del pensamiento (LOT)" de Fodor. [56] [57] Esto se puede utilizar para explicar las siguientes propiedades estrechamente relacionadas de la cognición humana, a saber, su (1) productividad, (2) sistematicidad, (3) composicionalidad y (4) coherencia inferencial. [58]
Este desafío ha sido afrontado en el conexionismo moderno, por ejemplo, no sólo por la "Arquitectura cognitiva conexionista/simbólica (ICS) integrada" de Smolensky, [59] [60] sino también por las "Redes oscilatorias" de Werning y Maye. [61] [62] [63] Una descripción general de esto la ofrecen, por ejemplo, Bechtel & Abrahamsen, [64] Marcus [65] y Maurer. [66]