Perceptrones (libro)

Perceptrones: Introducción a la geometría computacional es un libro escrito por Marvin Minsky y Seymour Papert y publicado en 1969. A principios de la década de 1970 se publicó una edición con correcciones y añadidos manuscritos. En 1988 se publicó una edición ampliada ( ISBN 9780262631112 ) tras el resurgimiento de las redes neuronales , que contenía un capítulo dedicado a contrarrestar las críticas que se le hicieron en la década de 1980.

El tema principal del libro es el perceptrón , un tipo de red neuronal artificial desarrollada a finales de los años 1950 y principios de los 1960. El libro estaba dedicado al psicólogo Frank Rosenblatt , quien en 1957 había publicado el primer modelo de un "perceptrón". ^[1] Rosenblatt y Minsky se conocían desde la adolescencia, habiendo estudiado con un año de diferencia en la Bronx High School of Science . ^[2] En un momento se convirtieron en figuras centrales de un debate dentro de la comunidad de investigación de IA, y se sabe que promovieron discusiones ruidosas en conferencias, pero siguieron siendo amigos. ^[3]

Este libro es el centro de una controversia de larga data en el estudio de la inteligencia artificial . Se afirma que las predicciones pesimistas realizadas por los autores fueron responsables de un cambio en la dirección de la investigación en IA, concentrando los esfuerzos en los llamados sistemas "simbólicos", una línea de investigación que se agotó y contribuyó al llamado invierno de la IA de la década de 1980, cuando la promesa de la IA no se hizo realidad. ^[4]

El quid de la cuestión de los perceptrones es una serie de pruebas matemáticas que reconocen algunas de las fortalezas de los perceptrones, aunque también muestran limitaciones importantes. ^[3] La más importante está relacionada con el cálculo de algunos predicados, como la función XOR, y también el importante predicado de conectividad. El problema de la conectividad se ilustra en la extraña portada del libro, que pretende mostrar cómo los propios humanos tienen dificultades para calcular este predicado. ^[5] Un crítico, Earl Hunt , señaló que la función XOR también es difícil de adquirir para los humanos durante los experimentos de aprendizaje de conceptos . ^[6]

Historial de publicaciones

Cuando Papert llegó al MIT en 1963, Minsky y Papert decidieron escribir un análisis teórico de las limitaciones de los perceptrones. No pudieron terminar de resolver los problemas matemáticos que inesperadamente surgieron mientras escribían hasta 1969. La primera edición se imprimió en 1969. Los autores realizaron modificaciones manuscritas para la segunda edición en 1972. Las notas manuscritas incluyen algunas referencias a la revisión de la primera edición. ^[7]^[8]^[9]

En 1988 se publicó una "edición ampliada", que añade un prólogo y un epílogo para discutir el resurgimiento de las redes neuronales en la década de 1980, pero no hay nuevos resultados científicos. ^[10] En 2017, se reimprimió la edición ampliada, con un prólogo de Léon Bottou que analiza el libro desde la perspectiva de alguien que trabaja en aprendizaje profundo .

Fondo

El perceptrón es una red neuronal desarrollada por el psicólogo Frank Rosenblatt en 1958 y es una de las máquinas más famosas de su época. ^[11]^[12] En 1960, Rosenblatt y sus colegas pudieron demostrar que el perceptrón podía, en un número finito de ciclos de entrenamiento, aprender cualquier tarea que sus parámetros pudieran incorporar. El teorema de convergencia del perceptrón se demostró para redes neuronales de una sola capa. ^[12]

Durante este período, la investigación sobre redes neuronales fue un enfoque importante para la cuestión cerebro-máquina que había sido adoptado por un número significativo de personas. ^[12] Los informes del New York Times y las declaraciones de Rosenblatt afirmaban que las redes neuronales pronto podrían ver imágenes, vencer a los humanos al ajedrez y reproducirse. ^[3] Al mismo tiempo, surgieron nuevos enfoques, incluida la IA simbólica . ^[13] Diferentes grupos se encontraron compitiendo por financiación y personal, y su demanda de potencia informática superó con creces la oferta disponible. ^[14]

Contenido

Perceptrones: Introducción a la geometría computacional es un libro de trece capítulos agrupados en tres secciones. Los capítulos 1 a 10 presentan la teoría de los perceptrones de los autores a través de pruebas, el capítulo 11 trata del aprendizaje, el capítulo 12 trata los problemas de separación lineal y el capítulo 13 analiza algunas de las ideas de los autores sobre los perceptrones simples y multicapa y el reconocimiento de patrones. ^[15]^[16]

Definición de perceptrón

Minsky y Papert tomaron como tema las versiones abstractas de una clase de dispositivos de aprendizaje a los que llamaron perceptrones, "en reconocimiento al trabajo pionero de Frank Rosenblatt". ^[16] Estos perceptrones eran formas modificadas de los perceptrones introducidos por Rosenblatt en 1958. Consistían en una retina, una única capa de funciones de entrada y una única salida. ^[15]^[12]

Además de esto, los autores restringieron el “orden”, o número máximo de conexiones entrantes, de sus perceptrones. El sociólogo Mikel Olazaran explica que Minsky y Papert “sostenían que el interés de la computación neuronal provenía del hecho de que se trataba de una combinación paralela de información local ”, que, para ser efectiva, tenía que ser un cálculo simple. Para los autores, esto implicaba que “cada unidad de asociación podía recibir conexiones sólo de una pequeña parte del área de entrada”. ^[12] Minsky y Papert llamaron a este concepto “localidad conjuntiva”. ^[16]

Paridad y conectividad

Los dos ejemplos principales analizados por los autores fueron la paridad y la conectividad. La paridad implica determinar si el número de entradas activadas en la retina de entrada es par o impar, y la conectividad se refiere al problema figura-fondo . Minsky y Papert demostraron que el perceptrón de una sola capa no podía calcular la paridad bajo la condición de localidad conjuntiva (Teorema 3.1.1), y demostraron que el orden requerido para que un perceptrón calcule la conectividad aumentaba con el tamaño de la entrada (Teorema 5.5). ^[17]^[16]

El asunto XOR

Algunos críticos del libro ^{[ cita requerida ]} afirman que los autores implican que, dado que una sola neurona artificial es incapaz de implementar algunas funciones como la función lógica XOR , las redes más grandes también tienen limitaciones similares y, por lo tanto, deberían descartarse. La investigación sobre perceptrones de tres capas mostró cómo implementar tales funciones. Rosenblatt en su libro demostró que el perceptrón elemental con un número ilimitado a priori de elementos A de la capa oculta (neuronas) y una neurona de salida puede resolver cualquier problema de clasificación. (Teorema de existencia. ^[18] ) Minsky y Papert utilizaron perceptrones con un número restringido de entradas de los elementos A de la capa oculta y una condición de localidad: cada elemento de la capa oculta recibe las señales de entrada de un pequeño círculo. Estos perceptrones restringidos no pueden definir si la imagen es una figura conexa o si el número de píxeles en la imagen es par (el predicado de paridad).

Hay muchos errores en esta historia ^{[ cita requerida ]} . Aunque una sola neurona puede de hecho calcular sólo un pequeño número de predicados lógicos, era ampliamente conocido ^{[ cita requerida ]} que las redes de tales elementos pueden calcular cualquier función booleana posible . Esto lo sabían Warren McCulloch y Walter Pitts , quienes incluso propusieron cómo crear una máquina de Turing con sus neuronas formales (Sección III de ^[19] ), se menciona en el libro de Rosenblatt, se menciona en un artículo típico en 1961 (Figura 15 ^[20] ), e incluso se menciona en el libro Perceptrones. ^[21] Minsky también utiliza ampliamente neuronas formales para crear computadoras teóricas simples en el Capítulo 3 de su libro Computation: Finite and Infinite Machines .

En la década de 1960, se estudió un caso especial de la red perceptrón como "lógica de umbral lineal", para aplicaciones en circuitos lógicos digitales. ^[22] La teoría clásica se resume en ^[23] según Donald Knuth. ^[24] En este caso especial, el aprendizaje del perceptrón se denominó "Síntesis de elemento de umbral único por iteración", y la construcción de una red perceptrón se denominó "Síntesis de red". ^[25] Otros nombres incluyeron lógica linealmente separable, lógica de entrada lineal, lógica de umbral, lógica mayoritaria y lógica de votación . El hardware para realizar la lógica de umbral lineal incluía núcleo magnético , transistor de resistencia , parametrón , diodo de túnel de resistencia y relé de bobina múltiple . ^[26] También hubo estudios teóricos sobre los límites superior e inferior del número mínimo de unidades de perceptrón necesarias para realizar cualquier función booleana. ^[27]^[28]

Lo que sí demuestra el libro es que en los perceptrones de alimentación hacia adelante de tres capas (con una capa denominada "oculta" o "intermedia"), no es posible calcular algunos predicados a menos que al menos una de las neuronas de la primera capa de neuronas (la capa "intermediaria") esté conectada con un peso no nulo a todas y cada una de las entradas (Teorema 3.1.1, reproducido a continuación). Esto era contrario a la esperanza que tenían algunos investigadores ^{[ cita requerida ]} al confiar principalmente en redes con unas pocas capas de neuronas "locales", cada una conectada solo a un pequeño número de entradas. Una máquina de alimentación hacia adelante con neuronas "locales" es mucho más fácil de construir y usar que una red neuronal más grande y completamente conectada, por lo que los investigadores en ese momento se concentraron en estos en lugar de en modelos más complicados ^{[ cita requerida ]} .

Algunos otros críticos, en particular Jordan Pollack , señalan que lo que era una pequeña prueba sobre un problema global (la paridad) que no era detectable por detectores locales fue interpretado por la comunidad como un intento bastante exitoso de enterrar toda la idea. ^[29]

Crítica de los perceptrones y sus extensiones

En el prólogo y el epílogo, añadidos a la edición de 1988, los autores reaccionan al resurgimiento de las redes neuronales en los años 1980, analizando las redes neuronales multicapa y los perceptrones Gamba. ^[30]^[31]^[32]^[33] Por "perceptrones Gamba", se referían a máquinas perceptrón de dos capas donde la primera capa también está formada por unidades perceptrón ("máscaras Gamba"). En contraste, la mayor parte del libro analiza perceptrones de dos capas donde la primera capa está formada por unidades booleanas. Conjeturan que las máquinas Gamba requerirían "una enorme cantidad" de máscaras Gamba y que las redes neuronales multicapa son una extensión "estéril". Además, señalan que muchos de los problemas "imposibles" para los perceptrones ya se habían resuelto utilizando otros métodos. ^[16]

La máquina perceptrón de Gamba era similar a la máquina perceptrón de Rosenblatt. Su entrada eran imágenes. La imagen pasa a través de máscaras binarias (generadas aleatoriamente) en paralelo. Detrás de cada máscara hay un fotorreceptor que se activa si la entrada, después del enmascaramiento, es lo suficientemente brillante. La segunda capa está formada por unidades perceptrón estándar.

Afirmaron que la investigación sobre perceptrones decayó en la década de 1970 no a causa de su libro, sino debido a problemas inherentes: ninguna máquina de aprendizaje de perceptrones podía realizar la asignación de créditos mejor que la regla de aprendizaje de perceptrones de Rosenblatt, y los perceptrones no pueden representar el conocimiento requerido para resolver ciertos problemas. ^[29]

En el capítulo final, afirmaron que para las redes neuronales de la década de 1980, "poco de importancia [ha] cambiado desde 1969". Predijeron que cualquier máquina homogénea individual debe fallar al escalar. Las redes neuronales entrenadas por descenso de gradiente no podrían escalar, debido a mínimos locales , pesos extremadamente grandes y convergencia lenta. Los algoritmos de aprendizaje generales para redes neuronales deben ser todos imprácticos, porque no existe una teoría general independiente del dominio de "cómo funcionan las redes neuronales". Solo una sociedad de mentes puede funcionar. En concreto, pensaron que hay muchos tipos diferentes de pequeños problemas en el mundo, cada uno de ellos en la escala de un "problema de juguete". Los grandes problemas siempre se pueden descomponer en pequeños problemas. Cada uno requiere un algoritmo diferente para resolver, algunos son perceptrones, otros son programas lógicos, y así sucesivamente. Cualquier máquina homogénea debe fallar al resolver todos los pequeños problemas, excepto un pequeño número. La inteligencia humana consiste en nada más que una colección de muchos pequeños algoritmos diferentes organizados como una sociedad. ^[29]

Contenido matemático

Definiciones preliminares

Sea un conjunto finito. Un predicado de es una función booleana que toma un subconjunto de y da como resultado o . En particular, una unidad de perceptrón es un predicado. ${\textstyle R}$ ${\textstyle R}$ ${\textstyle R}$ ${\textstyle 0}$ ${\estilo de texto 1}$

Un predicado tiene soporte , si y solo si cualquier , tenemos . En palabras, significa que si sabemos cómo funciona en subconjuntos de , entonces sabemos cómo funciona en subconjuntos de todos los . ${\textstyle \psi}$ ${\textstyle S\subconjunto R}$ ${\textstyle X\subconjunto S}$ ${\textstyle \psi (X)=\psi (X\cap S)}$ ${\textstyle \psi}$ ${\textstyle S}$ ${\textstyle R}$

Un predicado puede tener muchos soportes diferentes. El tamaño del soporte de un predicado es la cantidad mínima de elementos necesarios para su soporte. Por ejemplo, las funciones de constante 0 y constante 1 tienen soporte en el conjunto vacío, por lo que ambas tienen un tamaño de soporte 0. ${\textstyle \psi}$

Un perceptrón (el tipo estudiado por Minsky y Papert) es una función de forma donde son predicados y son números reales. ${\textstyle R}$ $\theta \left(\sum _{i}a_{i}\psi _{i}\right)$ ${\textstyle \psi _{i}}$ ${\textstyle a_{i}}$

Si es un conjunto de predicados, entonces es el conjunto de todos los perceptrones que utilizan sólo predicados en . ${\textstyle \Phi}$ ${\textstyle L(\Phi )}$ ${\textstyle \Phi}$

El orden de un perceptrón es el tamaño máximo de soporte de sus predicados componentes . ${\textstyle \theta \left(\sum _{i}a_{i}\psi _{i}\right)}$ ${\estilo de texto \{\psi _ {i}\}_ {i}}$

El orden de una función booleana es el orden mínimo posible para un perceptrón que implementa la función booleana. ${\textstyle R}$

Una función booleana es conjuntivamente local si y solo si su orden no aumenta hasta el infinito a medida que aumenta hasta el infinito. ${\estilo de visualización |R|}$

La máscara de es el predicado definido por ${\textstyle A\subconjunto R}$ ${\textstyle 1_{A}}$ $1_{A}(X)={\begin{cases}1&{\text{ si }}A\subset X,\\0&{\text{ de lo contrario.}}\end{cases}}$

Teoremas principales

Teorema 1.5.1, Forma normal positiva : si un perceptrón es de orden , entonces es de orden utilizando solo máscaras. ${\textstyle k}$ ${\textstyle k}$

Prueba

Sea el perceptrón , donde cada una tiene un tamaño de soporte como máximo . Lo convertimos en una suma lineal de máscaras, cada una con un tamaño como máximo . ${\textstyle \theta \left(\sum _{i}a_{i}\psi _{i}\right)}$ ${\textstyle \psi _{i}}$ ${\textstyle k}$ ${\textstyle k}$

Sea compatible con el conjunto . Escríbalo en forma normal disyuntiva, con una cláusula para cada subconjunto de en el que retorna , y para cada subconjunto, escriba un literal positivo para cada elemento del subconjunto y un literal negativo en caso contrario. ${\textstyle \psi _{i}}$ ${\textstyle A}$ ${\textstyle A}$ ${\textstyle \psi _{i}}$ ${\estilo de texto 1}$

Por ejemplo, supongamos que se admite en , y está en todos los subconjuntos de tamaño impar, entonces podemos escribirlo como ${\textstyle \psi _{i}}$ ${\textstyle \{1,2\}}$ ${\estilo de texto 1}$ $(x_{1}\land \neg x_{2})\lor (\neg x_{1}\land x_{2})$

Ahora, convierta esta fórmula en una fórmula de álgebra booleana y luego expanda, lo que dará como resultado una suma lineal de máscaras. Por ejemplo, la fórmula anterior se convierte en $x_{1}(1-x_{2})+(1-x_{1})x_{2}=x_{1}+x_{2}-2x_{1}x_{2}$

Repita esto para cada predicado utilizado en el perceptrón y súmelos; obtenemos un perceptrón equivalente utilizando solo máscaras.

Sea el grupo de permutación de los elementos de , y un subgrupo de . ${\textstyle S_{R}}$ ${\textstyle R}$ ${\textstyle G}$ ${\textstyle S_{R}}$

Decimos que un predicado es -invariante si y solo si para cualquier . Es decir, para cualquier , tenemos . ${\textstyle \psi}$ ${\textstyle G}$ ${\textstyle \psi \circ g=\psi }$ ${\textstyle g\en G}$ ${\textstyle X\subconjunto R}$ ${\textstyle \psi (X)=\psi (g(X))}$

Por ejemplo, la función de paridad es -invariante, ya que cualquier permutación del conjunto preserva el tamaño, y por lo tanto la paridad, de cualquiera de sus subconjuntos. ${\textstyle S_{R}}$

Teorema 2.3, teorema de invariancia de grupo : Si está cerrado bajo la acción de , y es -invariante, existe un perceptrón tal que si para algún , entonces . ${\textstyle \Phi}$ ${\textstyle G}$ ${\textstyle \psi \in L(\Phi )}$ ${\textstyle G}$ $\theta \left(\sum _{i}a_{i}\psi _{i}\right)=\psi$ ${\textstyle \psi _{i}=\psi _{j}\circ g}$ ${\textstyle g\en G}$ ${\textstyle a_{i}=a_{j}}$

Prueba

La idea de la prueba es tomar el promedio de todos los elementos de . ${\textstyle G}$

Enumerar los predicados en como , y escribir para el índice del predicado tal que , para cualquier . Es decir, hemos definido una acción de grupo en el conjunto . ${\textstyle \Phi}$ ${\textstyle \psi _{1},\psi _{2},...}$ ${\textstyle g(j)}$ ${\textstyle \psi _{g(j)}=\psi _{j}\circ g}$ ${\textstyle g\in G}$ ${\textstyle \Phi }$

Definir . Afirmamos que este es el perceptrón deseado. ${\textstyle a_{j}:=\sum _{g\in G}b_{g^{-1}(j)}}$

Dado que , existen algunos números reales tales que ${\textstyle \psi \in L(\Phi )}$ ${\textstyle b_{j}}$ $\theta \left(\sum _{j}b_{j}\psi _{j}\right)=\psi$

Por definición de -invariancia, si , entonces para todos . Es decir, y por lo tanto, tomando el promedio de todos los elementos en , tenemos ${\textstyle G}$ ${\textstyle \psi (A)=1}$ ${\textstyle \psi (g(A))=1}$ ${\textstyle g\in G}$ $\sum _{j}b_{j}(\psi _{j}\circ g)(A)>0;\quad g\in G$ ${\textstyle G}$ $0<\sum _{g\in G}\sum _{j}b_{j}(\psi _{j}\circ g)(A)=\sum _{g\in G}\sum _{j}b_{g^{-1}(j)}\psi _{j}(A)=\sum _{j}\left(\sum _{g\in G}b_{g^{-1}(j)}\right)\psi _{j}(A)=\sum _{j}a_{j}\psi _{j}(A)$

De manera similar para el caso donde . ${\textstyle \psi (A)=0}$

Teorema 3.1.1 — La función de paridad tiene orden . ${\textstyle |R|}$

Prueba

Sea la función de paridad y el conjunto de todas las máscaras de tamaño . Claramente, tanto y son invariantes en todas las permutaciones. ${\textstyle \psi _{parity}}$ ${\textstyle \Phi }$ ${\textstyle \leq |R|-1}$ ${\textstyle \psi _{parity}}$ ${\textstyle \Phi }$

Supongamos que tiene orden , entonces, por el teorema de la forma normal positiva, . ${\textstyle \psi _{parity}}$ ${\textstyle \leq |R|-1}$ ${\textstyle \psi _{parity}\in L(\Phi )}$

Por el teorema de invariancia de grupo, existe un perceptrón tal que depende únicamente de la clase de equivalencia de la máscara y, por lo tanto, depende únicamente del tamaño de la máscara . Es decir, existen números reales tales que si la máscara está en , entonces . $\theta \left(\sum _{i}a_{i}\psi _{i}\right)=\psi _{parity}$ ${\textstyle a_{i}}$ ${\textstyle S_{R}}$ ${\textstyle \psi _{i}}$ ${\textstyle \psi _{i}}$ ${\textstyle b_{0},b_{1},...,b_{|R|-1}}$ ${\textstyle \psi _{i}}$ ${\textstyle A}$ ${\textstyle a_{i}=b_{|A|}}$

Ahora podemos calcular explícitamente el perceptrón en cualquier subconjunto . ${\textstyle X\subset R}$

Como contiene subconjuntos de tamaño , introducimos la fórmula del perceptrón y calculamos: ${\textstyle X}$ ${\textstyle {\binom {|X|}{k}}}$ ${\textstyle k}$ $\psi _{parity}(X)=\theta \left(\sum _{k=0}^{|R|-1}b_{k}{\binom {|X|}{k}}\right)$

Ahora, definamos la función polinómica donde . Tiene como máximo grado . entonces como , para cada , tenemos para un pequeño positivo . $p(x):=\sum _{k=0}^{|R|-1}b_{k}{\binom {x}{k}}$ ${\textstyle {\binom {x}{k}}={\frac {x(x-1)\cdots (x-k+1)}{k!}}}$ ${\textstyle |R|-1}$ ${\textstyle \theta (p(|X|))=\psi _{parity}(X)}$ ${\textstyle |X|=0,1,2,...,|R|}$ $p(0)-\epsilon >0,\quad p(1)-\epsilon <0,\quad p(2)-\epsilon >0,\quad \cdots$ ${\textstyle \epsilon }$

Por lo tanto, el polinomio de grado tiene al menos diferentes raíces, una en cada , contradicción. ${\textstyle \leq |R|-1}$ ${\textstyle p-\epsilon }$ ${\textstyle |R|}$ ${\textstyle (0,1),(1,2),...,(|R|-1,|R|)}$

Teorema 5.9 — Los únicos predicados topológicamente invariantes de orden finito son funciones del número de Euler . ${\textstyle E}$

Es decir, si es una función booleana que depende de la topología puede ser implementada por un perceptrón de orden , tal que es fijo, y no crece a medida que crece en un rectángulo cada vez más grande, entonces es de forma , para alguna función . ${\textstyle \psi }$ ${\textstyle k}$ ${\textstyle k}$ ${\textstyle R}$ ${\textstyle \psi }$ ${\textstyle f\circ E}$ ${\textstyle f:\mathbb {N} \to 2}$

Prueba: omitida.

Sección 5.5, debido a David A. Huffman — Sea el rectángulo de forma , entonces como , la función de conectividad en tiene orden que crece al menos tan rápido como . ${\textstyle R_{n}}$ ${\textstyle 5n\times (2n+12)}$ ${\textstyle n\to \infty }$ ${\textstyle R_{n}}$ ${\textstyle \Omega (|R_{n}|^{1/2})}$

Esquema de demostración: reduciendo la función de paridad a la función de conectividad, utilizando dispositivos de circuito. Es de estilo similar al que muestra que Sokoban es NP-hard. ^[34]

Recepción y legado

Los perceptrones recibieron numerosas críticas positivas en los años posteriores a su publicación. En 1969, el profesor de Stanford Michael A. Arbib afirmó: "Este libro ha sido ampliamente aclamado como un nuevo y emocionante capítulo en la teoría del reconocimiento de patrones". ^[35] A principios de ese año, el profesor de la CMU Allen Newell escribió una reseña del libro para Science , comenzando el artículo declarando "[e]ste es un gran libro". ^[36]

Por otra parte, HD Block expresó su preocupación por la definición estrecha que los autores daban de los perceptrones. Sostuvo que "estudiaban una clase de máquinas muy limitada desde un punto de vista bastante ajeno al de Rosenblatt", y por ello el título del libro era "seriamente engañoso". ^[15] Los investigadores contemporáneos de redes neuronales compartían algunas de estas objeciones: Bernard Widrow se quejó de que los autores habían definido los perceptrones de forma demasiado estrecha, pero también dijo que las pruebas de Minsky y Papert eran "prácticamente irrelevantes", ya que se habían presentado una década después del perceptrón de Rosenblatt. ^[17]

A menudo se piensa que los perceptrones causaron un declive en la investigación de redes neuronales en la década de 1970 y principios de la década de 1980. ^[3]^[37] Durante este período, los investigadores de redes neuronales continuaron con proyectos más pequeños fuera de la corriente principal, mientras que la investigación de IA simbólica experimentó un crecimiento explosivo. ^[38]^[3]

Con el resurgimiento del conexionismo a finales de los años 80, el investigador del PDP David Rumelhart y sus colegas volvieron a los perceptrones . En un informe de 1986, afirmaron haber superado los problemas planteados por Minsky y Papert, y que "su pesimismo sobre el aprendizaje en máquinas multicapa estaba fuera de lugar". ^[3]

Análisis de la polémica

Resulta sumamente instructivo conocer lo que Minsky y Papert dijeron en los años 70 sobre las implicaciones más amplias de su libro. En su sitio web, Harvey Cohen ^[39], investigador de los laboratorios de inteligencia artificial del MIT desde 1974 en adelante, ^[40] cita a Minsky y Papert en el Informe de 1971 del Proyecto MAC, dirigido a las agencias de financiación, sobre las "redes Gamba": ^[30] "Prácticamente no se sabe nada sobre las capacidades computacionales de este último tipo de máquina. Creemos que puede hacer poco más que un perceptrón de orden inferior". En la página anterior, Minsky y Papert dejan claro que las "redes Gamba" son redes con capas ocultas.

Minsky ha comparado el libro con el libro ficticio Necronomicon en los cuentos de HP Lovecraft , un libro conocido por muchos, pero leído solo por unos pocos. ^[41] Los autores hablan en la edición ampliada sobre la crítica del libro que comenzó en la década de 1980, con una nueva ola de investigación simbolizada por el libro PDP .

El modo en que los perceptrones fueron explorados primero por un grupo de científicos para impulsar la investigación en IA en una dirección, y luego por un nuevo grupo en otra dirección, ha sido objeto de un estudio sociológico del desarrollo científico. ^[3]

Notas

^ Rosenblatt, Frank (enero de 1957). El perceptrón: un autómata que percibe y reconoce (Proyecto PARA) (PDF) (Informe). Cornell Aeronautical Laboratory, Inc. Informe n.º 85–460–1 . Consultado el 29 de diciembre de 2019 .Conmemorado en Joe Pater, Brain Wars: ¿Cómo funciona la mente? ¿Y por qué es tan importante?, UmassAmherst.
^ Crevier 1993
^ abcdefg Olazarán 1996.
^ Mitchell, Melanie (octubre de 2019). Inteligencia artificial: una guía para humanos pensantes. Farrar, Straus y Giroux. ISBN 978-0-374-25783-5.
^ Minsky-Papert 1972:74 muestra las figuras en blanco y negro. La portada de la edición de bolsillo de 1972 las tiene impresas en violeta sobre un fondo rojo, lo que hace que la conexión sea aún más difícil de discernir sin el uso de un dedo u otro medio para seguir los patrones mecánicamente. Este problema se analiza en detalle en las páginas 136 y siguientes y, de hecho, implica trazar el límite.
^ Hunt, Earl (1971). "Revisión de los perceptrones". Revista estadounidense de psicología . 84 (3): 445–447. doi :10.2307/1420478. ISSN 0002-9556. JSTOR 1420478.
^ Block, HD (diciembre de 1970). "Una revisión de los perceptrones: una introducción a la geometría computacional". Información y control . 17 (5): 501–522. doi :10.1016/S0019-9958(70)90409-2.
^ Newell, Allen (22 de agosto de 1969). "Un paso hacia la comprensión de los procesos de información: perceptrones. Introducción a la geometría computacional. Marvin Minsky y Seymour Papert. MIT Press, Cambridge, Mass., 1969. vi + 258 pp., illus. Tela, $12; papel, $4.95". Science . 165 (3895): 780–782. doi :10.1126/science.165.3895.780. ISSN 0036-8075.
^ Mycielski, Jan (enero de 1972). "Reseña: Marvin Minsky y Seymour Papert, Perceptrones, una introducción a la geometría computacional". Boletín de la Sociedad Matemática Americana . 78 (1): 12–15. doi : 10.1090/S0002-9904-1972-12831-3 . ISSN 0002-9904.
^ Grossberg, Stephen. "La edición ampliada de Perceptrones (MIT Press, Cambridge, Mass, 1988, 292 pp, $12.50) de Marvin L. Minsky y Seymour A. Papert llega a". AI Magazine 10.2 (1989).
^ Rosenblatt, Frank (1958). "El perceptrón: un modelo probabilístico para el almacenamiento y la organización de la información en el cerebro". Psychological Review . 65 (6): 386–408. CiteSeerX 10.1.1.588.3775 . doi :10.1037/h0042519. PMID 13602029. S2CID 12781225.
^ abcde Olazarán 1996, pág. 618
^ Haugeland, John (1985). Inteligencia artificial: la idea misma . Cambridge, Mass.: MIT Press. ISBN 978-0-262-08153-5.
^ Hwang, Tim (2018). "Poder computacional e impacto social de la inteligencia artificial". arXiv : 1803.08971v1 [cs.AI].
^ abc Block, HD (1970). "Una revisión de 'Perceptrones: Una introducción a la geometría computacional'". Información y control . 17 (1): 501–522. doi : 10.1016/S0019-9958(70)90409-2 .
^ abcde Minsky, Marvin; Papert, Seymour (1988). Perceptrones: una introducción a la geometría computacional . MIT Press.
^ por Olazaran 1996, pág. 630
^ Teorema 1 en Rosenblatt, F. (1961) Principios de neurodinámica: perceptrones y la teoría de los mecanismos cerebrales, Spartan. Washington DC.
^ McCulloch, Warren S.; Pitts, Walter (1943-12-01). "Un cálculo lógico de las ideas inmanentes en la actividad nerviosa". Boletín de Biofísica Matemática . 5 (4): 115–133. doi :10.1007/BF02478259. ISSN 1522-9602.
^ Hawkins, J. (enero de 1961). "Sistemas autoorganizados: una revisión y comentario". Actas del IRE . 49 (1): 31–48. doi :10.1109/JRPROC.1961.287776. ISSN 0096-8390. S2CID 51640615.
^ Cf. Minsky-Papert (1972:232): "... se podría construir un ordenador universal enteramente a partir de módulos de umbral lineal. Esto no reduce en ningún sentido la teoría de la computación y la programación a la teoría de los perceptrones".
^ Hu, Sze-Tsen. Lógica del umbral . Vol. 32. Univ of California Press, 1965.
^ Muroga, Saburo (1971). Lógica de umbral y sus aplicaciones . Nueva York: Wiley-Interscience. ISBN 978-0-471-62530-8.
^ Knuth, Donald Ervin (2011). El arte de la programación informática, volumen 4A . Upper Saddle River: Addison-Wesley. págs. 75–79. ISBN 978-0-201-03804-0.
^ Dertouzos, Michael L. "Lógica de umbral: un enfoque de síntesis". (1965).
^ Minnick, Robert C. (marzo de 1961). "Lógica de entrada lineal". IEEE Transactions on Electronic Computers . EC-10 (1): 6–16. doi :10.1109/TEC.1961.5219146. ISSN 0367-7508.
^ Véanse las referencias en Cover, Thomas M. "Problemas de capacidad para máquinas lineales". Reconocimiento de patrones (1968): 283-289.
^ Šíma, Jiří; Orponen, Pekka (1 de diciembre de 2003). "Computación de propósito general con redes neuronales: un estudio de los resultados teóricos de la complejidad". Computación neuronal . 15 (12): 2727–2778. doi :10.1162/089976603322518731. ISSN 0899-7667. PMID 14629867. S2CID 264603251.
^ abc Pollack, JB (1989). "No Harm Intended: A Review of the Perceptrons extended edition" (Sin intención de causar daño: una revisión de la edición ampliada de Perceptrones). Journal of Mathematical Psychology . 33 (3): 358–365. doi :10.1016/0022-2496(89)90015-1.
^ ab Del nombre del investigador italiano de redes neuronales Augusto Gamba (1923-1996), diseñador del perceptrón PAPA. PAPA es el acrónimo de "Programmatore e Analizzatore Probabilistico Automatico" ("Programador y analizador probabilístico automático").
^ Borsellino, A.; Gamba, A. (1 de septiembre de 1961). "Un esbozo de una teoría matemática de PAPA". El nuevo cemento (1955-1965) . 20 (2): 221–231. doi :10.1007/BF02822644. ISSN 1827-6121.
^ Gamba, A.; Gamberini, L.; Palmieri, G.; Sanna, R. (1 de septiembre de 1961). "Más experimentos con PAPA". El nuevo cemento (1955-1965) . 20 (2): 112-115. doi :10.1007/BF02822639. ISSN 1827-6121.
^ Gamba, A. (1 de octubre de 1962). "Un PAPA multinivel". El nuevo cemento (1955-1965) . 26 (1): 176–177. doi :10.1007/BF02782996. ISSN 1827-6121.
^ Dor, Dorit; Zwick, Uri (1999-10-01). "SOKOBAN y otros problemas de planificación del movimiento". Geometría computacional . 13 (4): 215–228. doi :10.1016/S0925-7721(99)00017-6. ISSN 0925-7721.
^ Arbib, Michael (noviembre de 1969). "Reseña de 'Perceptrones: una introducción a la geometría computacional'"". IEEE Transactions on Information Theory . 15 (6): 738–739. doi :10.1109/TIT.1969.1054388.
^ Newell, Allen (1969). "Un paso hacia la comprensión de los procesos de información". Science . 165 (3895): 780–782. doi :10.1126/science.165.3895.780. JSTOR 1727364.
^ Alom, Md Zahangir; et al. (2018). "La historia comenzó con AlexNet: un estudio exhaustivo sobre enfoques de aprendizaje profundo". arXiv : 1803.01164v1 [cs.CV]. 1969: Minsky y Papert muestran las limitaciones de los perceptrones, lo que aniquiló la investigación en redes neuronales durante una década
^ Bechtel, William (1993). "El caso del conexionismo". Estudios filosóficos . 71 (2): 119–154. doi :10.1007/BF00989853. JSTOR 4320426. S2CID 170812977.
^ "La controversia del perceptrón".
^ "Autor del MIT AI Memo 338" (PDF) .
^ "Historia: el pasado". Ucs.louisiana.edu . Consultado el 10 de julio de 2013 .

Referencias

McCorduck, Pamela (2004), Máquinas que piensan (2.ª ed.), Natick, MA: AK Peters, ISBN 1-5688-1205-1, págs. 104−107
Crevier, Daniel (1993). AI: The Tumultuous Search for Artificial Intelligence [IA: La tumultuosa búsqueda de la inteligencia artificial] . Nueva York, NY: BasicBooks. ISBN 0-465-02997-3., págs. 102−105
Russell, Stuart J. ; Norvig, Peter (2003), Inteligencia artificial: un enfoque moderno (2.ª ed.), Upper Saddle River, Nueva Jersey: Prentice Hall, ISBN 0-13-790395-2pág. 22
Marvin Minsky y Seymour Papert, 1972 (2.ª edición con correcciones, primera edición 1969) Perceptrones: una introducción a la geometría computacional , The MIT Press, Cambridge MA, ISBN 0-262-63022-2 .
Olazaran, Mikel (1996). "Un estudio sociológico de la historia oficial de la controversia de los perceptrones". Estudios sociales de la ciencia . 26 (3): 611–659. doi :10.1177/030631296026003005. JSTOR 285702. S2CID 16786738.
Olazaran, Mikel (1993-01-01), Yovits, Marshall C. (ed.), Una historia sociológica de la controversia de las redes neuronales, Advances in Computers, vol. 37, Elsevier, págs. 335–425, doi :10.1016/S0065-2458(08)60408-8, ISBN 9780120121373, consultado el 31 de octubre de 2023