Perceptrones: Introducción a la geometría computacional es un libro escrito por Marvin Minsky y Seymour Papert y publicado en 1969. A principios de la década de 1970 se publicó una edición con correcciones y añadidos manuscritos. En 1988 se publicó una edición ampliada ( ISBN 9780262631112 ) tras el resurgimiento de las redes neuronales , que contenía un capítulo dedicado a contrarrestar las críticas que se le hicieron en la década de 1980.
El tema principal del libro es el perceptrón , un tipo de red neuronal artificial desarrollada a finales de los años 1950 y principios de los 1960. El libro estaba dedicado al psicólogo Frank Rosenblatt , quien en 1957 había publicado el primer modelo de un "perceptrón". [1] Rosenblatt y Minsky se conocían desde la adolescencia, habiendo estudiado con un año de diferencia en la Bronx High School of Science . [2] En un momento se convirtieron en figuras centrales de un debate dentro de la comunidad de investigación de IA, y se sabe que promovieron discusiones ruidosas en conferencias, pero siguieron siendo amigos. [3]
Este libro es el centro de una controversia de larga data en el estudio de la inteligencia artificial . Se afirma que las predicciones pesimistas realizadas por los autores fueron responsables de un cambio en la dirección de la investigación en IA, concentrando los esfuerzos en los llamados sistemas "simbólicos", una línea de investigación que se agotó y contribuyó al llamado invierno de la IA de la década de 1980, cuando la promesa de la IA no se hizo realidad. [4]
El quid de la cuestión de los perceptrones es una serie de pruebas matemáticas que reconocen algunas de las fortalezas de los perceptrones, aunque también muestran limitaciones importantes. [3] La más importante está relacionada con el cálculo de algunos predicados, como la función XOR, y también el importante predicado de conectividad. El problema de la conectividad se ilustra en la extraña portada del libro, que pretende mostrar cómo los propios humanos tienen dificultades para calcular este predicado. [5] Un crítico, Earl Hunt , señaló que la función XOR también es difícil de adquirir para los humanos durante los experimentos de aprendizaje de conceptos . [6]
Cuando Papert llegó al MIT en 1963, Minsky y Papert decidieron escribir un análisis teórico de las limitaciones de los perceptrones. No pudieron terminar de resolver los problemas matemáticos que inesperadamente surgieron mientras escribían hasta 1969. La primera edición se imprimió en 1969. Los autores realizaron modificaciones manuscritas para la segunda edición en 1972. Las notas manuscritas incluyen algunas referencias a la revisión de la primera edición. [7] [8] [9]
En 1988 se publicó una "edición ampliada", que añade un prólogo y un epílogo para discutir el resurgimiento de las redes neuronales en la década de 1980, pero no hay nuevos resultados científicos. [10] En 2017, se reimprimió la edición ampliada, con un prólogo de Léon Bottou que analiza el libro desde la perspectiva de alguien que trabaja en aprendizaje profundo .
El perceptrón es una red neuronal desarrollada por el psicólogo Frank Rosenblatt en 1958 y es una de las máquinas más famosas de su época. [11] [12] En 1960, Rosenblatt y sus colegas pudieron demostrar que el perceptrón podía, en un número finito de ciclos de entrenamiento, aprender cualquier tarea que sus parámetros pudieran incorporar. El teorema de convergencia del perceptrón se demostró para redes neuronales de una sola capa. [12]
Durante este período, la investigación sobre redes neuronales fue un enfoque importante para la cuestión cerebro-máquina que había sido adoptado por un número significativo de personas. [12] Los informes del New York Times y las declaraciones de Rosenblatt afirmaban que las redes neuronales pronto podrían ver imágenes, vencer a los humanos al ajedrez y reproducirse. [3] Al mismo tiempo, surgieron nuevos enfoques, incluida la IA simbólica . [13] Diferentes grupos se encontraron compitiendo por financiación y personal, y su demanda de potencia informática superó con creces la oferta disponible. [14]
Perceptrones: Introducción a la geometría computacional es un libro de trece capítulos agrupados en tres secciones. Los capítulos 1 a 10 presentan la teoría de los perceptrones de los autores a través de pruebas, el capítulo 11 trata del aprendizaje, el capítulo 12 trata los problemas de separación lineal y el capítulo 13 analiza algunas de las ideas de los autores sobre los perceptrones simples y multicapa y el reconocimiento de patrones. [15] [16]
Minsky y Papert tomaron como tema las versiones abstractas de una clase de dispositivos de aprendizaje a los que llamaron perceptrones, "en reconocimiento al trabajo pionero de Frank Rosenblatt". [16] Estos perceptrones eran formas modificadas de los perceptrones introducidos por Rosenblatt en 1958. Consistían en una retina, una única capa de funciones de entrada y una única salida. [15] [12]
Además de esto, los autores restringieron el “orden”, o número máximo de conexiones entrantes, de sus perceptrones. El sociólogo Mikel Olazaran explica que Minsky y Papert “sostenían que el interés de la computación neuronal provenía del hecho de que se trataba de una combinación paralela de información local ”, que, para ser efectiva, tenía que ser un cálculo simple. Para los autores, esto implicaba que “cada unidad de asociación podía recibir conexiones sólo de una pequeña parte del área de entrada”. [12] Minsky y Papert llamaron a este concepto “localidad conjuntiva”. [16]
Los dos ejemplos principales analizados por los autores fueron la paridad y la conectividad. La paridad implica determinar si el número de entradas activadas en la retina de entrada es par o impar, y la conectividad se refiere al problema figura-fondo . Minsky y Papert demostraron que el perceptrón de una sola capa no podía calcular la paridad bajo la condición de localidad conjuntiva (Teorema 3.1.1), y demostraron que el orden requerido para que un perceptrón calcule la conectividad aumentaba con el tamaño de la entrada (Teorema 5.5). [17] [16]
Algunos críticos del libro [ cita requerida ] afirman que los autores implican que, dado que una sola neurona artificial es incapaz de implementar algunas funciones como la función lógica XOR , las redes más grandes también tienen limitaciones similares y, por lo tanto, deberían descartarse. La investigación sobre perceptrones de tres capas mostró cómo implementar tales funciones. Rosenblatt en su libro demostró que el perceptrón elemental con un número ilimitado a priori de elementos A de la capa oculta (neuronas) y una neurona de salida puede resolver cualquier problema de clasificación. (Teorema de existencia. [18] ) Minsky y Papert utilizaron perceptrones con un número restringido de entradas de los elementos A de la capa oculta y una condición de localidad: cada elemento de la capa oculta recibe las señales de entrada de un pequeño círculo. Estos perceptrones restringidos no pueden definir si la imagen es una figura conexa o si el número de píxeles en la imagen es par (el predicado de paridad).
Hay muchos errores en esta historia [ cita requerida ] . Aunque una sola neurona puede de hecho calcular sólo un pequeño número de predicados lógicos, era ampliamente conocido [ cita requerida ] que las redes de tales elementos pueden calcular cualquier función booleana posible . Esto lo sabían Warren McCulloch y Walter Pitts , quienes incluso propusieron cómo crear una máquina de Turing con sus neuronas formales (Sección III de [19] ), se menciona en el libro de Rosenblatt, se menciona en un artículo típico en 1961 (Figura 15 [20] ), e incluso se menciona en el libro Perceptrones. [21] Minsky también utiliza ampliamente neuronas formales para crear computadoras teóricas simples en el Capítulo 3 de su libro Computation: Finite and Infinite Machines .
En la década de 1960, se estudió un caso especial de la red perceptrón como "lógica de umbral lineal", para aplicaciones en circuitos lógicos digitales. [22] La teoría clásica se resume en [23] según Donald Knuth. [24] En este caso especial, el aprendizaje del perceptrón se denominó "Síntesis de elemento de umbral único por iteración", y la construcción de una red perceptrón se denominó "Síntesis de red". [25] Otros nombres incluyeron lógica linealmente separable, lógica de entrada lineal, lógica de umbral, lógica mayoritaria y lógica de votación . El hardware para realizar la lógica de umbral lineal incluía núcleo magnético , transistor de resistencia , parametrón , diodo de túnel de resistencia y relé de bobina múltiple . [26] También hubo estudios teóricos sobre los límites superior e inferior del número mínimo de unidades de perceptrón necesarias para realizar cualquier función booleana. [27] [28]
Lo que sí demuestra el libro es que en los perceptrones de alimentación hacia adelante de tres capas (con una capa denominada "oculta" o "intermedia"), no es posible calcular algunos predicados a menos que al menos una de las neuronas de la primera capa de neuronas (la capa "intermediaria") esté conectada con un peso no nulo a todas y cada una de las entradas (Teorema 3.1.1, reproducido a continuación). Esto era contrario a la esperanza que tenían algunos investigadores [ cita requerida ] al confiar principalmente en redes con unas pocas capas de neuronas "locales", cada una conectada solo a un pequeño número de entradas. Una máquina de alimentación hacia adelante con neuronas "locales" es mucho más fácil de construir y usar que una red neuronal más grande y completamente conectada, por lo que los investigadores en ese momento se concentraron en estos en lugar de en modelos más complicados [ cita requerida ] .
Algunos otros críticos, en particular Jordan Pollack , señalan que lo que era una pequeña prueba sobre un problema global (la paridad) que no era detectable por detectores locales fue interpretado por la comunidad como un intento bastante exitoso de enterrar toda la idea. [29]
En el prólogo y el epílogo, añadidos a la edición de 1988, los autores reaccionan al resurgimiento de las redes neuronales en los años 1980, analizando las redes neuronales multicapa y los perceptrones Gamba. [30] [31] [32] [33] Por "perceptrones Gamba", se referían a máquinas perceptrón de dos capas donde la primera capa también está formada por unidades perceptrón ("máscaras Gamba"). En contraste, la mayor parte del libro analiza perceptrones de dos capas donde la primera capa está formada por unidades booleanas. Conjeturan que las máquinas Gamba requerirían "una enorme cantidad" de máscaras Gamba y que las redes neuronales multicapa son una extensión "estéril". Además, señalan que muchos de los problemas "imposibles" para los perceptrones ya se habían resuelto utilizando otros métodos. [16]
La máquina perceptrón de Gamba era similar a la máquina perceptrón de Rosenblatt. Su entrada eran imágenes. La imagen pasa a través de máscaras binarias (generadas aleatoriamente) en paralelo. Detrás de cada máscara hay un fotorreceptor que se activa si la entrada, después del enmascaramiento, es lo suficientemente brillante. La segunda capa está formada por unidades perceptrón estándar.
Afirmaron que la investigación sobre perceptrones decayó en la década de 1970 no a causa de su libro, sino debido a problemas inherentes: ninguna máquina de aprendizaje de perceptrones podía realizar la asignación de créditos mejor que la regla de aprendizaje de perceptrones de Rosenblatt, y los perceptrones no pueden representar el conocimiento requerido para resolver ciertos problemas. [29]
En el capítulo final, afirmaron que para las redes neuronales de la década de 1980, "poco de importancia [ha] cambiado desde 1969". Predijeron que cualquier máquina homogénea individual debe fallar al escalar. Las redes neuronales entrenadas por descenso de gradiente no podrían escalar, debido a mínimos locales , pesos extremadamente grandes y convergencia lenta. Los algoritmos de aprendizaje generales para redes neuronales deben ser todos imprácticos, porque no existe una teoría general independiente del dominio de "cómo funcionan las redes neuronales". Solo una sociedad de mentes puede funcionar. En concreto, pensaron que hay muchos tipos diferentes de pequeños problemas en el mundo, cada uno de ellos en la escala de un "problema de juguete". Los grandes problemas siempre se pueden descomponer en pequeños problemas. Cada uno requiere un algoritmo diferente para resolver, algunos son perceptrones, otros son programas lógicos, y así sucesivamente. Cualquier máquina homogénea debe fallar al resolver todos los pequeños problemas, excepto un pequeño número. La inteligencia humana consiste en nada más que una colección de muchos pequeños algoritmos diferentes organizados como una sociedad. [29]
Sea un conjunto finito. Un predicado de es una función booleana que toma un subconjunto de y da como resultado o . En particular, una unidad de perceptrón es un predicado.
Un predicado tiene soporte , si y solo si cualquier , tenemos . En palabras, significa que si sabemos cómo funciona en subconjuntos de , entonces sabemos cómo funciona en subconjuntos de todos los .
Un predicado puede tener muchos soportes diferentes. El tamaño del soporte de un predicado es la cantidad mínima de elementos necesarios para su soporte. Por ejemplo, las funciones de constante 0 y constante 1 tienen soporte en el conjunto vacío, por lo que ambas tienen un tamaño de soporte 0.
Un perceptrón (el tipo estudiado por Minsky y Papert) es una función de forma donde son predicados y son números reales.
Si es un conjunto de predicados, entonces es el conjunto de todos los perceptrones que utilizan sólo predicados en .
El orden de un perceptrón es el tamaño máximo de soporte de sus predicados componentes .
El orden de una función booleana es el orden mínimo posible para un perceptrón que implementa la función booleana.
Una función booleana es conjuntivamente local si y solo si su orden no aumenta hasta el infinito a medida que aumenta hasta el infinito.
La máscara de es el predicado definido por
Teorema 1.5.1, Forma normal positiva : si un perceptrón es de orden , entonces es de orden utilizando solo máscaras.
Sea el perceptrón , donde cada una tiene un tamaño de soporte como máximo . Lo convertimos en una suma lineal de máscaras, cada una con un tamaño como máximo .
Sea compatible con el conjunto . Escríbalo en forma normal disyuntiva, con una cláusula para cada subconjunto de en el que retorna , y para cada subconjunto, escriba un literal positivo para cada elemento del subconjunto y un literal negativo en caso contrario.
Por ejemplo, supongamos que se admite en , y está en todos los subconjuntos de tamaño impar, entonces podemos escribirlo como
Ahora, convierta esta fórmula en una fórmula de álgebra booleana y luego expanda, lo que dará como resultado una suma lineal de máscaras. Por ejemplo, la fórmula anterior se convierte en
Repita esto para cada predicado utilizado en el perceptrón y súmelos; obtenemos un perceptrón equivalente utilizando solo máscaras.
Sea el grupo de permutación de los elementos de , y un subgrupo de .
Decimos que un predicado es -invariante si y solo si para cualquier . Es decir, para cualquier , tenemos .
Por ejemplo, la función de paridad es -invariante, ya que cualquier permutación del conjunto preserva el tamaño, y por lo tanto la paridad, de cualquiera de sus subconjuntos.
Teorema 2.3, teorema de invariancia de grupo : Si está cerrado bajo la acción de , y es -invariante, existe un perceptrón tal que si para algún , entonces .
La idea de la prueba es tomar el promedio de todos los elementos de .
Enumerar los predicados en como , y escribir para el índice del predicado tal que , para cualquier . Es decir, hemos definido una acción de grupo en el conjunto .
Definir . Afirmamos que este es el perceptrón deseado.
Dado que , existen algunos números reales tales que
Por definición de -invariancia, si , entonces para todos . Es decir, y por lo tanto, tomando el promedio de todos los elementos en , tenemos
De manera similar para el caso donde .
Teorema 3.1.1 — La función de paridad tiene orden .
Sea la función de paridad y el conjunto de todas las máscaras de tamaño . Claramente, tanto y son invariantes en todas las permutaciones.
Supongamos que tiene orden , entonces, por el teorema de la forma normal positiva, .
Por el teorema de invariancia de grupo, existe un perceptrón tal que depende únicamente de la clase de equivalencia de la máscara y, por lo tanto, depende únicamente del tamaño de la máscara . Es decir, existen números reales tales que si la máscara está en , entonces .
Ahora podemos calcular explícitamente el perceptrón en cualquier subconjunto .
Como contiene subconjuntos de tamaño , introducimos la fórmula del perceptrón y calculamos:
Ahora, definamos la función polinómica donde . Tiene como máximo grado . entonces como , para cada , tenemos para un pequeño positivo .
Por lo tanto, el polinomio de grado tiene al menos diferentes raíces, una en cada , contradicción.
Teorema 5.9 — Los únicos predicados topológicamente invariantes de orden finito son funciones del número de Euler .
Es decir, si es una función booleana que depende de la topología puede ser implementada por un perceptrón de orden , tal que es fijo, y no crece a medida que crece en un rectángulo cada vez más grande, entonces es de forma , para alguna función .
Prueba: omitida.
Sección 5.5, debido a David A. Huffman — Sea el rectángulo de forma , entonces como , la función de conectividad en tiene orden que crece al menos tan rápido como .
Esquema de demostración: reduciendo la función de paridad a la función de conectividad, utilizando dispositivos de circuito. Es de estilo similar al que muestra que Sokoban es NP-hard. [34]
Los perceptrones recibieron numerosas críticas positivas en los años posteriores a su publicación. En 1969, el profesor de Stanford Michael A. Arbib afirmó: "Este libro ha sido ampliamente aclamado como un nuevo y emocionante capítulo en la teoría del reconocimiento de patrones". [35] A principios de ese año, el profesor de la CMU Allen Newell escribió una reseña del libro para Science , comenzando el artículo declarando "[e]ste es un gran libro". [36]
Por otra parte, HD Block expresó su preocupación por la definición estrecha que los autores daban de los perceptrones. Sostuvo que "estudiaban una clase de máquinas muy limitada desde un punto de vista bastante ajeno al de Rosenblatt", y por ello el título del libro era "seriamente engañoso". [15] Los investigadores contemporáneos de redes neuronales compartían algunas de estas objeciones: Bernard Widrow se quejó de que los autores habían definido los perceptrones de forma demasiado estrecha, pero también dijo que las pruebas de Minsky y Papert eran "prácticamente irrelevantes", ya que se habían presentado una década después del perceptrón de Rosenblatt. [17]
A menudo se piensa que los perceptrones causaron un declive en la investigación de redes neuronales en la década de 1970 y principios de la década de 1980. [3] [37] Durante este período, los investigadores de redes neuronales continuaron con proyectos más pequeños fuera de la corriente principal, mientras que la investigación de IA simbólica experimentó un crecimiento explosivo. [38] [3]
Con el resurgimiento del conexionismo a finales de los años 80, el investigador del PDP David Rumelhart y sus colegas volvieron a los perceptrones . En un informe de 1986, afirmaron haber superado los problemas planteados por Minsky y Papert, y que "su pesimismo sobre el aprendizaje en máquinas multicapa estaba fuera de lugar". [3]
Resulta sumamente instructivo conocer lo que Minsky y Papert dijeron en los años 70 sobre las implicaciones más amplias de su libro. En su sitio web, Harvey Cohen [39], investigador de los laboratorios de inteligencia artificial del MIT desde 1974 en adelante, [40] cita a Minsky y Papert en el Informe de 1971 del Proyecto MAC, dirigido a las agencias de financiación, sobre las "redes Gamba": [30] "Prácticamente no se sabe nada sobre las capacidades computacionales de este último tipo de máquina. Creemos que puede hacer poco más que un perceptrón de orden inferior". En la página anterior, Minsky y Papert dejan claro que las "redes Gamba" son redes con capas ocultas.
Minsky ha comparado el libro con el libro ficticio Necronomicon en los cuentos de HP Lovecraft , un libro conocido por muchos, pero leído solo por unos pocos. [41] Los autores hablan en la edición ampliada sobre la crítica del libro que comenzó en la década de 1980, con una nueva ola de investigación simbolizada por el libro PDP .
El modo en que los perceptrones fueron explorados primero por un grupo de científicos para impulsar la investigación en IA en una dirección, y luego por un nuevo grupo en otra dirección, ha sido objeto de un estudio sociológico del desarrollo científico. [3]
1969: Minsky y Papert muestran las limitaciones de los perceptrones, lo que aniquiló la investigación en redes neuronales durante una década