La historia de la inteligencia artificial ( IA ) comenzó en la antigüedad , con mitos, historias y rumores de seres artificiales dotados de inteligencia o conciencia por maestros artesanos. El estudio de la lógica y el razonamiento formal desde la antigüedad hasta la actualidad condujo directamente a la invención de la computadora digital programable en la década de 1940, una máquina basada en la esencia abstracta del razonamiento matemático. Este dispositivo y las ideas que lo sustentaban inspiraron a un puñado de científicos a comenzar a discutir seriamente la posibilidad de construir un cerebro electrónico .
El campo de la investigación en IA se fundó en un taller celebrado en el campus del Dartmouth College durante el verano de 1956. [1] Los asistentes al taller se convirtieron en los líderes de la investigación en IA durante décadas. Muchos de ellos predijeron que dentro de una generación existirían máquinas tan inteligentes como los humanos. El gobierno de Estados Unidos proporcionó millones de dólares para hacer realidad esta visión. [2]
Finalmente, se hizo evidente que los investigadores habían subestimado enormemente la dificultad del proyecto. [3] En 1974, las críticas de James Lighthill y la presión del Congreso de los Estados Unidos llevaron a los gobiernos de los Estados Unidos y el Reino Unido a dejar de financiar la investigación no dirigida en inteligencia artificial. Siete años después, una iniciativa visionaria del gobierno japonés y el éxito de los sistemas expertos revitalizaron la inversión en IA y, a finales de los años 80, la industria había crecido hasta alcanzar los miles de millones de dólares. Sin embargo, el entusiasmo de los inversores disminuyó en la década de 1990 y el campo fue criticado en la prensa y evitado por la industria (un período conocido como el " invierno de la IA "). No obstante, la investigación y la financiación siguieron creciendo bajo otros nombres.
A principios de la década de 2000, el aprendizaje automático se aplicó a una amplia gama de problemas en el ámbito académico y en la industria. El éxito se debió a la disponibilidad de hardware informático potente, la recopilación de inmensos conjuntos de datos y la aplicación de métodos matemáticos sólidos. En 2012, el aprendizaje profundo demostró ser una tecnología revolucionaria que eclipsó a todos los demás métodos. La arquitectura de transformadores debutó en 2017 y se utilizó para producir impresionantes aplicaciones de IA generativa . Inv[AI boom|IA surgió]] en la década de 2020.
En la mitología griega, Talos era un gigante de bronce que actuaba como guardián de la isla de Creta. Lanzaba rocas a los barcos de los invasores y completaba tres circuitos alrededor del perímetro de la isla diariamente. [4] Según la Bibliotheke de Pseudo-Apolodoro , Hefesto forjó a Talos con la ayuda de un cíclope y le presentó el autómata como regalo a Minos . [5] En las Argonáuticas , Jasón y los argonautas derrotaron a Talos quitando un tapón cerca de su pie, lo que provocó que el icor vital fluyera de su cuerpo y lo dejara sin vida. [6]
Pigmalión fue un legendario rey y escultor de la mitología griega, representado de forma célebre en Las metamorfosis de Ovidio . En el décimo libro del poema narrativo de Ovidio, Pigmalión siente asco por las mujeres cuando presencia la forma en que las Propoétides se prostituyen. A pesar de ello, hace ofrendas en el templo de Venus pidiendo a la diosa que le traiga una mujer igual a una estatua que él talló. [7]
En De la naturaleza de las cosas , el alquimista suizo Paracelso describe un procedimiento que, según él, permite fabricar un "hombre artificial". Al colocar el "esperma de un hombre" en estiércol de caballo y alimentarlo con el "Arcano de la sangre del hombre" después de 40 días, el brebaje se convertirá en un niño vivo. [8]
El primer relato escrito sobre la fabricación de golems se encuentra en los escritos de Eleazar ben Judah de Worms a principios del siglo XIII. [9] Durante la Edad Media, se creía que la animación de un golem podía lograrse mediante la inserción de un trozo de papel con cualquiera de los nombres de Dios en él, en la boca de la figura de arcilla. [10] A diferencia de los autómatas legendarios como Brazen Heads , [11] un golem no podía hablar. [12]
Takwin , la creación artificial de vida, fue un tema frecuente en los manuscritos alquímicos ismaelitas , especialmente en aquellos atribuidos a Jabir ibn Hayyan . Los alquimistas islámicos intentaron crear una amplia gama de formas de vida a través de su trabajo, desde plantas hasta animales. [13]
En Fausto, segunda parte de la tragedia de Johann Wolfgang von Goethe , un homúnculo fabricado mediante alquimia , destinado a vivir para siempre en el frasco en el que fue creado, intenta nacer con un cuerpo humano completo. Sin embargo, al iniciarse esta transformación, el frasco se rompe y el homúnculo muere. [14]
En el siglo XIX, las ideas sobre hombres artificiales y máquinas pensantes se convirtieron en un tema popular en la ficción. Obras notables como Frankenstein de Mary Shelley y RUR (Rossum's Universal Robots) de Karel Čapek [15] exploraron el concepto de vida artificial. Ensayos especulativos, como " Darwin entre las máquinas " de Samuel Butler [16] y " El jugador de ajedrez de Maelzel " de Edgar Allan Poe [17] reflejaron el creciente interés de la sociedad en las máquinas con inteligencia artificial. La IA sigue siendo un tema común en la ciencia ficción actual. [18]
Autómatas humanoides realistas fueron construidos por artesanos de muchas civilizaciones, incluido Yan Shi , [19] Héroe de Alejandría , [20] Al-Jazari , [21] Haroun al-Rashid , [22] Jacques de Vaucanson , [23] [24] Leonardo Torres y Quevedo , [25] Pierre Jaquet-Droz y Wolfgang von Kempelen . [26] [27]
Los autómatas más antiguos conocidos fueron las estatuas sagradas del antiguo Egipto y Grecia . [28] [29] Los fieles creían que los artesanos habían imbuido a estas figuras de mentes muy reales, capaces de sabiduría y emoción: Hermes Trimegisto escribió que "al descubrir la verdadera naturaleza de los dioses, el hombre ha sido capaz de reproducirla". [30] El erudito inglés Alexander Neckham afirmó que el antiguo poeta romano Virgilio había construido un palacio con estatuas de autómatas. [31]
Durante el período moderno temprano, se decía que estos autómatas legendarios poseían la capacidad mágica de responder a las preguntas que se les hacían. Se decía que el alquimista medieval tardío y protoprotestante Roger Bacon había fabricado una cabeza de bronce , habiendo desarrollado una leyenda de haber sido un mago. [32] [33] Estas leyendas eran similares al mito nórdico de la Cabeza de Mímir . Según la leyenda, Mímir era conocido por su intelecto y sabiduría, y fue decapitado en la Guerra Æsir-Vanir . Se dice que Odín "embalsamó" la cabeza con hierbas y pronunció encantamientos sobre ella de modo que la cabeza de Mímir siguió siendo capaz de hablar sabiduría a Odín. Odín luego mantuvo la cabeza cerca de él para pedirle consejo. [34]
La inteligencia artificial se basa en la suposición de que el proceso del pensamiento humano puede mecanizarse. El estudio del razonamiento mecánico (o "formal") tiene una larga historia. Los filósofos chinos , indios y griegos desarrollaron métodos estructurados de deducción formal hacia el primer milenio a. C. Sus ideas fueron desarrolladas a lo largo de los siglos por filósofos como Aristóteles (que realizó un análisis formal del silogismo ), [35] Euclides (cuyos Elementos fueron un modelo de razonamiento formal), al-Khwārizmī (que desarrolló el álgebra y dio su nombre a la palabra algoritmo ) y filósofos escolásticos europeos como Guillermo de Ockham y Duns Scoto . [36]
El filósofo español Ramon Llull (1232-1315) desarrolló varias máquinas lógicas dedicadas a la producción de conocimiento por medios lógicos; [37] [38] Llull describió sus máquinas como entidades mecánicas que podían combinar verdades básicas e innegables mediante operaciones lógicas simples, producidas por la máquina mediante significados mecánicos, de tal manera que se produjera todo el conocimiento posible. [39] El trabajo de Llull tuvo una gran influencia en Gottfried Leibniz , quien reelaboró sus ideas. [40]
En el siglo XVII, Leibniz , Thomas Hobbes y René Descartes exploraron la posibilidad de que todo pensamiento racional pudiera hacerse tan sistemático como el álgebra o la geometría. [41] Hobbes escribió en Leviatán : "Porque la razón ... no es nada más que cálculo , es decir, sumar y restar". [42] Leibniz imaginó un lenguaje universal de razonamiento, la characteria universalis , que reduciría la argumentación al cálculo de modo que "no habría más necesidad de disputa entre dos filósofos que entre dos contables. Porque bastaría con tomar sus lápices en la mano, bajarlos a sus pizarras, y decirse el uno al otro (con un amigo como testigo, si así lo deseaban): Calculemos ". [43] Estos filósofos habían comenzado a articular la hipótesis del sistema de símbolos físicos que se convertiría en la fe rectora de la investigación de la IA.
El estudio de la lógica matemática proporcionó el avance esencial que hizo que la inteligencia artificial pareciera plausible. Las bases habían sido establecidas por obras como Las leyes del pensamiento de Boole y Begriffsschrift de Frege . [44] Basándose en el sistema de Frege , Russell y Whitehead presentaron un tratamiento formal de los fundamentos de las matemáticas en su obra maestra, los Principia Mathematica en 1913. Inspirado por el éxito de Russell , David Hilbert desafió a los matemáticos de los años 1920 y 1930 a responder a esta pregunta fundamental: "¿se puede formalizar todo el razonamiento matemático?" [36] Su pregunta fue respondida por la prueba de incompletitud de Gödel , [45] la máquina de Turing [45] y el cálculo Lambda de Church . [a]
Su respuesta fue sorprendente en dos sentidos. En primer lugar, demostraron que, de hecho, había límites a lo que la lógica matemática podía lograr. Pero en segundo lugar (y más importante para la IA), su trabajo sugería que, dentro de esos límites, cualquier forma de razonamiento matemático podía mecanizarse. La tesis de Church-Turing implicaba que un dispositivo mecánico, que mezclara símbolos tan simples como 0 y 1 , podía imitar cualquier proceso concebible de deducción matemática. [45] La idea clave fue la máquina de Turing , una construcción teórica simple que capturaba la esencia de la manipulación abstracta de símbolos. [48] Esta invención inspiraría a un puñado de científicos a comenzar a discutir la posibilidad de máquinas pensantes.
Las máquinas calculadoras fueron diseñadas o construidas en la antigüedad y a lo largo de la historia por muchas personas, entre ellas Gottfried Leibniz , [38] [49] Joseph Marie Jacquard , [50] Charles Babbage , [50] [51] Percy Ludgate , [52] Leonardo Torres Quevedo , [53] Vannevar Bush , [54] y otros. Ada Lovelace especuló que la máquina de Babbage era "una máquina pensante o ... de razonamiento", pero advirtió que "es deseable protegerse contra la posibilidad de que surjan ideas exageradas en cuanto a los poderes" de la máquina. [55] [56]
Las primeras computadoras modernas fueron las máquinas masivas de la Segunda Guerra Mundial (como la Z3 de Konrad Zuse , la Heath Robinson y Colossus de Alan Turing , la ABC de Atanasoff y Berry y la ENIAC de la Universidad de Pensilvania ). [57] La ENIAC se basó en los fundamentos teóricos establecidos por Alan Turing y desarrollados por John von Neumann , [58] y resultó ser la más influyente. [57]
Las primeras investigaciones sobre máquinas pensantes se inspiraron en una confluencia de ideas que se hicieron predominantes a finales de los años 30, 40 y principios de los 50. Investigaciones recientes en neurología habían demostrado que el cerebro era una red eléctrica de neuronas que se activaban en pulsos de todo o nada. La cibernética de Norbert Wiener describía el control y la estabilidad en las redes eléctricas. La teoría de la información de Claude Shannon describía señales digitales (es decir, señales de todo o nada). La teoría de la computación de Alan Turing mostraba que cualquier forma de computación podía describirse digitalmente. La estrecha relación entre estas ideas sugería que podría ser posible construir un "cerebro electrónico".
En las décadas de 1940 y 1950, un puñado de científicos de diversos campos (matemáticas, psicología, ingeniería, economía y ciencias políticas) exploraron varias direcciones de investigación que serían vitales para la investigación posterior en IA. [59] Alan Turing fue una de las primeras personas en investigar seriamente la posibilidad teórica de la "inteligencia de las máquinas". [60] El campo de la " investigación en inteligencia artificial " se fundó como disciplina académica en 1956. [61]
En 1950 Turing publicó un artículo histórico " Computing Machinery and Intelligence ", en el que especuló sobre la posibilidad de crear máquinas que piensen. [63] [b] En el artículo, señaló que el "pensamiento" es difícil de definir e ideó su famoso Test de Turing : si una máquina pudiera mantener una conversación (a través de un teleimpresor ) que fuera indistinguible de una conversación con un ser humano, entonces era razonable decir que la máquina estaba "pensando". [64] Esta versión simplificada del problema le permitió a Turing argumentar convincentemente que una "máquina pensante" era al menos plausible y el artículo respondió a todas las objeciones más comunes a la proposición. [65] El Test de Turing fue la primera propuesta seria en la filosofía de la inteligencia artificial .
Walter Pitts y Warren McCulloch analizaron redes de neuronas artificiales idealizadas y mostraron cómo podrían realizar funciones lógicas simples en 1943. Fueron los primeros en describir lo que los investigadores posteriores llamarían una red neuronal . [66] El artículo estuvo influenciado por el artículo de Turing ' On Computable Numbers ' de 1936 que usaba 'neuronas' booleanas de dos estados similares, pero fue el primero en aplicarlo a la función neuronal. [60] Uno de los estudiantes inspirados por Pitts y McCulloch fue Marvin Minsky , quien era un estudiante de posgrado de 24 años en ese momento. En 1951, Minsky y Dean Edmonds construyeron la primera máquina de red neuronal, el SNARC . [67] Minsky más tarde se convertiría en uno de los líderes e innovadores más importantes en IA.
Los robots experimentales, como las tortugas de W. Grey Walter y la Bestia de Johns Hopkins , se construyeron en la década de 1950. Estas máquinas no utilizaban computadoras, electrónica digital ni razonamiento simbólico; estaban controladas completamente por circuitos analógicos. [68]
En 1951, utilizando la máquina Ferranti Mark 1 de la Universidad de Manchester , Christopher Strachey escribió un programa de damas [69] y Dietrich Prinz escribió uno para ajedrez. [70] El programa de damas de Arthur Samuel , tema de su artículo de 1959 "Algunos estudios sobre aprendizaje automático utilizando el juego de damas", finalmente logró la habilidad suficiente para desafiar a un aficionado respetable. [71] El programa de Samuel fue uno de los primeros usos de lo que más tarde se llamaría aprendizaje automático . [72] La IA de juegos continuaría siendo utilizada como una medida de progreso en IA a lo largo de su historia.
Cuando a mediados de los años cincuenta se hizo posible el acceso a las computadoras digitales , algunos científicos reconocieron instintivamente que una máquina que pudiera manipular números también podía manipular símbolos y que la manipulación de símbolos bien podría ser la esencia del pensamiento humano. Se trataba de un nuevo enfoque para crear máquinas pensantes. [73] [74]
En 1955, Allen Newell y el futuro premio Nobel Herbert A. Simon crearon el " Teórico de la lógica ", con la ayuda de JC Shaw . El programa acabaría demostrando 38 de los primeros 52 teoremas de los Principia Mathematica de Russell y Whitehead , y encontraría pruebas nuevas y más elegantes para algunos de ellos. [75] Simon dijo que habían "resuelto el venerable problema mente/cuerpo , explicando cómo un sistema compuesto de materia puede tener las propiedades de la mente". [76] [c] El paradigma de razonamiento simbólico que introdujeron dominaría la investigación y la financiación de la IA hasta mediados de los años 90, además de inspirar la revolución cognitiva .
El taller de Dartmouth de 1956 fue un evento fundamental que marcó el inicio formal de la IA como disciplina académica. [61] Fue organizado por Marvin Minsky y John McCarthy , con el apoyo de dos científicos de alto nivel, Claude Shannon y Nathan Rochester de IBM . La propuesta para la conferencia declaró que tenían la intención de probar la afirmación de que "cada aspecto del aprendizaje o cualquier otra característica de la inteligencia puede describirse con tanta precisión que se puede hacer que una máquina lo simule". [77] [d] El término "Inteligencia Artificial" fue introducido por John McCarthy en el taller. [e] Los participantes incluyeron a Ray Solomonoff , Oliver Selfridge , Trenchard More , Arthur Samuel , Allen Newell y Herbert A. Simon , todos los cuales crearían programas importantes durante las primeras décadas de la investigación de la IA. [83] [f] En el taller, Newell y Simon presentaron el "Teórico de la lógica". [84] El taller fue el momento en el que la IA obtuvo su nombre, su misión, su primer gran éxito y sus actores clave, y es ampliamente considerado como el nacimiento de la IA. [g]
En el otoño de 1956, Newell y Simon también presentaron el Logic Theorist en una reunión del Grupo de Interés Especial en Teoría de la Información en el Instituto Tecnológico de Massachusetts (MIT). En la misma reunión, Noam Chomsky discutió su gramática generativa y George Miller describió su artículo de referencia " El número mágico siete, más o menos dos ". Miller escribió: "Salí del simposio con una convicción, más intuitiva que racional, de que la psicología experimental, la lingüística teórica y la simulación por computadora de los procesos cognitivos eran todas piezas de un todo más grande". [86] [57]
Esta reunión fue el comienzo de la " revolución cognitiva ", un cambio de paradigma interdisciplinario en psicología, filosofía, informática y neurociencia. Inspiró la creación de los subcampos de la inteligencia artificial simbólica , la lingüística generativa , la ciencia cognitiva , la psicología cognitiva , la neurociencia cognitiva y las escuelas filosóficas del computacionalismo y el funcionalismo . Todos estos campos utilizaban herramientas relacionadas para modelar la mente y los resultados descubiertos en un campo eran relevantes para los demás.
El enfoque cognitivo permitió a los investigadores considerar "objetos mentales" como pensamientos, planes, objetivos, hechos o recuerdos, a menudo analizados mediante símbolos de alto nivel en redes funcionales. Estos objetos habían sido prohibidos por ser "inobservables" por paradigmas anteriores como el conductismo . [h] Los objetos mentales simbólicos se convertirían en el principal foco de investigación y financiación de la IA durante las siguientes décadas.
Los programas desarrollados en los años posteriores al Taller de Dartmouth fueron, para la mayoría de la gente, sencillamente "asombrosos": [i] las computadoras resolvían problemas de álgebra, demostraban teoremas de geometría y aprendían a hablar inglés. Pocos en ese momento habrían creído que semejante comportamiento "inteligente" por parte de las máquinas fuera posible. [90] [91] [89] Los investigadores expresaron un intenso optimismo en privado y en la prensa, prediciendo que se construiría una máquina completamente inteligente en menos de 20 años. [92] Agencias gubernamentales como la Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA, entonces conocida como "ARPA") invirtieron dinero en el campo. [93] Se establecieron laboratorios de Inteligencia Artificial en varias universidades británicas y estadounidenses a finales de los años 1950 y principios de los 1960. [60]
A finales de los años 50 y en los años 60 hubo muchos programas exitosos y nuevas direcciones. Entre los más influyentes se encuentran los siguientes:
Muchos de los primeros programas de IA utilizaban el mismo algoritmo básico . Para alcanzar un objetivo (como ganar un juego o demostrar un teorema), avanzaban paso a paso hacia él (haciendo un movimiento o una deducción) como si estuvieran buscando en un laberinto, retrocediendo cada vez que llegaban a un callejón sin salida. [94] La principal dificultad era que, para muchos problemas, el número de caminos posibles a través del "laberinto" era astronómico (una situación conocida como " explosión combinatoria "). Los investigadores reducirían el espacio de búsqueda utilizando heurísticas que eliminarían los caminos que tenían pocas probabilidades de conducir a una solución. [95]
Newell y Simon intentaron capturar una versión general de este algoritmo en un programa llamado " General Problem Solver ". [96] [97] Otros programas de "búsqueda" fueron capaces de realizar tareas impresionantes como resolver problemas de geometría y álgebra, como el Geometry Theorem Prover de Herbert Gelernter (1958) [98] y Symbolic Automatic Integrator (SAINT), escrito por el estudiante de Minsky, James Slagle, en 1961. [99] [100] Otros programas buscaban a través de objetivos y subobjetivos para planificar acciones, como el sistema STRIPS desarrollado en Stanford para controlar el comportamiento del robot Shakey . [101]
Un objetivo importante de la investigación en IA es permitir que las computadoras se comuniquen en lenguajes naturales como el inglés. Un éxito temprano fue el programa STUDENT de Daniel Bobrow , que podía resolver problemas de álgebra de secundaria. [102]
Una red semántica representa conceptos (por ejemplo, "casa", "puerta") como nodos y relaciones entre conceptos como vínculos entre los nodos (por ejemplo, "tiene un"). El primer programa de IA que utilizó una red semántica fue escrito por Ross Quillian [103] y la versión más exitosa (y controvertida) fue la teoría de dependencia conceptual de Roger Schank . [104]
El ELIZA de Joseph Weizenbaum podía mantener conversaciones tan realistas que a veces los usuarios se engañaban y creían que se estaban comunicando con un ser humano y no con un programa informático (véase el efecto ELIZA ). Pero, de hecho, ELIZA simplemente daba una respuesta predefinida o repetía lo que se le decía, reformulando su respuesta con algunas reglas gramaticales. ELIZA fue el primer chatbot . [105] [106]
A finales de los años 60, Marvin Minsky y Seymour Papert , del Laboratorio de IA del MIT, propusieron que la investigación en IA debería centrarse en situaciones artificialmente simples conocidas como micromundos. [j] Señalaron que en ciencias exitosas como la física, los principios básicos a menudo se entendían mejor utilizando modelos simplificados como planos sin fricción o cuerpos perfectamente rígidos. Gran parte de la investigación se centró en un " mundo de bloques ", que consiste en bloques de colores de varias formas y tamaños dispuestos sobre una superficie plana. [107]
Este paradigma condujo al trabajo innovador en visión artificial por parte de Gerald Sussman , Adolfo Guzmán, David Waltz (quien inventó la " propagación de restricciones "), y especialmente Patrick Winston . Al mismo tiempo, Minsky y Papert construyeron un brazo robótico que podía apilar bloques, dando vida al mundo de los bloques. El SHRDLU de Terry Winograd podía comunicarse en oraciones en inglés común sobre el micromundo, planificar operaciones y ejecutarlas. [107]
En la década de 1960, la financiación se dirigió principalmente a laboratorios que investigaban IA simbólica , aunque varias personas todavía realizaban investigaciones en redes neuronales.
El perceptrón , una red neuronal de una sola capa, fue introducido en 1958 por Frank Rosenblatt [108] (quien había sido compañero de escuela de Marvin Minsky en la Bronx High School of Science ). [109] Como la mayoría de los investigadores de IA, era optimista sobre su poder y predijo que un perceptrón "con el tiempo podría aprender, tomar decisiones y traducir idiomas". [110] Rosenblatt fue financiado principalmente por la Oficina de Investigación Naval . [111]
Bernard Widrow y su estudiante Ted Hoff construyeron ADALINE (1960) y MADALINE (1962), que tenían hasta 1000 pesos ajustables. [112] [113] Un grupo en el Instituto de Investigación de Stanford dirigido por Charles A. Rosen y Alfred E. (Ted) Brain construyó dos máquinas de redes neuronales llamadas MINOS I (1960) y II (1963), principalmente financiadas por el Cuerpo de Señales del Ejército de los EE . UU. MINOS II [114] tenía 6600 pesos ajustables, [115] y estaba controlado con una computadora SDS 910 en una configuración llamada MINOS III (1968), que podía clasificar símbolos en mapas del ejército y reconocer caracteres impresos a mano en hojas de codificación Fortran . [116] [117] La mayor parte de la investigación de redes neuronales durante este período temprano implicó la construcción y el uso de hardware a medida, en lugar de simulación en computadoras digitales. [k]
Sin embargo, en parte debido a la falta de resultados y en parte debido a la competencia de la investigación de IA simbólica , el proyecto MINOS se quedó sin financiación en 1966. Rosenblatt no logró asegurar financiación continua en la década de 1960. [118] En 1969, la investigación se detuvo repentinamente con la publicación del libro de Minsky y Papert de 1969 Perceptrons . [119] Sugirió que existían graves limitaciones a lo que los perceptrones podían hacer y que las predicciones de Rosenblatt habían sido extremadamente exageradas. El efecto del libro fue que prácticamente no se financió ninguna investigación en conexionismo durante 10 años. [120] La competencia por la financiación gubernamental terminó con la victoria de los enfoques de IA simbólica sobre las redes neuronales. [117] [118]
Minsky (que había trabajado en SNARC ) se convirtió en un firme opositor a la IA conexionista pura. Widrow (que había trabajado en ADALINE ) se volcó al procesamiento adaptativo de señales. El grupo SRI (que trabajó en MINOS) se volcó a la IA simbólica y la robótica. [117] [118]
El principal problema era la incapacidad de entrenar redes multicapa (ya se habían utilizado versiones de retropropagación en otros campos, pero estos investigadores no las conocían). [121] [120] La comunidad de IA se percató de la retropropagación en los años 80, [122] y, en el siglo XXI, las redes neuronales tendrían un enorme éxito, cumpliendo todas las predicciones optimistas de Rosenblatt. Sin embargo, Rosenblatt no vivió para verlo, ya que murió en un accidente de barco en 1971. [123]
La primera generación de investigadores de IA hizo estas predicciones sobre su trabajo:
En junio de 1963, el MIT recibió una subvención de 2,2 millones de dólares de la recién creada Agencia de Proyectos de Investigación Avanzada (ARPA, más tarde conocida como DARPA ). El dinero se utilizó para financiar el proyecto MAC , que absorbió al "Grupo de IA" fundado por Minsky y McCarthy cinco años antes. DARPA continuó proporcionando 3 millones de dólares cada año hasta los años 70. [130] DARPA hizo subvenciones similares al programa de Newell y Simon en la Universidad Carnegie Mellon y al Laboratorio de IA de la Universidad de Stanford , fundado por John McCarthy en 1963. [131] Otro laboratorio de IA importante fue establecido en la Universidad de Edimburgo por Donald Michie en 1965. [132] Estas cuatro instituciones seguirían siendo los principales centros de investigación y financiación de IA en el ámbito académico durante muchos años. [133] [m]
El dinero se entregó con pocas condiciones: JCR Licklider , entonces director de ARPA, creía que su organización debía "financiar a personas, no a proyectos" y permitía a los investigadores seguir cualquier dirección que pudiera interesarles. [135] Esto creó una atmósfera de libertad de acción en el MIT que dio origen a la cultura hacker , [136] pero este enfoque de "no intervención" no duró.
En la década de 1970, la IA fue objeto de críticas y reveses financieros. Los investigadores de IA no habían logrado apreciar la dificultad de los problemas a los que se enfrentaban. Su tremendo optimismo había generado expectativas públicas imposibles de alcanzar, y cuando los resultados prometidos no se materializaron, la financiación destinada a la IA se redujo drásticamente. [137] La falta de éxito indicó que las técnicas que utilizaban los investigadores de IA en ese momento eran insuficientes para lograr sus objetivos. [138] [139]
Sin embargo, estos reveses no afectaron el crecimiento y el progreso del campo. Los recortes de financiación solo afectaron a un puñado de laboratorios importantes [140] y las críticas fueron en gran medida ignoradas. [141] El interés público general en el campo continuó creciendo, [140] el número de investigadores aumentó drásticamente, [140] y se exploraron nuevas ideas en programación lógica , razonamiento de sentido común y muchas otras áreas. El historiador Thomas Haigh argumentó en 2023 que no había invierno, [140] y el investigador de IA Nils Nilsson describió este período como el momento más "emocionante" para trabajar en IA. [142]
A principios de los años setenta, las capacidades de los programas de IA eran limitadas. Incluso los más impresionantes sólo podían manejar versiones triviales de los problemas que se suponía que debían resolver; [n] todos los programas eran, en cierto sentido, "juguetes". [144] Los investigadores de IA habían comenzado a encontrarse con varios límites que sólo se superarían décadas después, y otros que todavía obstaculizan el campo en la década de 2020:
Las agencias que financiaban la investigación en IA, como el gobierno británico , DARPA y el Consejo Nacional de Investigación (NRC), se sintieron frustradas por la falta de progreso y finalmente cortaron casi toda la financiación para la investigación en IA no dirigida. El patrón comenzó en 1966 cuando el informe del Comité Asesor de Procesamiento Automático del Lenguaje (ALPAC) criticó los esfuerzos de traducción automática. Después de gastar $ 20 millones, el NRC terminó todo apoyo. [154] En 1973, el informe Lighthill sobre el estado de la investigación en IA en el Reino Unido criticó el fracaso de la IA para lograr sus "grandiosos objetivos" y condujo al desmantelamiento de la investigación en IA en ese país. [155] (El informe mencionó específicamente el problema de la explosión combinatoria como una razón para las fallas de la IA). [139] [143] [s] DARPA estaba profundamente decepcionada con los investigadores que trabajaban en el programa de Investigación de Comprensión del Habla en CMU y canceló una subvención anual de $ 3 millones. [157] [t]
Hans Moravec atribuyó la crisis a las predicciones poco realistas de sus colegas. "Muchos investigadores se vieron atrapados en una red de exageraciones cada vez mayores". [158] [u] Sin embargo, había otro problema: desde la aprobación de la Enmienda Mansfield en 1969, la DARPA había estado bajo una presión cada vez mayor para financiar "investigación directa orientada a una misión, en lugar de investigación básica no dirigida". La financiación para la exploración creativa y libre que se había llevado a cabo en los años 60 no provendría de la DARPA, que en su lugar dirigió el dinero a proyectos específicos con objetivos claros, como tanques autónomos y sistemas de gestión de batalla . [159] [v]
Los principales laboratorios (MIT, Stanford, CMU y Edimburgo) habían estado recibiendo un generoso apoyo de sus gobiernos y, cuando se les retiró, estos fueron los únicos lugares que se vieron seriamente afectados por los recortes presupuestarios. Los miles de investigadores fuera de estas instituciones y los muchos miles más que se estaban incorporando al campo no se vieron afectados. [140]
Varios filósofos tenían fuertes objeciones a las afirmaciones hechas por los investigadores de IA. Uno de los primeros fue John Lucas , quien argumentó que el teorema de incompletitud de Gödel mostraba que un sistema formal (como un programa de computadora) nunca podría ver la verdad de ciertas afirmaciones, mientras que un ser humano sí podría. [161] Hubert Dreyfus ridiculizó las promesas incumplidas de la década de 1960 y criticó las suposiciones de la IA, argumentando que el razonamiento humano en realidad involucraba muy poco "procesamiento de símbolos" y una gran cantidad de " saber cómo " instintivo , inconsciente y corporizado . [w] [163] El argumento de la habitación china de John Searle , presentado en 1980, intentó demostrar que no se podía decir que un programa "entendiera" los símbolos que usa (una cualidad llamada " intencionalidad "). Si los símbolos no tienen significado para la máquina, argumentó Searle, entonces la máquina no puede describirse como "pensante". [164]
Los investigadores de IA no se tomaron en serio estas críticas. Problemas como la intratabilidad y el conocimiento de sentido común parecían mucho más inmediatos y serios. No estaba claro qué diferencia hacían el " saber cómo " o la " intencionalidad " en un programa informático real. Minsky , del MIT, dijo de Dreyfus y Searle que "ellos no entienden y deberían ser ignorados". [165] Dreyfus, que también enseñaba en el MIT , fue tratado con frialdad: más tarde dijo que los investigadores de IA "no se atrevieron a ser vistos almorzando conmigo". [166] Joseph Weizenbaum , el autor de ELIZA , también fue un crítico abierto de las posiciones de Dreyfus, pero "dejó en claro deliberadamente que [el trato que sus colegas de IA dieron a Dreyfus] no era la forma de tratar a un ser humano", [x] y fue poco profesional e infantil. [168]
Weizenbaum empezó a tener serias dudas éticas sobre la IA cuando Kenneth Colby escribió un "programa informático que puede llevar a cabo un diálogo psicoterapéutico " basado en ELIZA. [169] [170] [y] Weizenbaum se sintió perturbado por el hecho de que Colby viera un programa sin mente como una herramienta terapéutica seria. Comenzó una disputa, y la situación no mejoró cuando Colby no le dio crédito a Weizenbaum por su contribución al programa. En 1976, Weizenbaum publicó Computer Power and Human Reason , en el que sostenía que el mal uso de la inteligencia artificial tiene el potencial de devaluar la vida humana. [172]
La lógica fue introducida en la investigación de IA ya en 1958, por John McCarthy en su propuesta Advice Taker . [173] [98] En 1963, J. Alan Robinson había descubierto un método simple para implementar la deducción en computadoras, el algoritmo de resolución y unificación . [98] Sin embargo, las implementaciones sencillas, como las que intentaron McCarthy y sus estudiantes a fines de la década de 1960, eran especialmente intratables: los programas requerían cantidades astronómicas de pasos para demostrar teoremas simples. [173] [174] Un enfoque más fructífero para la lógica fue desarrollado en la década de 1970 por Robert Kowalski en la Universidad de Edimburgo , y pronto esto condujo a la colaboración con los investigadores franceses Alain Colmerauer y Philippe Roussel quienes crearon el exitoso lenguaje de programación lógica Prolog . [175] Prolog usa un subconjunto de lógica ( cláusulas Horn , estrechamente relacionadas con " reglas " y " reglas de producción ") que permiten un cálculo manejable. Las reglas seguirían siendo influyentes, proporcionando una base para los sistemas expertos de Edward Feigenbaum y el trabajo continuo de Allen Newell y Herbert A. Simon que conduciría a Soar y sus teorías unificadas de la cognición . [176]
Los críticos del enfoque lógico señalaron, como lo había hecho Dreyfus , que los seres humanos rara vez utilizaban la lógica cuando resolvían problemas. Los experimentos de psicólogos como Peter Wason , Eleanor Rosch , Amos Tversky , Daniel Kahneman y otros proporcionaron pruebas de ello. [z] McCarthy respondió que lo que hacen las personas es irrelevante. Argumentó que lo que realmente se necesita son máquinas que puedan resolver problemas, no máquinas que piensen como las personas. [aa]
Entre los críticos del enfoque de McCarthy se encontraban sus colegas del MIT en todo el país . Marvin Minsky , Seymour Papert y Roger Schank estaban tratando de resolver problemas como "comprensión de historias" y "reconocimiento de objetos" que requerían que una máquina pensara como una persona. Para usar conceptos ordinarios como "silla" o "restaurante", tenían que hacer las mismas suposiciones ilógicas que la gente normalmente hace. Desafortunadamente, conceptos imprecisos como estos son difíciles de representar en lógica. El MIT eligió en cambio centrarse en escribir programas que resolvieran una tarea dada sin usar definiciones abstractas de alto nivel o teorías generales de la cognición, y medir el rendimiento mediante pruebas iterativas, en lugar de argumentos de primeros principios. Schank describió sus enfoques "antilógicos" como desaliñados , en oposición al paradigma ordenado utilizado por McCarthy , Kowalski , Feigenbaum , Newell y Simon . [177] [ab]
En 1975, en un artículo seminal, Minsky señaló que muchos de sus colegas investigadores estaban usando el mismo tipo de herramienta: un marco que captura todas nuestras suposiciones de sentido común sobre algo. Por ejemplo, si usamos el concepto de un pájaro, hay una constelación de hechos que vienen inmediatamente a la mente: podríamos suponer que vuela, come gusanos, etc. (ninguno de los cuales es cierto para todos los pájaros). Minsky asoció estas suposiciones con la categoría general y podrían ser heredadas por los marcos para subcategorías e individuos, o anuladas según fuera necesario. Llamó a estas estructuras marcos . Schank usó una versión de marcos que llamó " scripts " para responder con éxito preguntas sobre cuentos cortos en inglés. [178] Los marcos eventualmente serían ampliamente utilizados en ingeniería de software bajo el nombre de programación orientada a objetos .
Los lógicos aceptaron el desafío. Pat Hayes afirmó que "la mayoría de los 'marcos' son simplemente una nueva sintaxis para partes de la lógica de primer orden", pero señaló que "hay uno o dos detalles aparentemente menores que, sin embargo, dan muchos problemas, especialmente los valores predeterminados". [179]
Ray Reiter admitió que "las lógicas convencionales, como la lógica de primer orden, carecen del poder expresivo para representar adecuadamente el conocimiento requerido para razonar por defecto". [180] Propuso ampliar la lógica de primer orden con un supuesto de mundo cerrado de que una conclusión se cumple (por defecto) si no se puede demostrar su contrario. Mostró cómo tal supuesto corresponde al supuesto de sentido común hecho en el razonamiento con marcos. También mostró que tiene su "equivalente procedimental" como negación como fracaso en Prolog . El supuesto de mundo cerrado, tal como lo formuló Reiter, "no es una noción de primer orden. (Es una meta-noción.)" [180] Sin embargo, Keith Clark mostró que la negación como fracaso finito puede entenderse como razonamiento implícito con definiciones en lógica de primer orden que incluyen un supuesto de nombre único de que diferentes términos denotan diferentes individuos. [181]
A finales de la década de 1970 y durante toda la década de 1980, se desarrollaron diversas lógicas y extensiones de la lógica de primer orden, tanto para la negación como para el error en la programación lógica como para el razonamiento por defecto en general. En conjunto, estas lógicas se conocen como lógicas no monótonas .
En la década de 1980, las corporaciones de todo el mundo adoptaron una forma de programa de IA llamado " sistemas expertos " y el conocimiento se convirtió en el foco de la investigación convencional sobre IA. Los gobiernos proporcionaron financiación sustancial, como el proyecto informático de quinta generación de Japón y la Iniciativa de Computación Estratégica de Estados Unidos . "En general, la industria de la IA experimentó un auge desde unos pocos millones de dólares en 1980 a miles de millones de dólares en 1988". [122]
Un sistema experto es un programa que responde preguntas o resuelve problemas sobre un dominio específico de conocimiento, utilizando reglas lógicas que se derivan del conocimiento de los expertos. [182] Los primeros ejemplos fueron desarrollados por Edward Feigenbaum y sus estudiantes. Dendral , iniciado en 1965, identificó compuestos a partir de lecturas de espectrómetro. [183] [120] MYCIN , desarrollado en 1972, diagnosticó enfermedades infecciosas de la sangre. [122] Demostraron la viabilidad del enfoque.
Los sistemas expertos se restringieron a un pequeño dominio de conocimiento específico (evitando así el problema del conocimiento de sentido común ) [120] y su diseño simple hizo que fuera relativamente fácil construir programas y luego modificarlos una vez que estaban en funcionamiento. En general, los programas demostraron ser útiles : algo que la IA no había podido lograr hasta ese momento. [184]
En 1980, se completó en CMU un sistema experto llamado R1 para Digital Equipment Corporation . Fue un éxito enorme: le estaba ahorrando a la compañía 40 millones de dólares anuales en 1986. [185] Corporaciones de todo el mundo comenzaron a desarrollar e implementar sistemas expertos y en 1985 estaban gastando más de mil millones de dólares en IA, la mayor parte en departamentos de IA internos. [186] Surgió una industria para apoyarlos, incluidas empresas de hardware como Symbolics y Lisp Machines y empresas de software como IntelliCorp y Aion . [187]
En 1981, el Ministerio de Comercio Internacional e Industria de Japón destinó 850 millones de dólares al proyecto de la quinta generación de ordenadores . Sus objetivos eran escribir programas y construir máquinas que pudieran mantener conversaciones, traducir idiomas, interpretar imágenes y razonar como seres humanos. [188] Para gran disgusto de los scruffies , inicialmente eligieron Prolog como el lenguaje informático principal para el proyecto. [189]
Otros países respondieron con nuevos programas propios. El Reino Unido inició el proyecto Alvey , de 350 millones de libras esterlinas. [190] Un consorcio de empresas estadounidenses formó la Microelectronics and Computer Technology Corporation (o "MCC") para financiar proyectos a gran escala en IA y tecnología de la información. [191] [190] La DARPA también respondió, fundando la Strategic Computing Initiative y triplicando su inversión en IA entre 1984 y 1988. [192] [193]
El poder de los sistemas expertos provenía del conocimiento experto que contenían. Formaban parte de una nueva dirección en la investigación de la IA que había ido ganando terreno a lo largo de los años 70. "Los investigadores de la IA empezaban a sospechar (de mala gana, porque violaba el canon científico de la parsimonia ) que la inteligencia bien podría basarse en la capacidad de utilizar grandes cantidades de conocimiento diverso de diferentes maneras", [194] escribe Pamela McCorduck . "La gran lección de los años 70 fue que el comportamiento inteligente dependía en gran medida de manejar el conocimiento, a veces un conocimiento bastante detallado, de un dominio en el que se encontraba una tarea determinada". [195] Los sistemas basados en el conocimiento y la ingeniería del conocimiento se convirtieron en un foco importante de la investigación de la IA en los años 80. [196] Se esperaba que las grandes bases de datos resolverían el problema del conocimiento de sentido común y proporcionarían el apoyo que requería el razonamiento de sentido común .
En la década de 1980, algunos investigadores intentaron atacar directamente el problema del conocimiento del sentido común , creando una enorme base de datos que contuviera todos los hechos mundanos que conoce la persona promedio. Douglas Lenat , que inició una base de datos llamada Cyc , sostuvo que no hay atajos: la única manera de que las máquinas conozcan el significado de los conceptos humanos es enseñándoles, un concepto a la vez, a mano. [197]
Aunque la representación simbólica del conocimiento y el razonamiento lógico produjeron aplicaciones útiles en los años 80 y recibieron cantidades masivas de financiación, todavía no eran capaces de resolver problemas de percepción , robótica , aprendizaje y sentido común . Un pequeño número de científicos e ingenieros comenzaron a dudar de que el enfoque simbólico fuera suficiente para estas tareas y desarrollaron otros enfoques, como el " conexionismo ", la robótica , la computación "blanda" y el aprendizaje por refuerzo . Nils Nilsson llamó a estos enfoques "subsimbólicos".
En 1982, el físico John Hopfield fue capaz de demostrar que una forma de red neuronal (ahora llamada " red de Hopfield ") podía aprender y procesar información, y converger demostrablemente después de un tiempo suficiente bajo cualquier condición fija. Fue un gran avance, ya que anteriormente se pensaba que las redes no lineales, en general, evolucionarían de manera caótica. [198] Casi al mismo tiempo, Geoffrey Hinton y David Rumelhart popularizaron un método para entrenar redes neuronales llamado " retropropagación ". [ac] Estos dos desarrollos ayudaron a revivir la exploración de redes neuronales artificiales . [122] [199]
Las redes neuronales, junto con otros modelos similares, recibieron una amplia atención después de la publicación en 1986 de Procesamiento distribuido paralelo , una colección de artículos en dos volúmenes editados por Rumelhart y el psicólogo James McClelland . El nuevo campo fue bautizado como " conexionismo " y hubo un considerable debate entre los defensores de la IA simbólica, los "conexionistas". [122] Hinton llamó a los símbolos el " éter luminoso de la IA", es decir, un modelo de inteligencia inviable y engañoso. [122]
En 1990, Yann LeCun, de Bell Labs, utilizó redes neuronales convolucionales para reconocer dígitos escritos a mano. El sistema se utilizó ampliamente en los años 90 para leer códigos postales y cheques personales. Esta fue la primera aplicación realmente útil de las redes neuronales. [200] [201]
Rodney Brooks , Hans Moravec y otros argumentaron que, para demostrar inteligencia real, una máquina necesita tener un cuerpo : necesita percibir, moverse, sobrevivir y lidiar con el mundo. [202] Las habilidades sensoriomotoras son esenciales para habilidades de nivel superior, como el razonamiento de sentido común . No se pueden implementar de manera eficiente utilizando el razonamiento simbólico abstracto, por lo que la IA debería resolver los problemas de percepción, movilidad, manipulación y supervivencia sin utilizar la representación simbólica en absoluto. Estos investigadores de robótica abogaron por construir inteligencia "de abajo hacia arriba". [ad]
Un precursor de esta idea fue David Marr , que había llegado al MIT a finales de los años 1970 tras una trayectoria exitosa en neurociencia teórica para dirigir el grupo que estudiaba la visión . Rechazó todos los enfoques simbólicos ( tanto la lógica de McCarthy como los marcos de Minsky ), argumentando que la IA necesitaba comprender la maquinaria física de la visión desde abajo hacia arriba antes de que se llevara a cabo cualquier procesamiento simbólico. (El trabajo de Marr se vería interrumpido por la leucemia en 1980.) [204]
En su artículo de 1990 "Los elefantes no juegan al ajedrez", [205] el investigador en robótica Brooks apuntó directamente a la hipótesis del sistema de símbolos físicos , argumentando que los símbolos no siempre son necesarios ya que "el mundo es su propio mejor modelo. Siempre está exactamente actualizado. Siempre tiene todos los detalles que hay que conocer. El truco es percibirlo apropiadamente y con la suficiente frecuencia". [206]
En las décadas de 1980 y 1990, muchos científicos cognitivos también rechazaron el modelo de procesamiento de símbolos de la mente y argumentaron que el cuerpo era esencial para el razonamiento, una teoría llamada la " tesis de la mente encarnada ". [207]
La computación blanda utiliza métodos que funcionan con información incompleta e imprecisa. No intentan dar respuestas lógicas y precisas, sino que dan resultados que sólo son "probablemente" correctos. Esto les permitió resolver problemas que los métodos simbólicos precisos no podían resolver. Los artículos de prensa a menudo afirmaban que estas herramientas podían "pensar como un ser humano". [208] [209]
El influyente libro de Judea Pearl de 1988 [210] introdujo la probabilidad y la teoría de la decisión en la IA. [211] La lógica difusa , desarrollada por Lofti Zadeh en los años 60, comenzó a usarse más ampliamente en la IA y la robótica. La computación evolutiva y las redes neuronales artificiales también manejan información imprecisa y se clasifican como "blandas". En los años 90 y principios de los 2000 se desarrollaron y pusieron en uso muchas otras herramientas de computación blanda, incluidas las redes bayesianas , [211] los modelos ocultos de Markov , [211] la teoría de la información y el modelado estocástico . Estas herramientas a su vez dependían de técnicas matemáticas avanzadas como la optimización clásica . Durante un tiempo en los años 1990 y principios de los 2000, estas herramientas blandas fueron estudiadas por un subcampo de la IA llamado " inteligencia computacional ". [212]
El aprendizaje por refuerzo [213] otorga a un agente una recompensa cada vez que realiza bien una acción deseada, y puede otorgar recompensas negativas (o “castigos”) cuando realiza una mala acción. Fue descrito en la primera mitad del siglo XX por psicólogos que utilizaban modelos animales, como Thorndike [ 214] [215] Pavlov [216] y Skinner [217] . En la década de 1950, Alan Turing [215] [218] y Arthur Samuels [215] previeron el papel del aprendizaje por refuerzo en la IA.
Richard Sutton y Andrew Barto dirigieron un programa de investigación exitoso e influyente a partir de 1972. Su colaboración revolucionó el estudio del aprendizaje de refuerzo y la toma de decisiones a lo largo de cuatro décadas. [219] [220] En 1988, Sutton describió el aprendizaje automático en términos de teoría de decisiones (es decir, el proceso de decisión de Markov ). Esto proporcionó al tema una base teórica sólida y acceso a un gran cuerpo de resultados teóricos desarrollados en el campo de la investigación de operaciones . [220]
También en 1988, Sutton y Barto desarrollaron el algoritmo de aprendizaje de “ diferencia temporal ”, donde el agente es recompensado solo cuando sus predicciones sobre el futuro muestran una mejora. Superó significativamente a los algoritmos anteriores. [221] El aprendizaje TD fue utilizado por Gerald Tesauro en 1992 en el programa TD-Gammon , que jugaba al backgammon tan bien como los mejores jugadores humanos. El programa aprendió el juego jugando contra sí mismo sin conocimiento previo. [222] En un caso interesante de convergencia interdisciplinaria, los neurólogos descubrieron en 1997 que el sistema de recompensa de dopamina en los cerebros también utiliza una versión del algoritmo de aprendizaje TD. [223] [ 224] [225] El aprendizaje TD se volvería muy influyente en el siglo XXI, utilizado tanto en AlphaGo como en AlphaZero . [226]
La fascinación de la comunidad empresarial por la IA aumentó y disminuyó en la década de 1980 siguiendo el patrón clásico de una burbuja económica . A medida que decenas de empresas fracasaban, la percepción en el mundo empresarial era que la tecnología no era viable. [227] El daño a la reputación de la IA duraría hasta el siglo XXI. Dentro del campo había poco acuerdo sobre las razones por las que la IA no logró cumplir el sueño de una inteligencia de nivel humano que había capturado la imaginación del mundo en la década de 1960. En conjunto, todos estos factores ayudaron a fragmentar la IA en subcampos competitivos centrados en problemas o enfoques particulares, a veces incluso bajo nuevos nombres que disfrazaban el pedigrí empañado de la "inteligencia artificial". [228]
Durante los siguientes 20 años, la IA proporcionó constantemente soluciones prácticas para problemas aislados específicos. A fines de la década de 1990, se estaba utilizando en toda la industria tecnológica, aunque un poco entre bastidores. El éxito se debió al aumento de la potencia informática , a la colaboración con otros campos (como la optimización matemática y la estadística ) y al uso de los más altos estándares de responsabilidad científica. En 2000, la IA había logrado algunos de sus objetivos más antiguos. El campo era a la vez más cauteloso y más exitoso que nunca.
El término " invierno de la IA " fue acuñado por investigadores que habían sobrevivido a los recortes de financiación de 1974 cuando comenzaron a preocuparse de que el entusiasmo por los sistemas expertos se había salido de control y que seguramente seguiría la decepción. [ae] Sus temores estaban bien fundados: a finales de los años 1980 y principios de los años 1990, la IA sufrió una serie de reveses financieros. [122]
El primer indicio de un cambio de clima fue el repentino colapso del mercado de hardware especializado en IA en 1987. Las computadoras de escritorio de Apple e IBM habían ido ganando velocidad y potencia de forma constante y en 1987 se volvieron más potentes que las máquinas Lisp más caras fabricadas por Symbolics y otros. Ya no había una buena razón para comprarlas. Una industria entera que valía 500 millones de dólares fue destruida de la noche a la mañana. [230]
Con el tiempo, los primeros sistemas expertos que tuvieron éxito, como XCON , resultaron demasiado costosos de mantener. Eran difíciles de actualizar, no podían aprender y eran " frágiles " (es decir, podían cometer errores grotescos cuando se les daban entradas inusuales). Los sistemas expertos demostraron ser útiles, pero solo en unos pocos contextos especiales. [231]
A fines de los años 1980, la Strategic Computing Initiative recortó la financiación a la IA "de manera profunda y brutal". La nueva dirección de la DARPA había decidido que la IA no era "la próxima ola" y destinó los fondos a proyectos que parecían tener más probabilidades de producir resultados inmediatos. [232]
En 1991, la impresionante lista de objetivos que se había trazado en 1981 para el Proyecto de Quinta Generación de Japón no se había cumplido. De hecho, algunos de ellos, como el de "mantener una conversación informal", no se lograrían hasta 40 años después. Como en el caso de otros proyectos de IA, las expectativas habían sido mucho mayores de lo que realmente era posible. [233] [af]
A finales de 1993, más de 300 empresas de IA habían cerrado, quebrado o habían sido adquiridas, lo que puso fin de manera efectiva a la primera ola comercial de IA. [235] En 1994, HP Newquist afirmó en The Brain Makers que "el futuro inmediato de la inteligencia artificial (en su forma comercial) parece depender en parte del éxito continuo de las redes neuronales". [235]
En la década de 1990, los algoritmos desarrollados originalmente por investigadores de IA comenzaron a aparecer como partes de sistemas más grandes. La IA había resuelto muchos problemas muy difíciles [ag] y sus soluciones demostraron ser útiles en toda la industria tecnológica, [236] [237] como la minería de datos , la robótica industrial , la logística, el reconocimiento de voz , [238] el software bancario, [239] el diagnóstico médico [239] y el motor de búsqueda de Google . [240] [241]
El campo de la IA recibió poco o ningún reconocimiento por estos éxitos en la década de 1990 y principios de la década de 2000. Muchas de las mayores innovaciones de la IA han quedado reducidas a la condición de un elemento más en el conjunto de herramientas de la ciencia informática. [242] Nick Bostrom explica: "Mucha IA de vanguardia se ha filtrado en aplicaciones generales, a menudo sin llamarse IA porque una vez que algo se vuelve lo suficientemente útil y lo suficientemente común ya no se etiqueta como IA". [239]
En la década de 1990, muchos investigadores en IA llamaron deliberadamente a su trabajo con otros nombres, como informática , sistemas basados en el conocimiento , "sistemas cognitivos" o inteligencia computacional . En parte, esto puede haber sido porque consideraban que su campo era fundamentalmente diferente de la IA, pero también los nuevos nombres ayudan a obtener financiación. [238] [243] [244] Al menos en el mundo comercial, las promesas fallidas del invierno de la IA siguieron acosando a la investigación en IA hasta la década de 2000, como informó el New York Times en 2005: "Los científicos informáticos y los ingenieros de software evitaron el término inteligencia artificial por miedo a ser vistos como soñadores descabellados". [245]
Los investigadores de IA comenzaron a desarrollar y utilizar herramientas matemáticas sofisticadas más que nunca en el pasado. [246] [247] La mayoría de las nuevas direcciones en IA dependían en gran medida de modelos matemáticos, incluidas las redes neuronales artificiales , el razonamiento probabilístico , la computación blanda y el aprendizaje de refuerzo . En los años 90 y 2000, muchas otras herramientas altamente matemáticas se adaptaron para la IA. Estas herramientas se aplicaron al aprendizaje automático, la percepción y la movilidad.
Se generalizó la idea de que muchos de los problemas que la IA debía resolver ya estaban siendo abordados por investigadores de campos como la estadística , las matemáticas , la ingeniería eléctrica , la economía o la investigación de operaciones . El lenguaje matemático compartido permitió un mayor nivel de colaboración con campos más establecidos y exitosos y el logro de resultados que eran medibles y demostrables; la IA se había convertido en una disciplina "científica" más rigurosa.
Otra razón clave para el éxito en los años 90 fue que los investigadores de IA se centraron en problemas específicos con soluciones verificables (un enfoque que luego se ridiculizó como IA estrecha ). Esto proporcionó herramientas útiles en el presente, en lugar de especular sobre el futuro.
Un nuevo paradigma llamado " agentes inteligentes " fue ampliamente aceptado durante la década de 1990. [248] [249] [ah] Aunque investigadores anteriores habían propuesto enfoques modulares de "dividir y vencer" para la IA, [ai] el agente inteligente no alcanzó su forma moderna hasta que Judea Pearl , Allen Newell , Leslie P. Kaelbling y otros trajeron conceptos de la teoría de la decisión y la economía al estudio de la IA. [250] Cuando la definición del economista de un agente racional se casó con la definición de la ciencia informática de un objeto o módulo , el paradigma del agente inteligente estuvo completo.
Un agente inteligente es un sistema que percibe su entorno y toma acciones que maximizan sus posibilidades de éxito. Según esta definición, los programas simples que resuelven problemas específicos son "agentes inteligentes", al igual que los seres humanos y las organizaciones de seres humanos, como las empresas . El paradigma del agente inteligente define la investigación de IA como "el estudio de agentes inteligentes". [aj] Esta es una generalización de algunas definiciones anteriores de IA: va más allá del estudio de la inteligencia humana; estudia todo tipo de inteligencia.
El paradigma dio a los investigadores licencia para estudiar problemas aislados y estar en desacuerdo sobre los métodos, pero aún conservaban la esperanza de que su trabajo pudiera combinarse en una arquitectura de agentes que fuera capaz de inteligencia general. [251]
El 11 de mayo de 1997, Deep Blue se convirtió en el primer sistema informático de ajedrez en vencer al actual campeón mundial de ajedrez, Garry Kasparov . [252] En 2005, un robot de Stanford ganó el DARPA Grand Challenge conduciendo de forma autónoma durante 211 kilómetros a lo largo de un sendero desértico no ensayado. Dos años más tarde, un equipo de la CMU ganó el DARPA Urban Challenge al navegar de forma autónoma 88 kilómetros en un entorno urbano mientras respondía a los peligros del tráfico y respetaba las leyes de tránsito. [253]
Estos éxitos no se debieron a ningún nuevo paradigma revolucionario, sino principalmente a la tediosa aplicación de habilidades de ingeniería y al tremendo aumento de la velocidad y capacidad de las computadoras en los años 90. [ak] De hecho, la computadora de Deep Blue era 10 millones de veces más rápida que la Ferranti Mark 1 a la que Christopher Strachey enseñó a jugar al ajedrez en 1951. [al] Este dramático aumento se mide por la ley de Moore , que predice que la velocidad y la capacidad de memoria de las computadoras se duplica cada dos años. El problema fundamental de la "potencia bruta de la computadora" se estaba superando lentamente.
En las primeras décadas del siglo XXI, el acceso a grandes cantidades de datos (conocidos como " big data "), computadoras más baratas y rápidas y técnicas avanzadas de aprendizaje automático se aplicaron con éxito a muchos problemas en toda la economía. Un punto de inflexión fue el éxito del aprendizaje profundo alrededor de 2012, que mejoró el rendimiento del aprendizaje automático en muchas tareas, incluido el procesamiento de imágenes y videos, el análisis de texto y el reconocimiento de voz. [255] La inversión en IA aumentó junto con sus capacidades y, en 2016, el mercado de productos, hardware y software relacionados con la IA alcanzó más de $ 8 mil millones, y el New York Times informó que el interés en la IA había alcanzado un "frenesí". [256]
En 2002, Ben Goertzel y otros se mostraron preocupados por el hecho de que la IA había abandonado en gran medida su objetivo original de producir máquinas versátiles y totalmente inteligentes, y abogaron por una investigación más directa sobre la inteligencia artificial general . A mediados de la década de 2010, se habían fundado varias empresas e instituciones para dedicarse a la IAG, como OpenAI y DeepMind de Google . Durante el mismo período, nuevos conocimientos sobre la superinteligencia suscitaron la preocupación de que la IA fuera una amenaza existencial . Los riesgos y las consecuencias no deseadas de la tecnología de la IA se convirtieron en un área de investigación académica seria después de 2016.
El éxito del aprendizaje automático en la década de 2000 dependía de la disponibilidad de grandes cantidades de datos de entrenamiento y de computadoras más rápidas. [257] Russell y Norvig escribieron que la "mejora en el rendimiento obtenida al aumentar el tamaño del conjunto de datos en dos o tres órdenes de magnitud supera cualquier mejora que se pueda lograr modificando el algoritmo". [200] Geoffrey Hinton recordó que en los años 90, el problema era que "nuestros conjuntos de datos etiquetados eran miles de veces demasiado pequeños. [Y] nuestras computadoras eran millones de veces demasiado lentas". [258] Esto ya no era así en 2010.
Los datos más útiles en la década de 2000 vinieron de conjuntos de datos etiquetados y curados creados específicamente para el aprendizaje automático y la IA. En 2007, un grupo de UMass Amherst lanzó Labeled Faces in the Wild, un conjunto anotado de imágenes de rostros que se usó ampliamente para entrenar y probar sistemas de reconocimiento facial durante las siguientes décadas. [259] Fei-Fei Li desarrolló ImageNet , una base de datos de tres millones de imágenes subtituladas por voluntarios que utilizan Amazon Mechanical Turk . Lanzado en 2009, fue un cuerpo útil de datos de entrenamiento y un punto de referencia para probar la próxima generación de sistemas de procesamiento de imágenes. [260] [200] Google lanzó word2vec en 2013 como un recurso de código abierto. Usó grandes cantidades de texto de datos raspados de Internet e incrustación de palabras para crear vectores numéricos para representar cada palabra. Los usuarios se sorprendieron de lo bien que podía capturar los significados de las palabras; por ejemplo, la suma de vectores ordinaria daría equivalencias como China + Río = Yangtze, Londres + Inglaterra-Francia = París. [261] Esta base de datos en particular sería esencial para el desarrollo de grandes modelos de lenguaje a fines de la década de 2010.
El crecimiento explosivo de Internet dio a los programas de aprendizaje automático acceso a miles de millones de páginas de texto e imágenes que podían ser extraídas . Y, para problemas específicos, grandes bases de datos privadas contenían los datos relevantes. El McKinsey Global Institute informó que "en 2009, casi todos los sectores de la economía estadounidense tenían al menos un promedio de 200 terabytes de datos almacenados". [262] Esta recopilación de información se conocía en la década de 2000 como big data .
En febrero de 2011, en un partido de exhibición del concurso de preguntas Jeopardy!, el sistema de respuesta a preguntas de IBM , Watson , derrotó a los dos mejores campeones de Jeopardy!, Brad Rutter y Ken Jennings , por un margen significativo. [263] La experiencia de Watson habría sido imposible sin la información disponible en Internet. [200]
En 2012, AlexNet , un modelo de aprendizaje profundo , [am] desarrollado por Alex Krizhevsky , ganó el ImageNet Large Scale Visual Recognition Challenge , con significativamente menos errores que el ganador del segundo lugar. [265] [200] Krizhevsky trabajó con Geoffrey Hinton en la Universidad de Toronto . [an] Este fue un punto de inflexión en el aprendizaje automático: durante los siguientes años, se abandonaron docenas de otros enfoques para el reconocimiento de imágenes en favor del aprendizaje profundo . [257]
El aprendizaje profundo utiliza un perceptrón multicapa . Aunque esta arquitectura se conoce desde los años 60, para que funcione requiere un hardware potente y grandes cantidades de datos de entrenamiento. [266] Antes de que estuvieran disponibles, mejorar el rendimiento de los sistemas de procesamiento de imágenes requería características ad hoc diseñadas a mano que eran difíciles de implementar. [266] El aprendizaje profundo era más simple y más general. [ao]
En los años siguientes, el aprendizaje profundo se aplicó a docenas de problemas (como el reconocimiento de voz, la traducción automática, el diagnóstico médico y los juegos). En todos los casos, mostró enormes mejoras en el rendimiento. [257] Como resultado, la inversión y el interés en la IA aumentaron enormemente. [257]
En los años 2000 se puso de moda volver a hablar del futuro de la IA y varios libros populares consideraron la posibilidad de máquinas superinteligentes y lo que podrían significar para la sociedad humana. Algunos de estos eran optimistas (como The Singularity is Near de Ray Kurzweil ), pero otros advertían que una IA lo suficientemente poderosa era una amenaza existencial para la humanidad, como Nick Bostrom y Eliezer Yudkowsky . [267] El tema fue ampliamente cubierto en la prensa y muchos intelectuales y políticos destacados comentaron sobre el tema.
Los programas de IA del siglo XXI se definen por sus objetivos , es decir, las medidas específicas que están diseñados para optimizar. El influyente libro de Nick Bostrom de 2005, Superintelligence, argumentaba que, si uno no es cuidadoso al definir estos objetivos, la máquina puede causar daño a la humanidad en el proceso de alcanzar un objetivo. Stuart J. Russell utilizó el ejemplo de un robot inteligente que mata a su dueño para evitar que lo desconecten, argumentando que "no puedes ir a buscar el café si estás muerto". [268] (Este problema se conoce con el término técnico " convergencia instrumental "). La solución es alinear la función objetivo de la máquina con los objetivos de su dueño y de la humanidad en general. Por lo tanto, el problema de mitigar los riesgos y las consecuencias no deseadas de la IA se conoció como "el problema de alineación de valores" o alineación de la IA . [269]
Al mismo tiempo, los sistemas de aprendizaje automático habían comenzado a tener consecuencias inquietantes no deseadas. Cathy O'Neil explicó cómo los algoritmos estadísticos habían estado entre las causas de la crisis económica de 2008 , [270] Julia Angwin de ProPublica argumentó que el sistema COMPAS utilizado por el sistema de justicia penal exhibió sesgo racial en algunas medidas, [271] [ap] otros mostraron que muchos sistemas de aprendizaje automático exhibieron alguna forma de sesgo racial , [273] y hubo muchos otros ejemplos de resultados peligrosos que habían resultado de los sistemas de aprendizaje automático. [aq]
En 2016, la elección de Donald Trump y la controversia sobre el sistema COMPAS pusieron de relieve varios problemas de la infraestructura tecnológica actual, entre ellos la desinformación, los algoritmos de las redes sociales diseñados para maximizar la participación, el uso indebido de los datos personales y la fiabilidad de los modelos predictivos. [274] Las cuestiones de equidad y consecuencias no deseadas se hicieron mucho más populares en las conferencias sobre IA, las publicaciones aumentaron enormemente, se consiguió financiación y muchos investigadores reorientaron sus carreras hacia estas cuestiones. El problema de la alineación de valores se convirtió en un campo serio de estudio académico. [275] [ar]
A principios de la década de 2000, varios investigadores comenzaron a preocuparse por el hecho de que la IA convencional estaba demasiado centrada en el "rendimiento medible en aplicaciones específicas" [277] (conocida como " IA estrecha ") y había abandonado el objetivo original de la IA de crear máquinas versátiles y completamente inteligentes. Uno de los primeros críticos fue Nils Nilsson en 1995, y opiniones similares fueron publicadas por los veteranos estadistas de la IA John McCarthy, Marvin Minsky y Patrick Winston en 2007-2009. Minsky organizó un simposio sobre "IA a nivel humano" en 2004. [277] Ben Goertzel adoptó el término " inteligencia artificial general " para el nuevo subcampo, fundando una revista y celebrando conferencias a partir de 2008. [278] El nuevo campo creció rápidamente, impulsado por el éxito continuo de las redes neuronales artificiales y la esperanza de que fuera la clave de la IAG.
En la década de 2010 se fundaron varias empresas, laboratorios y fundaciones en competencia para desarrollar la IA general. DeepMind fue fundada en 2010 por tres científicos ingleses, Demis Hassabis , Shane Legg y Mustafa Suleyman , con financiación de Peter Thiel y más tarde de Elon Musk . Los fundadores y financistas estaban profundamente preocupados por la seguridad de la IA y el riesgo existencial de la misma . Los fundadores de DeepMind tenían una conexión personal con Yudkowsky y Musk estaba entre los que estaban dando la voz de alarma activamente. [279] Hassabis estaba preocupado por los peligros de la IA general y optimista sobre su poder; esperaba que pudieran "resolver la IA, y luego resolver todo lo demás". [280]
En 2012, Baidu contactó a Geoffrey Hinton (que había liderado la investigación de redes neuronales desde los años 80) y quería contratarlo a él y a todos sus estudiantes por una enorme suma. Hinton decidió realizar una subasta y, en una conferencia sobre inteligencia artificial en Lake Tahoe, se vendieron a Google por un precio de 44 millones de dólares. Hassabis tomó nota y vendió DeepMind a Google en 2014, con la condición de que no aceptara contratos militares y que fuera supervisada por un comité de ética. [279]
Larry Page de Google, a diferencia de Musk y Hassabis, era optimista sobre el futuro de la IA. Musk y Paige se enzarzaron en una discusión sobre el riesgo de la IAG en la fiesta de cumpleaños de Musk en 2015. Habían sido amigos durante décadas, pero dejaron de hablarse poco después. Musk asistió a la única reunión del comité de ética de DeepMind, donde quedó claro que Google no estaba interesado en mitigar el daño de la IAG. Frustrado por su falta de influencia, fundó OpenAI en 2015, contratando a Sam Altman para dirigirla y a los mejores científicos. OpenAI comenzó como una organización sin fines de lucro, "libre de los incentivos económicos que impulsaban a Google y otras corporaciones". [279] Musk se frustró nuevamente y dejó la empresa en 2018. OpenAI recurrió a Microsoft para obtener apoyo financiero continuo y Altman y OpenAI formaron una versión con fines de lucro de la empresa con más de mil millones de dólares en financiación. [279]
En 2021, Dario Amodei y otros 14 científicos abandonaron OpenAI por temor a que la empresa priorizara las ganancias por encima de la seguridad. Formaron Anthropic , que pronto recibió una financiación de 6.000 millones de dólares de Microsoft y Google. [279]
En 2023, el New York Times escribió: “En el centro de esta competencia hay una paradoja que pone a prueba el cerebro. Las personas que dicen estar más preocupadas por la IA son las más decididas a crearla y disfrutar de sus beneficios. Han justificado su ambición con su firme convicción de que solo ellos pueden evitar que la IA ponga en peligro la Tierra”. [279]
El auge de la IA comenzó con el desarrollo inicial de arquitecturas y algoritmos clave como la arquitectura de transformadores en 2017, lo que llevó al escalamiento y desarrollo de grandes modelos de lenguaje que exhiben rasgos similares a los humanos de conocimiento, atención y creatividad. La nueva era de la IA comenzó alrededor de 2020-2023, con el lanzamiento público de grandes modelos de lenguaje (LLM) escalados como ChatGPT . [281]
En 2017, los investigadores de Google propusieron la arquitectura de transformadores , que explota un mecanismo de atención y se ha vuelto ampliamente utilizada en grandes modelos de lenguaje. [282]
Las empresas de AGI desarrollaron grandes modelos de lenguaje basados en el transformador: OpenAI lanzó GPT-3 en 2020 y DeepMind lanzó Gato en 2022. Estos son modelos básicos : se entrenan en grandes cantidades de datos sin etiquetar y se pueden adaptar a una amplia gama de tareas posteriores. [ cita requerida ]
Estos modelos pueden analizar una gran cantidad de temas y mostrar conocimientos generales. Naturalmente, surge la pregunta: ¿son estos modelos un ejemplo de inteligencia artificial general ? Bill Gates se mostró escéptico ante la nueva tecnología y el revuelo que rodeaba a la IAG. Sin embargo, Altman le presentó una demostración en vivo de ChatGPT4 pasando una prueba de biología avanzada. Gates quedó convencido. [279] En 2023, Microsoft Research probó el modelo con una gran variedad de tareas y concluyó que "podría considerarse razonablemente como una versión temprana (aunque aún incompleta) de un sistema de inteligencia artificial general (IAG)". [283]
DeepMind describe su enfoque como " neurosimbólico " porque utiliza el aprendizaje profundo en combinación con técnicas simbólicas. Por ejemplo, AlphaZero utiliza el aprendizaje profundo para evaluar la solidez de una posición y sugerir políticas (cursos de acción), pero utiliza la búsqueda de árboles de Monte Carlo para anticipar nuevas posiciones. [ cita requerida ]
La inversión en IA creció exponencialmente después de 2020. [ cita requerida ]
A mediados de 2024, varias entidades financieras comenzaron a cuestionar la capacidad de las empresas de IA para generar un retorno de la inversión . Algunos observadores [¿ quiénes? ] especularon que la IA estaba experimentando otra burbuja . [ cita requerida ]