En inteligencia artificial , la inteligencia artificial simbólica (también conocida como inteligencia artificial clásica o inteligencia artificial basada en la lógica ) [1] [2] es el término para la colección de todos los métodos en la investigación de inteligencia artificial que se basan en representaciones simbólicas (legibles por humanos) de alto nivel de problemas, lógica y búsqueda . [3] La IA simbólica utilizó herramientas como programación lógica , reglas de producción , redes y marcos semánticos , y desarrolló aplicaciones como sistemas basados en conocimiento (en particular, sistemas expertos ), matemáticas simbólicas , demostradores de teoremas automatizados , ontologías , la web semántica y sistemas automatizados de planificación y programación . El paradigma de la IA simbólica condujo a ideas seminales en búsqueda , lenguajes de programación simbólica , agentes , sistemas multiagente , la web semántica y las fortalezas y limitaciones de los sistemas de conocimiento y razonamiento formales .
La IA simbólica fue el paradigma dominante de la investigación en IA desde mediados de la década de 1950 hasta mediados de la década de 1990. [4] Los investigadores de las décadas de 1960 y 1970 estaban convencidos de que los enfoques simbólicos eventualmente tendrían éxito en la creación de una máquina con inteligencia artificial general y consideraron que este era el objetivo final de su campo. [ cita requerida ] Un auge temprano, con éxitos tempranos como el Teórico de la lógica y el Programa de juego de damas de Samuel , condujo a expectativas y promesas poco realistas y fue seguido por el primer Invierno de la IA cuando la financiación se agotó. [5] [6] Un segundo auge (1969-1986) ocurrió con el surgimiento de los sistemas expertos, su promesa de capturar la experiencia corporativa y una entusiasta aceptación corporativa. [7] [8] Ese auge, y algunos éxitos tempranos, por ejemplo, con XCON en DEC , fueron seguidos nuevamente por una decepción posterior. [8] Surgieron problemas con las dificultades en la adquisición de conocimiento, el mantenimiento de grandes bases de conocimiento y la fragilidad en el manejo de problemas fuera del dominio. Le siguió otro segundo AI Winter (1988-2011). [9] Posteriormente, los investigadores de IA se centraron en abordar los problemas subyacentes en el manejo de la incertidumbre y en la adquisición de conocimientos. [10] La incertidumbre se abordó con métodos formales como los modelos ocultos de Markov , el razonamiento bayesiano y el aprendizaje relacional estadístico . [11] [12] El aprendizaje automático simbólico abordó el problema de la adquisición de conocimientos con contribuciones que incluían Version Space , el aprendizaje PAC de Valiant , el aprendizaje de árboles de decisión ID3 de Quinlan , el aprendizaje basado en casos y la programación lógica inductiva para aprender relaciones. [13]
Las redes neuronales , un enfoque subsimbólico, se habían perseguido desde los primeros días y resurgieron con fuerza en 2012. Los primeros ejemplos son el trabajo de aprendizaje del perceptrón de Rosenblatt , el trabajo de retropropagación de Rumelhart, Hinton y Williams, [14] y el trabajo en redes neuronales convolucionales de LeCun et al. en 1989. [15] Sin embargo, las redes neuronales no fueron vistas como exitosas hasta aproximadamente 2012: "Hasta que Big Data se volvió algo común, el consenso general en la comunidad de IA era que el llamado enfoque de red neuronal era inútil. Los sistemas simplemente no funcionaban tan bien, en comparación con otros métodos. ... Una revolución llegó en 2012, cuando varias personas, incluido un equipo de investigadores que trabajaban con Hinton, idearon una forma de usar el poder de las GPU para aumentar enormemente el poder de las redes neuronales". [16] Durante los siguientes años, el aprendizaje profundo tuvo un éxito espectacular en el manejo de la visión, el reconocimiento de voz , la síntesis de voz, la generación de imágenes y la traducción automática. Sin embargo, desde 2020, a medida que las dificultades inherentes con el sesgo, la explicación, la comprensibilidad y la solidez se hicieron más evidentes con los enfoques de aprendizaje profundo, un número cada vez mayor de investigadores de IA han pedido combinar lo mejor de los enfoques simbólicos y de redes neuronales [17] [18] y abordar áreas con las que ambos enfoques tienen dificultades, como el razonamiento de sentido común . [16]
A continuación se presenta una breve historia de la IA simbólica hasta la actualidad. Los períodos de tiempo y los títulos se extrajeron de la conferencia en memoria de Robert S. Engelmore de la AAAI de 2020 de Henry Kautz [19] y del artículo más extenso de Wikipedia sobre la historia de la IA , con fechas y títulos ligeramente diferentes para mayor claridad.
El éxito de los primeros intentos de IA se produjo en tres áreas principales: redes neuronales artificiales, representación del conocimiento y búsqueda heurística, lo que contribuyó a generar grandes expectativas. Esta sección resume la repetición que hace Kautz de la historia de la IA temprana.
Los métodos cibernéticos intentaron reproducir los bucles de retroalimentación entre los animales y sus entornos. Ya en 1948 se construyó una tortuga robótica, con sensores, motores para conducir y dirigir, y siete tubos de vacío para el control, basada en una red neuronal preprogramada. Este trabajo puede considerarse un precursor temprano de trabajos posteriores en redes neuronales, aprendizaje de refuerzo y robótica situada. [20]
Un importante programa de IA simbólica temprana fue el Logic theorist , escrito por Allen Newell , Herbert Simon y Cliff Shaw en 1955-56, ya que pudo demostrar 38 teoremas elementales de los Principia Mathematica de Whitehead y Russell . Newell, Simon y Shaw luego generalizaron este trabajo para crear un solucionador de problemas independiente del dominio, GPS (General Problem Solver). GPS resolvió problemas representados con operadores formales a través de la búsqueda en el espacio de estados utilizando el análisis de medios y fines . [21]
Durante la década de 1960, los enfoques simbólicos lograron un gran éxito en la simulación de comportamiento inteligente en entornos estructurados como juegos, matemáticas simbólicas y demostración de teoremas. La investigación en IA se concentró en cuatro instituciones en la década de 1960: la Universidad Carnegie Mellon , Stanford , el MIT y (más tarde) la Universidad de Edimburgo . Cada una desarrolló su propio estilo de investigación. Los enfoques anteriores basados en la cibernética o las redes neuronales artificiales fueron abandonados o relegados a un segundo plano.
Herbert Simon y Allen Newell estudiaron las habilidades humanas para resolver problemas e intentaron formalizarlas, y su trabajo sentó las bases del campo de la inteligencia artificial, así como de la ciencia cognitiva , la investigación de operaciones y la ciencia de la gestión . Su equipo de investigación utilizó los resultados de experimentos psicológicos para desarrollar programas que simularan las técnicas que utilizaban las personas para resolver problemas. [22] [23] Esta tradición, centrada en la Universidad Carnegie Mellon, culminaría finalmente en el desarrollo de la arquitectura Soar a mediados de la década de 1980. [24] [25]
Además de los tipos de conocimiento altamente especializados y específicos de cada dominio que veremos más adelante en los sistemas expertos, los primeros investigadores de la IA simbólica descubrieron otra aplicación más general del conocimiento, denominada heurística, reglas empíricas que guían una búsqueda en direcciones prometedoras: "¿Cómo puede ser práctica una búsqueda no enumerativa cuando el problema subyacente es exponencialmente difícil? El enfoque defendido por Simon y Newell es emplear heurísticas : algoritmos rápidos que pueden fallar en algunas entradas o generar soluciones subóptimas". [26] Otro avance importante fue encontrar una forma de aplicar estas heurísticas que garantice que se encontrará una solución, si es que existe, a pesar de la falibilidad ocasional de las heurísticas: "El algoritmo A* proporcionó un marco general para una búsqueda guiada heurísticamente completa y óptima. A* se utiliza como una subrutina en prácticamente todos los algoritmos de IA actuales, pero todavía no es una bala mágica; su garantía de completitud se compra a costa del tiempo exponencial del peor de los casos". [26]
Los primeros trabajos abarcaron tanto aplicaciones del razonamiento formal, haciendo hincapié en la lógica de primer orden , como intentos de manejar el razonamiento de sentido común de una manera menos formal.
A diferencia de Simon y Newell, John McCarthy creía que las máquinas no necesitaban simular los mecanismos exactos del pensamiento humano, sino que podían intentar encontrar la esencia del razonamiento abstracto y la resolución de problemas con la lógica, [27] independientemente de si las personas usaban los mismos algoritmos. [a] Su laboratorio en Stanford ( SAIL ) se centró en el uso de la lógica formal para resolver una amplia variedad de problemas, incluida la representación del conocimiento , la planificación y el aprendizaje . [31] La lógica también fue el foco del trabajo en la Universidad de Edimburgo y en otras partes de Europa que condujo al desarrollo del lenguaje de programación Prolog y la ciencia de la programación lógica. [32] [33]
Los investigadores del MIT (como Marvin Minsky y Seymour Papert ) [34] [35] [6] descubrieron que resolver problemas difíciles en visión y procesamiento del lenguaje natural requería soluciones ad hoc; argumentaron que ningún principio simple y general (como la lógica ) capturaría todos los aspectos del comportamiento inteligente. Roger Schank describió sus enfoques "antilógicos" como " desordenados " (a diferencia de los paradigmas " ordenados " de CMU y Stanford). [36] [37] Las bases de conocimiento de sentido común (como Cyc de Doug Lenat ) son un ejemplo de IA "desordenada", ya que deben construirse a mano, un concepto complicado a la vez. [38] [39] [40]
El primer invierno de la IA fue un shock:
Durante el primer verano de la IA, mucha gente pensó que la inteligencia artificial podría lograrse en apenas unos años. La Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) lanzó programas para apoyar la investigación en IA con el fin de utilizarla para resolver problemas de seguridad nacional; en particular, para automatizar la traducción del ruso al inglés para operaciones de inteligencia y para crear tanques autónomos para el campo de batalla. Los investigadores habían empezado a darse cuenta de que lograr la IA iba a ser mucho más difícil de lo que se suponía una década antes, pero una combinación de arrogancia y deshonestidad llevó a muchos investigadores universitarios y de centros de estudios a aceptar financiación con promesas de resultados que deberían haber sabido que no podían cumplir. A mediados de la década de 1960, no se habían creado ni sistemas útiles de traducción del lenguaje natural ni tanques autónomos, y se produjo una reacción dramática. La nueva dirección de la DARPA canceló los programas de financiación de la IA existentes.
...
Fuera de los Estados Unidos, el terreno más fértil para la investigación en IA fue el Reino Unido. El invierno de la IA en el Reino Unido no fue impulsado tanto por líderes militares decepcionados como por académicos rivales que veían a los investigadores en IA como charlatanes y una carga para la financiación de la investigación. Un profesor de matemáticas aplicadas, Sir James Lighthill, fue comisionado por el Parlamento para evaluar el estado de la investigación en IA en el país . El informe afirmó que todos los problemas en los que se está trabajando en IA serían mejor manejados por investigadores de otras disciplinas, como las matemáticas aplicadas. El informe también afirmó que los éxitos de la IA en problemas de juguete nunca podrían escalarse a aplicaciones del mundo real debido a la explosión combinatoria. [41]
A medida que las limitaciones de los métodos débiles e independientes del dominio se hicieron cada vez más evidentes, [42] los investigadores de las tres tradiciones comenzaron a incorporar conocimiento en aplicaciones de IA. [43] [7] La revolución del conocimiento fue impulsada por la comprensión de que el conocimiento subyace a las aplicaciones de IA de alto rendimiento y específicas del dominio.
Edward Feigenbaum dijo:
Para describir que un alto rendimiento en un dominio específico requiere conocimientos generales y muy específicos del dominio. Ed Feigenbaum y Doug Lenat lo denominaron el principio del conocimiento:
(1) El principio de conocimiento: para que un programa pueda realizar bien una tarea compleja, debe saber mucho sobre el mundo en el que opera.
(2) Una extensión plausible de ese principio, llamada la hipótesis de amplitud: hay dos capacidades adicionales necesarias para el comportamiento inteligente en situaciones inesperadas: recurrir a un conocimiento cada vez más general y hacer analogías con un conocimiento específico pero de amplio alcance. [45]
Esta "revolución del conocimiento" condujo al desarrollo y despliegue de sistemas expertos (introducidos por Edward Feigenbaum ), la primera forma comercialmente exitosa de software de IA. [46] [47] [48]
Los sistemas expertos clave fueron:
DENDRAL se considera el primer sistema experto que se basó en la resolución de problemas con un uso intensivo del conocimiento. Ed Feigenbaum lo describe a continuación , a partir de una entrevista de Communications of the ACM , Interview with Ed Feigenbaum:
Una de las personas de Stanford interesadas en los modelos informáticos de la mente era Joshua Lederberg , el premio Nobel de genética de 1958. Cuando le dije que quería un "sandbox" de inducción, me respondió: "Tengo justo lo que necesitas". Su laboratorio estaba haciendo espectrometría de masas de aminoácidos. La pregunta era: ¿cómo se pasa de mirar el espectro de un aminoácido a la estructura química del aminoácido? Así fue como comenzamos el Proyecto DENDRAL: yo era bueno en los métodos de búsqueda heurística y él tenía un algoritmo que era bueno para generar el espacio de problemas químicos.
No teníamos una visión grandiosa. Trabajamos de abajo hacia arriba. Nuestro químico era Carl Djerassi , inventor de la sustancia química detrás de la píldora anticonceptiva y también uno de los espectrometristas de masas más respetados del mundo. Carl y sus posdoctorados eran expertos de talla mundial en espectrometría de masas. Comenzamos a ampliar sus conocimientos, inventando conocimientos de ingeniería a medida que avanzábamos. Estos experimentos equivalieron a titular cada vez más conocimientos de DENDRAL. Cuanto más hacíamos eso, más inteligente se volvía el programa. Obtuvimos muy buenos resultados.
La generalización fue: en el conocimiento está el poder. Esa fue la gran idea. En mi carrera, ese es el gran “¡Ajá!”, y no era la forma en que se hacía la IA antes. Parece simple, pero es probablemente la generalización más poderosa de la IA. [51]
Los otros sistemas expertos mencionados anteriormente surgieron después de DENDRAL. MYCIN ejemplifica la arquitectura clásica de sistemas expertos de una base de conocimiento de reglas acoplada a un mecanismo de razonamiento simbólico, incluido el uso de factores de certeza para manejar la incertidumbre. GUIDON muestra cómo una base de conocimiento explícita puede reutilizarse para una segunda aplicación, la tutoría, y es un ejemplo de un sistema de tutoría inteligente , un tipo particular de aplicación basada en el conocimiento. Clancey demostró que no era suficiente simplemente usar las reglas de MYCIN para la instrucción, sino que también necesitaba agregar reglas para la gestión del diálogo y el modelado de estudiantes. [50] XCON es significativo debido a los millones de dólares que le ahorró a DEC , lo que desencadenó el auge de los sistemas expertos donde la mayoría de las principales corporaciones en los EE. UU. tenían grupos de sistemas expertos, para capturar la experiencia corporativa, preservarla y automatizarla:
En 1988, el grupo de IA de DEC ya había implementado 40 sistemas expertos y había más en camino. DuPont tenía 100 en uso y 500 en desarrollo. Casi todas las grandes corporaciones estadounidenses tenían su propio grupo de IA y utilizaban o investigaban sistemas expertos. [49]
El conocimiento experto en ajedrez fue codificado en Deep Blue . En 1996, esto permitió que Deep Blue de IBM , con la ayuda de una IA simbólica, ganara una partida de ajedrez contra el campeón mundial de aquel momento, Garry Kasparov . [52]
Un componente clave de la arquitectura del sistema para todos los sistemas expertos es la base de conocimiento, que almacena hechos y reglas para la resolución de problemas. [53] El enfoque más simple para una base de conocimiento de un sistema experto es simplemente una colección o red de reglas de producción . Las reglas de producción conectan símbolos en una relación similar a una declaración If-Then. El sistema experto procesa las reglas para hacer deducciones y determinar qué información adicional necesita, es decir, qué preguntas hacer, utilizando símbolos legibles para humanos. Por ejemplo, OPS5 , CLIPS y sus sucesores Jess y Drools operan de esta manera.
Los sistemas expertos pueden operar en cadena hacia adelante (de la evidencia a las conclusiones) o en cadena hacia atrás (de los objetivos a los datos necesarios y los prerrequisitos). Los sistemas basados en el conocimiento más avanzados, como Soar , también pueden realizar razonamiento de metanivel, es decir, razonar sobre su propio razonamiento en términos de decidir cómo resolver problemas y monitorear el éxito de las estrategias de resolución de problemas.
Los sistemas de pizarra son un segundo tipo de arquitectura de sistema experto o basada en conocimiento . Modelan una comunidad de expertos que contribuyen de manera incremental, cuando pueden, para resolver un problema. El problema se representa en múltiples niveles de abstracción o vistas alternativas. Los expertos (fuentes de conocimiento) ofrecen sus servicios voluntariamente siempre que reconocen que pueden contribuir. Las posibles acciones de resolución de problemas se representan en una agenda que se actualiza a medida que cambia la situación del problema. Un controlador decide qué tan útil es cada contribución y quién debe realizar la siguiente acción de resolución de problemas. Un ejemplo, la arquitectura de pizarra BB1 [54] se inspiró originalmente en estudios de cómo los humanos planean realizar múltiples tareas en un viaje. [55] Una innovación de BB1 fue aplicar el mismo modelo de pizarra para resolver su problema de control, es decir, su controlador realizó un razonamiento de metanivel con fuentes de conocimiento que monitoreaban qué tan bien avanzaba un plan o la resolución de problemas y podían cambiar de una estrategia a otra a medida que cambiaban las condiciones, como los objetivos o los tiempos. BB1 se ha aplicado en múltiples dominios: planificación de sitios de construcción, sistemas de tutoría inteligentes y monitoreo de pacientes en tiempo real.
En el auge de la IA, empresas como Symbolics , LMI y Texas Instruments vendían máquinas LISP específicamente diseñadas para acelerar el desarrollo de aplicaciones e investigaciones de IA. Además, varias empresas de inteligencia artificial, como Teknowledge e Inference Corporation , vendían sistemas expertos, capacitación y consultoría a corporaciones.
Lamentablemente, el auge de la IA no duró y Kautz describe mejor el segundo invierno de la IA que siguió:
Hay muchas razones que pueden explicar la llegada del segundo invierno de la IA. Las empresas de hardware fracasaron cuando aparecieron en el mercado estaciones de trabajo generales con Unix mucho más rentables de Sun, junto con buenos compiladores para LISP y Prolog. Muchas implementaciones comerciales de sistemas expertos se interrumpieron cuando se demostró que su mantenimiento era demasiado costoso. Los sistemas expertos médicos nunca llegaron a popularizarse por varias razones: la dificultad de mantenerlos actualizados; el desafío para los profesionales médicos de aprender a utilizar una desconcertante variedad de sistemas expertos diferentes para diferentes afecciones médicas; y quizás lo más crucial, la renuencia de los médicos a confiar en un diagnóstico realizado por computadora por encima de su instinto, incluso para dominios específicos en los que los sistemas expertos podrían superar a un médico promedio. El dinero de capital de riesgo abandonó la IA prácticamente de la noche a la mañana. La conferencia mundial de IA IJCAI albergó una enorme y lujosa feria comercial y miles de asistentes no académicos en 1987 en Vancouver; la principal conferencia de IA del año siguiente, AAAI 1988 en St. Paul, fue un evento pequeño y estrictamente académico. [9]
Se probaron tanto enfoques estadísticos como extensiones de la lógica.
Un enfoque estadístico, los modelos ocultos de Markov , ya se había popularizado en la década de 1980 para el trabajo de reconocimiento de voz. [11] Posteriormente, en 1988, Judea Pearl popularizó el uso de redes bayesianas como una forma sólida pero eficiente de manejar el razonamiento incierto con su publicación del libro Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. [56] y los enfoques bayesianos se aplicaron con éxito en sistemas expertos. [57] Incluso más tarde, en la década de 1990, el aprendizaje relacional estadístico, un enfoque que combina la probabilidad con fórmulas lógicas, permitió combinar la probabilidad con la lógica de primer orden, por ejemplo, con redes lógicas de Markov o lógica blanda probabilística .
También se probaron otras extensiones no probabilísticas de la lógica de primer orden para apoyarla. Por ejemplo, se podía utilizar el razonamiento no monótono con sistemas de mantenimiento de la verdad . Un sistema de mantenimiento de la verdad rastreaba los supuestos y las justificaciones de todas las inferencias. Permitía retirar las inferencias cuando se descubría que los supuestos eran incorrectos o se derivaba una contradicción. Se podían proporcionar explicaciones para una inferencia explicando qué reglas se aplicaron para crearla y luego continuar a través de las inferencias y reglas subyacentes hasta llegar a los supuestos de raíz. [58] Lofti Zadeh había introducido un tipo diferente de extensión para manejar la representación de la vaguedad. Por ejemplo, al decidir qué tan "pesado" o "alto" es un hombre, con frecuencia no hay una respuesta clara de "sí" o "no", y un predicado para pesado o alto devolvería en su lugar valores entre 0 y 1. Esos valores representaban en qué grado los predicados eran verdaderos. Su lógica difusa proporcionó además un medio para propagar combinaciones de estos valores a través de fórmulas lógicas. [59]
Se investigaron enfoques de aprendizaje automático simbólico para abordar el cuello de botella de la adquisición de conocimiento . Uno de los primeros es Meta-DENDRAL . Meta-DENDRAL utilizó una técnica de generación y prueba para generar hipótesis de reglas plausibles para probarlas contra espectros. El conocimiento del dominio y la tarea redujo la cantidad de candidatos evaluados a un tamaño manejable. Feigenbaum describió Meta-DENDRAL como
...la culminación de mi sueño de principios y mediados de los años 60, relacionado con la formación de teorías. La idea era que se tuviera un solucionador de problemas como DENDRAL que tomaba algunas entradas y producía una salida. Al hacerlo, utilizaba capas de conocimiento para dirigir y podar la búsqueda. Ese conocimiento llegó allí porque entrevistamos a la gente. Pero, ¿cómo lo consiguieron las personas? Observando miles de espectros. Así que queríamos un programa que observara miles de espectros e infiriera el conocimiento de la espectrometría de masas que DENDRAL pudiera utilizar para resolver problemas individuales de formación de hipótesis. Lo hicimos. Incluso pudimos publicar nuevos conocimientos de espectrometría de masas en el Journal of the American Chemical Society , dando crédito solo en una nota a pie de página que un programa, Meta-DENDRAL, realmente lo había hecho. Pudimos hacer algo que había sido un sueño: tener un programa de computadora que presentara una pieza científica nueva y publicable. [51]
A diferencia del enfoque intensivo en conocimiento de Meta-DENDRAL, Ross Quinlan inventó un enfoque independiente del dominio para la clasificación estadística, el aprendizaje de árboles de decisión , comenzando primero con ID3 [60] y luego extendiendo sus capacidades a C4.5 . [61] Los árboles de decisión creados son clasificadores interpretables de caja de cristal , con reglas de clasificación interpretables por humanos.
También se han producido avances en la comprensión de la teoría del aprendizaje automático. Tom Mitchell introdujo el aprendizaje en el espacio de versiones , que describe el aprendizaje como una búsqueda a través de un espacio de hipótesis, con límites superiores, más generales, e inferiores, más específicos, que abarcan todas las hipótesis viables consistentes con los ejemplos vistos hasta ahora. [62] De manera más formal, Valiant introdujo el aprendizaje probablemente aproximadamente correcto (PAC Learning), un marco para el análisis matemático del aprendizaje automático. [63]
El aprendizaje automático simbólico abarcaba más que el aprendizaje por ejemplo. Por ejemplo, John Anderson proporcionó un modelo cognitivo del aprendizaje humano donde la práctica de habilidades da como resultado una compilación de reglas desde un formato declarativo a un formato procedimental con su arquitectura cognitiva ACT-R . Por ejemplo, un estudiante podría aprender a aplicar "Los ángulos suplementarios son dos ángulos cuyas medidas suman 180 grados" como varias reglas procedimentales diferentes. Por ejemplo, una regla podría decir que si X e Y son suplementarios y usted conoce X, entonces Y será 180 - X. Llamó a su enfoque "compilación de conocimiento". ACT-R se ha utilizado con éxito para modelar aspectos de la cognición humana, como el aprendizaje y la retención. ACT-R también se utiliza en sistemas de tutoría inteligentes , llamados tutores cognitivos , para enseñar con éxito geometría, programación informática y álgebra a niños en edad escolar. [64]
La programación lógica inductiva fue otro enfoque de aprendizaje que permitió sintetizar programas lógicos a partir de ejemplos de entrada y salida. Por ejemplo, el MIS (Model Inference System) de Ehud Shapiro podía sintetizar programas Prolog a partir de ejemplos. [65] John R. Koza aplicó algoritmos genéticos a la síntesis de programas para crear programación genética , que utilizó para sintetizar programas LISP. Finalmente, Zohar Manna y Richard Waldinger proporcionaron un enfoque más general para la síntesis de programas que sintetiza un programa funcional en el curso de demostrar que sus especificaciones son correctas. [66]
Como alternativa a la lógica, Roger Schank introdujo el razonamiento basado en casos (RBC). El enfoque del RBC descrito en su libro Dynamic Memory [67] se centra primero en recordar casos clave de resolución de problemas para su uso futuro y generalizarlos cuando sea apropiado. Cuando se enfrenta a un nuevo problema, el RBC recupera el caso anterior más similar y lo adapta a las particularidades del problema actual. [68] Otra alternativa a la lógica, los algoritmos genéticos y la programación genética se basan en un modelo evolutivo de aprendizaje, donde los conjuntos de reglas se codifican en poblaciones, las reglas gobiernan el comportamiento de los individuos y la selección de los más aptos elimina conjuntos de reglas inadecuadas a lo largo de muchas generaciones. [69]
El aprendizaje automático simbólico se aplicó al aprendizaje de conceptos, reglas, heurísticas y resolución de problemas. Otros enfoques, además de los mencionados anteriormente, incluyen:
Con el auge del aprendizaje profundo, el enfoque de la IA simbólica se ha comparado con el aprendizaje profundo como complementario "...y los investigadores de IA han establecido muchos paralelismos entre la investigación de Kahneman sobre el razonamiento y la toma de decisiones humanas (reflejada en su libro Pensar rápido, pensar despacio ) y los denominados "sistemas de IA 1 y 2", que en principio se modelarían mediante el aprendizaje profundo y el razonamiento simbólico, respectivamente". Desde este punto de vista, el razonamiento simbólico es más adecuado para el razonamiento deliberativo, la planificación y la explicación, mientras que el aprendizaje profundo es más adecuado para el reconocimiento rápido de patrones en aplicaciones perceptivas con datos ruidosos. [17] [18]
La IA neurosimbólica intenta integrar arquitecturas neuronales y simbólicas de una manera que aborde las fortalezas y debilidades de cada una, de manera complementaria, para respaldar una IA robusta capaz de razonar, aprender y modelar cognitivamente. Como sostiene Valiant [77] y muchos otros, [78] la construcción efectiva de modelos cognitivos computacionales ricos exige la combinación de razonamiento simbólico sólido y modelos de aprendizaje (automático) eficientes. Gary Marcus , de manera similar, sostiene que: "No podemos construir modelos cognitivos ricos de una manera adecuada y automatizada sin el triunvirato de arquitectura híbrida, conocimiento previo rico y técnicas sofisticadas para el razonamiento". [79] y en particular: "Para construir un enfoque robusto e impulsado por el conocimiento para la IA, debemos tener la maquinaria de manipulación de símbolos en nuestro conjunto de herramientas. Demasiado conocimiento útil es abstracto como para arreglárselas sin herramientas que representen y manipulen la abstracción, y hasta la fecha, la única maquinaria que conocemos que puede manipular ese conocimiento abstracto de manera confiable es el aparato de manipulación de símbolos". [80]
Henry Kautz , [19] Francesca Rossi , [81] y Bart Selman [82] también han abogado por una síntesis. Sus argumentos se basan en la necesidad de abordar los dos tipos de pensamiento analizados en el libro de Daniel Kahneman , Pensar rápido, pensar despacio . Kahneman describe el pensamiento humano como si tuviera dos componentes, el Sistema 1 y el Sistema 2. El Sistema 1 es rápido, automático, intuitivo e inconsciente. El Sistema 2 es más lento, paso a paso y explícito. El Sistema 1 es el tipo utilizado para el reconocimiento de patrones, mientras que el Sistema 2 es mucho más adecuado para la planificación, la deducción y el pensamiento deliberativo. En esta visión, el aprendizaje profundo modela mejor el primer tipo de pensamiento, mientras que el razonamiento simbólico modela mejor el segundo tipo y ambos son necesarios.
Garcez y Lamb describen que la investigación en esta área se viene desarrollando desde al menos los últimos veinte años, [83] desde su libro de 2002 sobre sistemas de aprendizaje neurosimbólico. [84] Se ha realizado una serie de talleres sobre razonamiento neurosimbólico todos los años desde 2005, consulte http://www.neural-symbolic.org/ para obtener más detalles.
En su artículo de 2015, Aprendizaje y razonamiento neuronal-simbólico: contribuciones y desafíos, Garcez et al. argumentan que:
La integración de los paradigmas simbólico y conexionista de la IA ha sido una tarea que ha llevado a cabo una comunidad de investigadores relativamente pequeña durante las dos últimas décadas y ha producido varios resultados significativos. Durante la última década, se ha demostrado que los sistemas simbólicos neuronales son capaces de superar la llamada fijación proposicional de las redes neuronales, como McCarthy (1988) lo expresó en respuesta a Smolensky (1988); véase también (Hinton, 1990). Se ha demostrado que las redes neuronales son capaces de representar lógicas modales y temporales (d'Avila Garcez y Lamb, 2006) y fragmentos de lógica de primer orden (Bader, Hitzler, Hölldobler, 2008; d'Avila Garcez, Lamb, Gabbay, 2009). Además, los sistemas simbólicos neuronales se han aplicado a una serie de problemas en las áreas de bioinformática, ingeniería de control, verificación y adaptación de software, inteligencia visual, aprendizaje de ontologías y juegos de computadora. [78]
Los enfoques de integración son variados. A continuación, se presenta la taxonomía de arquitecturas neurosimbólicas de Henry Kautz , junto con algunos ejemplos:
Quedan pendientes muchas preguntas de investigación clave, como:
Esta sección ofrece una descripción general de las técnicas y contribuciones en un contexto general que da lugar a muchos otros artículos más detallados en Wikipedia. Las secciones sobre aprendizaje automático y razonamiento incierto se tratan anteriormente en la sección de historia.
El lenguaje de programación de IA clave en los EE. UU. durante el último período de auge simbólico de la IA fue LISP . LISP es el segundo lenguaje de programación más antiguo después de FORTRAN y fue creado en 1958 por John McCarthy . LISP proporcionó el primer bucle de lectura-evaluación-impresión para respaldar el desarrollo rápido de programas. Las funciones compiladas se podían mezclar libremente con funciones interpretadas. También se proporcionaron seguimiento de programas, pasos y puntos de interrupción, junto con la capacidad de cambiar valores o funciones y continuar desde puntos de interrupción o errores. Tenía el primer compilador autoalojado , lo que significa que el compilador en sí se escribió originalmente en LISP y luego se ejecutó de manera interpretativa para compilar el código del compilador.
Otras innovaciones clave iniciadas por LISP que se han extendido a otros lenguajes de programación incluyen:
Los programas eran en sí mismos estructuras de datos sobre las que otros programas podían operar, lo que permitía la fácil definición de lenguajes de nivel superior.
A diferencia de los EE. UU., en Europa el lenguaje de programación de IA clave durante ese mismo período fue Prolog . Prolog proporcionó un almacén integrado de hechos y cláusulas que podían consultarse mediante un bucle de lectura-evaluación-impresión . El almacén podía actuar como una base de conocimiento y las cláusulas podían actuar como reglas o una forma restringida de lógica. Como un subconjunto de la lógica de primer orden, Prolog se basó en cláusulas de Horn con un supuesto de mundo cerrado (cualquier hecho no conocido se consideraba falso) y un supuesto de nombre único para términos primitivos (por ejemplo, se consideraba que el identificador barack_obama se refería exactamente a un objeto). El retroceso y la unificación están integrados en Prolog.
A Alain Colmerauer y Philippe Roussel se les atribuye la invención de Prolog. Prolog es una forma de programación lógica, inventada por Robert Kowalski . Su historia también estuvo influenciada por PLANNER de Carl Hewitt , una base de datos asertiva con invocación de métodos dirigida por patrones. Para obtener más detalles, consulte la sección sobre los orígenes de Prolog en el artículo PLANNER .
Prolog también es un tipo de programación declarativa . Las cláusulas lógicas que describen los programas se interpretan directamente para ejecutar los programas especificados. No se requiere una serie explícita de acciones, como ocurre con los lenguajes de programación imperativos .
Japón promovió Prolog para su Proyecto de Quinta Generación , con la intención de construir hardware especial para un alto rendimiento. De manera similar, las máquinas LISP se construyeron para ejecutar LISP, pero cuando el segundo auge de la IA se convirtió en una crisis, estas empresas no pudieron competir con las nuevas estaciones de trabajo que ahora podían ejecutar LISP o Prolog de forma nativa a velocidades comparables. Consulte la sección de historia para obtener más detalles.
Smalltalk fue otro lenguaje de programación de IA influyente. Por ejemplo, introdujo metaclases y, junto con Flavors y CommonLoops , influyó en el Common Lisp Object System , o ( CLOS ), que ahora es parte de Common Lisp , el dialecto estándar actual de Lisp. CLOS es un sistema orientado a objetos basado en Lisp que permite herencia múltiple , además de extensiones incrementales tanto para clases como para metaclases, proporcionando así un protocolo de metaobjetos en tiempo de ejecución . [88]
Para otros lenguajes de programación de IA, consulte esta lista de lenguajes de programación para inteligencia artificial . Actualmente, Python , un lenguaje de programación multiparadigma , es el lenguaje de programación más popular, en parte debido a su extensa biblioteca de paquetes que admite la ciencia de datos , el procesamiento del lenguaje natural y el aprendizaje profundo. Python incluye un bucle de lectura-evaluación-impresión, elementos funcionales como funciones de orden superior y programación orientada a objetos que incluye metaclases.
La búsqueda surge en muchos tipos de resolución de problemas, incluyendo la planificación , la satisfacción de restricciones y la práctica de juegos como damas , ajedrez y go . Los algoritmos de búsqueda de árboles de búsqueda de IA más conocidos son la búsqueda en amplitud , la búsqueda en profundidad , A* y la búsqueda de Monte Carlo . Los algoritmos de búsqueda clave para la satisfacibilidad booleana son WalkSAT , el aprendizaje de cláusulas impulsado por conflictos y el algoritmo DPLL . Para la búsqueda adversaria al jugar, la poda alfa-beta , la ramificación y el límite y el minimax fueron contribuciones tempranas.
Se han investigado múltiples enfoques diferentes para representar el conocimiento y luego razonar con esas representaciones. A continuación, se presenta una descripción general rápida de los enfoques para la representación del conocimiento y el razonamiento automático.
Las redes semánticas , los gráficos conceptuales , los marcos y la lógica son enfoques para modelar el conocimiento, como el conocimiento del dominio, el conocimiento de resolución de problemas y el significado semántico del lenguaje. Las ontologías modelan conceptos clave y sus relaciones en un dominio. Ejemplos de ontologías son YAGO , WordNet y DOLCE . DOLCE es un ejemplo de una ontología superior que se puede utilizar para cualquier dominio, mientras que WordNet es un recurso léxico que también se puede ver como una ontología . YAGO incorpora WordNet como parte de su ontología, para alinear hechos extraídos de Wikipedia con los synsets de WordNet . La ontología de enfermedades es un ejemplo de una ontología médica que se utiliza actualmente.
La lógica de descripción es una lógica para la clasificación automatizada de ontologías y para detectar datos de clasificación inconsistentes. OWL es un lenguaje utilizado para representar ontologías con lógica de descripción . Protégé es un editor de ontologías que puede leer ontologías en OWL y luego verificar la consistencia con clasificadores deductivos como HermiT. [89]
La lógica de primer orden es más general que la lógica descriptiva. Los demostradores de teoremas automatizados que se analizan a continuación pueden demostrar teoremas en lógica de primer orden. La lógica de cláusulas de Horn es más restringida que la lógica de primer orden y se utiliza en lenguajes de programación lógica como Prolog. Las extensiones de la lógica de primer orden incluyen la lógica temporal , para manejar el tiempo; la lógica epistémica , para razonar sobre el conocimiento del agente; la lógica modal , para manejar la posibilidad y la necesidad; y las lógicas probabilísticas para manejar la lógica y la probabilidad juntas.
Ejemplos de demostradores de teoremas automatizados para lógica de primer orden son:
Prover9 se puede utilizar junto con el verificador de modelos Mace4 . ACL2 es un demostrador de teoremas que puede manejar demostraciones por inducción y es un descendiente del demostrador de teoremas de Boyer-Moore, también conocido como Nqthm .
Los sistemas basados en el conocimiento tienen una base de conocimiento explícita, generalmente de reglas, para mejorar la reutilización en los dominios al separar el código procedimental y el conocimiento del dominio. Un motor de inferencia independiente procesa las reglas y agrega, elimina o modifica un almacén de conocimiento.
Los motores de inferencia de encadenamiento hacia adelante son los más comunes y se utilizan en CLIPS y OPS5 . El encadenamiento hacia atrás se produce en Prolog, donde se utiliza una representación lógica más limitada, las cláusulas Horn . La coincidencia de patrones, específicamente la unificación , se utiliza en Prolog.
Un tipo de resolución de problemas más flexible se produce cuando se razona sobre qué hacer a continuación, en lugar de simplemente elegir una de las acciones disponibles. Este tipo de razonamiento de metanivel se utiliza en Soar y en la arquitectura de pizarra BB1.
Las arquitecturas cognitivas como ACT-R pueden tener capacidades adicionales, como la capacidad de compilar conocimiento usado frecuentemente en fragmentos de nivel superior .
Marvin Minsky fue el primero en proponer los marcos como una forma de interpretar situaciones visuales comunes, como una oficina, y Roger Schank extendió esta idea a los guiones de rutinas comunes, como salir a cenar. Cyc ha intentado capturar conocimientos útiles de sentido común y tiene "microteorías" para manejar tipos particulares de razonamiento específico de un dominio.
La simulación cualitativa, como la QSIM de Benjamin Kuipers [90], se aproxima al razonamiento humano sobre física ingenua, como lo que sucede cuando calentamos un líquido en una olla sobre la estufa. Esperamos que se caliente y posiblemente hierva, aunque no conozcamos su temperatura, su punto de ebullición u otros detalles, como la presión atmosférica.
De manera similar, el álgebra de intervalos temporales de Allen es una simplificación del razonamiento sobre el tiempo y el cálculo de conexión de regiones es una simplificación del razonamiento sobre las relaciones espaciales. Ambos pueden resolverse con solucionadores de restricciones .
Los solucionadores de restricciones realizan un tipo de inferencia más limitado que la lógica de primer orden. Pueden simplificar conjuntos de restricciones espaciotemporales, como las de RCC o Álgebra temporal , además de resolver otros tipos de problemas de rompecabezas, como Wordle , Sudoku , problemas criptoaritméticos , etc. La programación lógica de restricciones se puede utilizar para resolver problemas de planificación, por ejemplo, con reglas de manejo de restricciones (CHR).
El Solucionador de problemas general (GPS) considera la planificación como una solución de problemas que utiliza el análisis de medios y fines para crear planes. STRIPS adoptó un enfoque diferente, considerando la planificación como una demostración de teoremas. Graphplan adopta un enfoque de menor compromiso para la planificación, en lugar de elegir secuencialmente acciones a partir de un estado inicial, trabajando hacia adelante, o un estado objetivo si se trabaja hacia atrás. Satplan es un enfoque de planificación en el que un problema de planificación se reduce a un problema de satisfacibilidad booleana .
El procesamiento del lenguaje natural se centra en tratar el lenguaje como datos para realizar tareas como identificar temas sin comprender necesariamente el significado pretendido. La comprensión del lenguaje natural, en cambio, construye una representación del significado y la utiliza para un procesamiento posterior, como responder preguntas.
El análisis sintáctico , la tokenización , la corrección ortográfica , el etiquetado de partes del discurso y la fragmentación de frases verbales y nominales son aspectos del procesamiento del lenguaje natural que la IA simbólica ha manejado durante mucho tiempo, pero que desde entonces se han mejorado con enfoques de aprendizaje profundo. En la IA simbólica, se han utilizado la teoría de la representación del discurso y la lógica de primer orden para representar los significados de las oraciones. El análisis semántico latente (LSA) y el análisis semántico explícito también proporcionaron representaciones vectoriales de documentos. En este último caso, los componentes vectoriales se pueden interpretar como conceptos nombrados por los artículos de Wikipedia.
Los nuevos enfoques de aprendizaje profundo basados en modelos Transformer han eclipsado estos enfoques de IA simbólica anteriores y han alcanzado un rendimiento de vanguardia en el procesamiento del lenguaje natural . Sin embargo, los modelos Transformer son opacos y aún no producen representaciones semánticas interpretables por humanos para oraciones y documentos. En cambio, producen vectores específicos de la tarea donde el significado de los componentes del vector es opaco.
Los agentes son sistemas autónomos integrados en un entorno que perciben y sobre el que actúan en algún sentido. El libro de texto estándar de Russell y Norvig sobre inteligencia artificial está organizado para reflejar arquitecturas de agentes de creciente sofisticación. [91] La sofisticación de los agentes varía desde simples agentes reactivos, hasta aquellos con un modelo del mundo y capacidades de planificación automatizadas , posiblemente un agente BDI , es decir, uno con creencias, deseos e intenciones -o alternativamente un modelo de aprendizaje de refuerzo aprendido con el tiempo para elegir acciones- hasta una combinación de arquitecturas alternativas, como una arquitectura neurosimbólica [87] que incluye aprendizaje profundo para la percepción. [92]
Por el contrario, un sistema multiagente consta de múltiples agentes que se comunican entre sí mediante un lenguaje de comunicación entre agentes, como el lenguaje de consulta y manipulación de conocimientos (KQML). No es necesario que todos los agentes tengan la misma arquitectura interna. Las ventajas de los sistemas multiagente incluyen la capacidad de dividir el trabajo entre los agentes y aumentar la tolerancia a fallos cuando se pierden agentes. Los problemas de investigación incluyen cómo los agentes llegan a un consenso , la resolución distribuida de problemas , el aprendizaje multiagente , la planificación multiagente y la optimización distribuida de restricciones .
Las controversias surgieron desde el principio en el campo de la IA simbólica, tanto dentro del campo (por ejemplo, entre los logicistas (los pro-lógica "pulcros" ) y los no logicistas (los anti-lógica "desaliñados" ), como entre aquellos que apoyaban la IA pero rechazaban los enfoques simbólicos (principalmente los conexionistas ) y aquellos fuera del campo. Las críticas desde fuera del campo provenían principalmente de filósofos, por motivos intelectuales, pero también de agencias de financiación, especialmente durante los dos inviernos de la IA.
Se descubrieron limitaciones en el uso de la lógica de primer orden simple para razonar sobre dominios dinámicos. Se descubrieron problemas tanto en lo que respecta a la enumeración de las condiciones previas para que una acción tenga éxito como a la provisión de axiomas para lo que no cambia después de que se realiza una acción.
McCarthy y Hayes introdujeron el Problema del Marco en 1969 en el artículo "Algunos problemas filosóficos desde el punto de vista de la inteligencia artificial". [93] Un ejemplo sencillo se da al "probar que una persona puede entablar una conversación con otra", ya que se requeriría un axioma que afirmara que "si una persona tiene un teléfono, todavía lo tiene después de buscar un número en la guía telefónica" para que la deducción fuera exitosa. Se requerirían axiomas similares para otras acciones del dominio para especificar qué no cambió.
Un problema similar, llamado el problema de la calificación , se produce al intentar enumerar las condiciones previas para que una acción tenga éxito. Se puede imaginar una cantidad infinita de condiciones patológicas; por ejemplo, un plátano en el tubo de escape podría impedir que un automóvil funcione correctamente.
El enfoque de McCarthy para solucionar el problema del marco fue la circunscripción , un tipo de lógica no monótona en la que se podían hacer deducciones a partir de acciones que solo necesitaban especificar lo que cambiaría sin tener que especificar explícitamente todo lo que no cambiaría. Otras lógicas no monótonas proporcionaban sistemas de mantenimiento de la verdad que revisaban las creencias que conducían a contradicciones.
Otras formas de manejar dominios más abiertos incluían sistemas de razonamiento probabilístico y aprendizaje automático para aprender nuevos conceptos y reglas. El Advice Taker de McCarthy puede considerarse una inspiración en este sentido, ya que podía incorporar nuevos conocimientos proporcionados por un ser humano en forma de afirmaciones o reglas. Por ejemplo, los sistemas de aprendizaje automático simbólico experimentales exploraron la capacidad de tomar consejos de alto nivel en lenguaje natural e interpretarlos en reglas procesables específicas del dominio.
De manera similar a los problemas que surgen al manejar dominios dinámicos, el razonamiento de sentido común también es difícil de capturar en el razonamiento formal. Algunos ejemplos de razonamiento de sentido común incluyen el razonamiento implícito sobre cómo piensa la gente o el conocimiento general de los eventos, objetos y criaturas vivientes cotidianos. Este tipo de conocimiento se da por sentado y no se considera digno de mención. El razonamiento de sentido común es un área abierta de investigación y un desafío tanto para los sistemas simbólicos (por ejemplo, Cyc ha intentado capturar partes clave de este conocimiento durante más de una década) como para los sistemas neuronales (por ejemplo, los autos autónomos que no saben que no deben chocar contra conos o no deben atropellar a peatones que caminan en bicicleta).
McCarthy consideraba que su Advice Taker tenía sentido común, pero su definición de sentido común era diferente a la anterior. [94] Definió un programa como alguien con sentido común " si deduce automáticamente por sí mismo una clase suficientemente amplia de consecuencias inmediatas de cualquier cosa que se le diga y de lo que ya sabe ".
Los enfoques conexionistas incluyen trabajos anteriores sobre redes neuronales , [95] como los perceptrones ; trabajos de mediados y fines de los años 80, como la Máquina de Conexión de Danny Hillis y los avances de Yann LeCun en redes neuronales convolucionales ; hasta los enfoques más avanzados de la actualidad, como los Transformadores , las GAN y otros trabajos en aprendizaje profundo.
Entre los conexionistas se han esbozado tres posiciones filosóficas [96] :
Olazaran, en su historia sociológica de las controversias dentro de la comunidad de redes neuronales, describió la visión del conexionismo moderado como esencialmente compatible con la investigación actual en híbridos neurosimbólicos:
La tercera y última postura que me gustaría examinar aquí es la que llamo la visión conexionista moderada, una visión más ecléctica del debate actual entre el conexionismo y la IA simbólica. Uno de los investigadores que ha elaborado esta postura de forma más explícita es Andy Clark , filósofo de la Escuela de Ciencias Cognitivas y Computacionales de la Universidad de Sussex (Brighton, Inglaterra). Clark defendía los sistemas híbridos (en parte simbólicos, en parte conexionistas). Sostenía que se necesitan (al menos) dos tipos de teorías para estudiar y modelar la cognición. Por un lado, para algunas tareas de procesamiento de información (como el reconocimiento de patrones) el conexionismo tiene ventajas sobre los modelos simbólicos. Pero, por otro lado, para otros procesos cognitivos (como el razonamiento serial, deductivo y los procesos de manipulación generativa de símbolos) el paradigma simbólico ofrece modelos adecuados, y no sólo "aproximaciones" (contrariamente a lo que afirmarían los conexionistas radicales). [97]
Gary Marcus ha afirmado que el ánimo que hay hoy en la comunidad de aprendizaje profundo contra los enfoques simbólicos puede ser más sociológico que filosófico:
Pensar que podemos simplemente abandonar la manipulación de símbolos es suspender la incredulidad.
Y, sin embargo, en general, así es como procede la mayor parte de la IA actual. Hinton y muchos otros han intentado con ahínco desterrar por completo los símbolos. La esperanza del aprendizaje profundo (que parece no estar basada tanto en la ciencia, sino en una especie de rencor histórico) es que el comportamiento inteligente surgirá exclusivamente de la confluencia de datos masivos y aprendizaje profundo. Mientras que las computadoras y el software clásicos resuelven tareas definiendo conjuntos de reglas de manipulación de símbolos dedicadas a tareas particulares, como editar una línea en un procesador de textos o realizar un cálculo en una hoja de cálculo, las redes neuronales suelen intentar resolver tareas mediante aproximación estadística y aprendizaje a partir de ejemplos.
Según Marcus, Geoffrey Hinton y sus colegas han sido vehementemente "antisimbólicos":
Cuando el aprendizaje profundo resurgió en 2012, lo hizo con una actitud de no hacer prisioneros que ha caracterizado la mayor parte de la última década. En 2015, su hostilidad hacia todo lo que tuviera símbolos se había cristalizado por completo. Dio una charla en un taller de IA en Stanford en la que comparó los símbolos con el éter , uno de los mayores errores de la ciencia.
...
Desde entonces, su campaña antisimbólica no ha hecho más que aumentar su intensidad. En 2016, Yann LeCun , Bengio y Hinton escribieron un manifiesto a favor del aprendizaje profundo en una de las revistas científicas más importantes, Nature. El manifiesto terminaba con un ataque directo a la manipulación de símbolos, pidiendo no una reconciliación sino una sustitución total. Más tarde, Hinton dijo en una reunión de líderes de la Unión Europea que invertir más dinero en métodos de manipulación de símbolos era "un gran error", comparándolo con invertir en motores de combustión interna en la era de los coches eléctricos. [98]
Parte de estas disputas pueden deberse a una terminología poco clara:
La ganadora del premio Turing, Judea Pearl, ofrece una crítica del aprendizaje automático que, desafortunadamente, confunde los términos aprendizaje automático y aprendizaje profundo. De manera similar, cuando Geoffrey Hinton se refiere a la IA simbólica, la connotación del término tiende a ser la de sistemas expertos desposeídos de cualquier capacidad de aprender. El uso de la terminología necesita una aclaración. El aprendizaje automático no se limita a la minería de reglas de asociación , véase el cuerpo de trabajo sobre ML simbólico y aprendizaje relacional (las diferencias con el aprendizaje profundo son la elección de la representación, lógica localista en lugar de distribuida, y el no uso de algoritmos de aprendizaje basados en gradientes ). Del mismo modo, la IA simbólica no se trata solo de reglas de producción escritas a mano. Una definición adecuada de IA se refiere a la representación y el razonamiento del conocimiento , los sistemas autónomos de múltiples agentes , la planificación y la argumentación , así como el aprendizaje. [99]
Otra crítica a la IA simbólica es el enfoque de la cognición encarnada :
El enfoque de la cognición incorporada sostiene que no tiene sentido considerar el cerebro por separado: la cognición se produce dentro de un cuerpo, que está integrado en un entorno. Necesitamos estudiar el sistema como un todo; el funcionamiento del cerebro explota las regularidades de su entorno, incluido el resto de su cuerpo. Bajo el enfoque de la cognición incorporada, la robótica, la visión y otros sensores se vuelven centrales, no periféricos. [100]
Rodney Brooks inventó la robótica basada en el comportamiento , un enfoque para la cognición corporizada. Nouvelle AI , otro nombre para este enfoque, se considera una alternativa tanto a la IA simbólica como a la IA conexionista. Su enfoque rechazó las representaciones, ya sean simbólicas o distribuidas, no solo por ser innecesarias, sino también perjudiciales. En cambio, creó la arquitectura de subsunción , una arquitectura en capas para agentes corporizados. Cada capa logra un propósito diferente y debe funcionar en el mundo real. Por ejemplo, el primer robot que describe en Intelligence Without Representation , tiene tres capas. La capa inferior interpreta los sensores de sonar para evitar objetos. La capa intermedia hace que el robot deambule cuando no hay obstáculos. La capa superior hace que el robot vaya a lugares más distantes para una mayor exploración. Cada capa puede inhibir o suprimir temporalmente una capa de nivel inferior. Criticó a los investigadores de IA por definir problemas de IA para sus sistemas, cuando: "No hay una división clara entre la percepción (abstracción) y el razonamiento en el mundo real". [101] Llamó a sus robots "Criaturas" y cada capa estaba "compuesta por una red de topología fija de máquinas de estados finitos simples". [102] En el enfoque de Nouvelle AI, "Primero, es de vital importancia probar las Criaturas que construimos en el mundo real; es decir, en el mismo mundo que habitamos los humanos. Es desastroso caer en la tentación de probarlas primero en un mundo simplificado, incluso con las mejores intenciones de transferir posteriormente la actividad a un mundo no simplificado". [103] Su énfasis en las pruebas en el mundo real contrastaba con "El trabajo temprano en IA se concentró en juegos, problemas geométricos, álgebra simbólica, demostración de teoremas y otros sistemas formales" [104] y el uso del mundo de bloques en sistemas de IA simbólica como SHRDLU .
Cada enfoque (simbólico, conexionista y basado en el comportamiento) tiene ventajas, pero ha sido criticado por los otros enfoques. La IA simbólica ha sido criticada por ser incorpórea, propensa al problema de la calificación y deficiente en el manejo de los problemas perceptivos en los que el aprendizaje profundo sobresale. A su vez, la IA conexionista ha sido criticada por ser poco adecuada para la resolución deliberativa de problemas paso a paso, la incorporación de conocimiento y el manejo de la planificación. Por último, la Nouvelle AI sobresale en los dominios de la robótica reactiva y del mundo real, pero ha sido criticada por las dificultades para incorporar el aprendizaje y el conocimiento.
Las IA híbridas que incorporan uno o más de estos enfoques se consideran actualmente el camino a seguir. [19] [81] [82] Russell y Norvig concluyen que:
En general, Dreyfus vio áreas en las que la IA no tenía respuestas completas y dijo que, por lo tanto, la IA es imposible; ahora vemos que muchas de estas mismas áreas están siendo sometidas a investigación y desarrollo continuos que conducen a una mayor capacidad, no a una imposibilidad. [100]