stringtranslate.com

Inteligencia artificial simbólica

Una representación artística de la IA donde una sección transversal de una cabeza y un cerebro humanos de perfil se mezcla con un fondo y una superposición en forma de circuito.
Una representación artística de la IA

En inteligencia artificial , inteligencia artificial simbólica es el término para la colección de todos los métodos en la investigación de inteligencia artificial que se basan en representaciones simbólicas (legibles por humanos) de alto nivel de problemas, lógica y búsqueda . [1] La IA simbólica utilizó herramientas como programación lógica , reglas de producción , redes y marcos semánticos , y desarrolló aplicaciones como sistemas basados ​​en el conocimiento (en particular, sistemas expertos ), matemáticas simbólicas , demostradores automatizados de teoremas , ontologías y la web semántica. y sistemas automatizados de planificación y programación . El paradigma de la IA simbólica generó ideas fundamentales en la búsqueda , los lenguajes de programación simbólicos, los agentes , los sistemas multiagente , la web semántica y las fortalezas y limitaciones del conocimiento formal y los sistemas de razonamiento .

La IA simbólica fue el paradigma dominante de la investigación en IA desde mediados de los años cincuenta hasta mediados de los noventa. [2] Los investigadores de los años 1960 y 1970 estaban convencidos de que los enfoques simbólicos eventualmente lograrían crear una máquina con inteligencia artificial general y consideraban que este era el objetivo final de su campo. [ cita necesaria ] Un auge inicial, con éxitos iniciales como el Logic Theorist y el programa de juego de damas de Samuel , generó expectativas y promesas poco realistas y fue seguido por el primer invierno de IA cuando se agotaron los fondos. [3] [4] Se produjo un segundo auge (1969-1986) con el surgimiento de los sistemas expertos, su promesa de capturar la experiencia corporativa y una entusiasta aceptación corporativa. [5] [6] Ese auge, y algunos éxitos iniciales, por ejemplo, con XCON en DEC , fueron seguidos nuevamente por una decepción posterior. [6] Surgieron problemas con dificultades en la adquisición de conocimientos, el mantenimiento de grandes bases de conocimientos y fragilidad en el manejo de problemas fuera de dominio. Siguió otro segundo, AI Winter (1988-2011). [7] Posteriormente, los investigadores de IA se centraron en abordar los problemas subyacentes en el manejo de la incertidumbre y en la adquisición de conocimientos. [8] La incertidumbre se abordó con métodos formales como los modelos ocultos de Markov , el razonamiento bayesiano y el aprendizaje estadístico relacional . [9] [10] El aprendizaje automático simbólico abordó el problema de la adquisición de conocimientos con contribuciones que incluyen Version Space , aprendizaje PAC de Valiant , aprendizaje de árbol de decisiones ID3 de Quinlan , aprendizaje basado en casos y programación lógica inductiva para aprender relaciones. [11]

Las redes neuronales , un enfoque subsimbólico, se habían seguido desde los primeros días y resurgieron con fuerza en 2012. Los primeros ejemplos son el trabajo de aprendizaje de perceptrones de Rosenblatt , el trabajo de retropropagación de Rumelhart, Hinton y Williams, [12] y el trabajo en redes neuronales convolucionales de LeCun. et al. en 1989. [13] Sin embargo, las redes neuronales no se consideraron exitosas hasta aproximadamente 2012: "Hasta que Big Data se convirtió en algo común, el consenso general en la comunidad Al era que el llamado enfoque de redes neuronales era inútil. Los sistemas simplemente no funcionaban". No funciona tan bien, en comparación con otros métodos... En 2012 se produjo una revolución, cuando varias personas, incluido un equipo de investigadores que trabajaban con Hinton, idearon una manera de utilizar el poder de las GPU para aumentar enormemente el poder de Redes neuronales." [14] Durante los siguientes años, el aprendizaje profundo tuvo un éxito espectacular en el manejo de la visión, el reconocimiento de voz, la síntesis de voz, la generación de imágenes y la traducción automática. Sin embargo, desde 2020, a medida que las dificultades inherentes al sesgo, la explicación, la comprensibilidad y la solidez se hicieron más evidentes en los enfoques de aprendizaje profundo; un número cada vez mayor de investigadores de IA han pedido que se combine lo mejor de los enfoques de redes neuronales y simbólicas [15] [16] y se aborden áreas con las que ambos enfoques tienen dificultades, como el razonamiento de sentido común . [14]

Historia

A continuación se presenta una breve historia de la IA simbólica hasta la actualidad. Los períodos de tiempo y los títulos se extraen de la Conferencia en memoria de Robert S. Engelmore AAAI de 2020 de Henry Kautz [17] y del artículo más extenso de Wikipedia sobre la Historia de la IA , con fechas y títulos que difieren ligeramente para mayor claridad.

El primer verano de IA: exuberancia irracional, 1948-1966

El éxito de los primeros intentos en IA se produjo en tres áreas principales: redes neuronales artificiales, representación del conocimiento y búsqueda heurística, lo que contribuyó a generar altas expectativas. Esta sección resume la repetición de Kautz de la historia temprana de la IA.

Enfoques inspirados en la cognición o el comportamiento humano o animal.

Los enfoques cibernéticos intentaron replicar los circuitos de retroalimentación entre los animales y su entorno. Ya en 1948 se construyó una tortuga robótica, con sensores, motores para conducir y dirigir, y siete tubos de vacío para el control, basada en una red neuronal preprogramada. Este trabajo puede verse como un precursor de trabajos posteriores en redes neuronales. aprendizaje por refuerzo y robótica situada. [18]

Uno de los primeros programas importantes de IA simbólica fue el Teórico de la lógica , escrito por Allen Newell , Herbert Simon y Cliff Shaw en 1955-1956, ya que fue capaz de demostrar 38 teoremas elementales de los Principia Mathematica de Whitehead y Russell . Newell, Simon y Shaw posteriormente generalizaron este trabajo para crear un solucionador de problemas independiente del dominio, GPS (General Problem Solver). "GPS resolvió problemas representados con operadores formales mediante búsqueda en el espacio de estados mediante análisis de medios-fines" . [19]

Durante la década de 1960, los enfoques simbólicos lograron un gran éxito al simular el comportamiento inteligente en entornos estructurados como los juegos, las matemáticas simbólicas y la demostración de teoremas. La investigación en IA se centró en tres instituciones en la década de 1960: la Universidad Carnegie Mellon , Stanford , el MIT y (más tarde) la Universidad de Edimburgo . Cada uno desarrolló su propio estilo de investigación. Los enfoques anteriores basados ​​en la cibernética o las redes neuronales artificiales fueron abandonados o relegados a un segundo plano.

Herbert Simon y Allen Newell estudiaron las habilidades humanas para la resolución de problemas e intentaron formalizarlas, y su trabajo sentó las bases del campo de la inteligencia artificial, así como de la ciencia cognitiva , la investigación de operaciones y la ciencia de la gestión . Su equipo de investigación utilizó los resultados de experimentos psicológicos para desarrollar programas que simulaban las técnicas que utilizaban las personas para resolver problemas. [20] [21] Esta tradición, centrada en la Universidad Carnegie Mellon, eventualmente culminaría con el desarrollo de la arquitectura Soar a mediados de la década de 1980. [22] [23]

búsqueda heurística

Además de los tipos de conocimiento altamente especializados y específicos de un dominio que veremos más adelante utilizados en sistemas expertos, los primeros investigadores de IA simbólica descubrieron otra aplicación más general del conocimiento. Se las llamó heurísticas, reglas generales que guían una búsqueda en direcciones prometedoras: "¿Cómo puede ser práctica la búsqueda no enumerativa cuando el problema subyacente es exponencialmente difícil? El enfoque defendido por Simon y Newell es emplear heurísticas : algoritmos rápidos que pueden fallar". en algunas entradas o salidas, soluciones subóptimas". [24] Otro avance importante fue encontrar una manera de aplicar estas heurísticas que garantice que se encontrará una solución, si la hay, a pesar de la falibilidad ocasional de las heurísticas: "El algoritmo A* proporcionó un marco general para soluciones heurísticas completas y óptimas". búsqueda guiada. A* se utiliza como subrutina en prácticamente todos los algoritmos de IA hoy en día, pero todavía no es una solución mágica; su garantía de integridad se compra a costa de un tiempo exponencial en el peor de los casos. [24]

Trabajos iniciales sobre representación y razonamiento del conocimiento.

Los primeros trabajos cubrieron tanto aplicaciones del razonamiento formal que enfatizaban la lógica de primer orden , como intentos de manejar el razonamiento de sentido común de una manera menos formal.

Modelar el razonamiento formal con la lógica: los "neats"

A diferencia de Simon y Newell, John McCarthy consideró que las máquinas no necesitaban simular los mecanismos exactos del pensamiento humano, sino que podían intentar encontrar la esencia del razonamiento abstracto y la resolución de problemas con lógica, [25] independientemente de si las personas usaban la misma algoritmos. [a] Su laboratorio en Stanford ( SAIL ) se centró en el uso de la lógica formal para resolver una amplia variedad de problemas, incluida la representación del conocimiento , la planificación y el aprendizaje . [29] La lógica también fue el foco del trabajo en la Universidad de Edimburgo y en otras partes de Europa que condujo al desarrollo del lenguaje de programación Prolog y la ciencia de la programación lógica. [30] [31]

Modelar el conocimiento implícito de sentido común con marcos y guiones: los "desaliñados"

Investigadores del MIT (como Marvin Minsky y Seymour Papert ) [32] [33] [4] descubrieron que resolver problemas difíciles en visión y procesamiento del lenguaje natural requería soluciones ad hoc; argumentaron que ningún principio simple y general (como la lógica ) Captar todos los aspectos del comportamiento inteligente. Roger Schank describió sus enfoques "antilógicos" como " desaliñados " (a diferencia de los paradigmas " pulcros " de CMU y Stanford). [34] [35] Las bases de conocimiento de sentido común (como Cyc de Doug Lenat ) son un ejemplo de IA "desaliñada", ya que deben construirse a mano, un concepto complicado a la vez. [36] [37] [38]

El primer invierno de la IA: sueños aplastados, 1967-1977

El primer invierno de la IA fue un shock:

Durante el primer verano de IA, mucha gente pensó que la inteligencia artificial podría lograrse en tan solo unos pocos años. La Agencia de Proyectos de Investigación Avanzada de Defensa (DARPA) lanzó programas para apoyar la investigación de IA para utilizar la IA para resolver problemas de seguridad nacional; en particular, automatizar la traducción del ruso al inglés para operaciones de inteligencia y crear tanques autónomos para el campo de batalla. Los investigadores habían comenzado a darse cuenta de que lograr la IA iba a ser mucho más difícil de lo que se suponía una década antes, pero una combinación de arrogancia y falsedad llevó a muchos investigadores universitarios y de centros de estudios a aceptar financiación con promesas de resultados que deberían haber sabido que podían lograr. no cumplir. A mediados de la década de 1960, no se habían creado ni sistemas útiles de traducción del lenguaje natural ni tanques autónomos, y se produjo una dramática reacción. El nuevo liderazgo de DARPA canceló los programas de financiación de IA existentes.

...

Fuera de Estados Unidos, el terreno más fértil para la investigación en IA fue el Reino Unido. El invierno de la IA en el Reino Unido fue impulsado no tanto por líderes militares decepcionados como por académicos rivales que veían a los investigadores de IA como charlatanes y una pérdida de fondos para la investigación. El Parlamento encargó a un profesor de matemáticas aplicadas, Sir James Lighthill, que evaluara el estado de la investigación de la IA en el país . El informe afirmaba que todos los problemas en los que se trabaja en IA serían mejor manejados por investigadores de otras disciplinas, como las matemáticas aplicadas. El informe también afirma que los éxitos de la IA en los problemas de los juguetes nunca podrían ampliarse a aplicaciones del mundo real debido a la explosión combinatoria. [39]

El segundo verano de IA: el conocimiento es poder, 1978-1987

Sistemas basados ​​en el conocimiento

A medida que las limitaciones de los métodos débiles e independientes del dominio se hicieron cada vez más evidentes, [40] investigadores de las tres tradiciones comenzaron a incorporar conocimientos en aplicaciones de IA. [41] [5] La revolución del conocimiento fue impulsada por la comprensión de que el conocimiento es la base de las aplicaciones de IA de alto rendimiento y de dominios específicos.

Edward Feigenbaum dijo:

describir que un alto rendimiento en un dominio específico requiere conocimientos tanto generales como altamente específicos del dominio. Ed Feigenbaum y Doug Lenat llamaron a esto El Principio del Conocimiento:

(1) El principio del conocimiento: para que un programa realice bien una tarea compleja, debe saber mucho sobre el mundo en el que opera.
(2) Una extensión plausible de ese principio, llamada Hipótesis de la Amplitud: hay dos habilidades adicionales necesarias para un comportamiento inteligente en situaciones inesperadas: recurrir a un conocimiento cada vez más general y hacer analogías con un conocimiento específico pero lejano. [43]

Éxito con los sistemas expertos

Esta "revolución del conocimiento" condujo al desarrollo y despliegue de sistemas expertos (introducidos por Edward Feigenbaum ), la primera forma comercialmente exitosa de software de IA. [44] [45] [46]

Los sistemas expertos clave fueron:

DENDRAL se considera el primer sistema experto que se basó en la resolución de problemas intensiva en conocimientos. Se describe a continuación, por Ed Feigenbaum , de una entrevista de Comunicaciones de la ACM , Entrevista con Ed Feigenbaum:

Una de las personas de Stanford interesadas en los modelos mentales basados ​​en ordenador fue Joshua Lederberg , ganador del Premio Nobel de Genética en 1958. Cuando le dije que quería una "caja de arena" de inducción, dijo: "Tengo justo la adecuada para ti". Su laboratorio estaba haciendo espectrometría de masas de aminoácidos. La pregunta era: ¿cómo se pasa de observar el espectro de un aminoácido a la estructura química del aminoácido? Así es como comenzamos el Proyecto DENDRAL: yo era bueno en los métodos de búsqueda heurística y él tenía un algoritmo que era bueno para generar el espacio del problema químico.

No teníamos una visión grandiosa. Trabajamos de abajo hacia arriba. Nuestro químico fue Carl Djerassi , inventor de la sustancia química detrás de la píldora anticonceptiva y también uno de los espectrometristas de masas más respetados del mundo. Carl y sus postdoctorados eran expertos de talla mundial en espectrometría de masas. Comenzamos a ampliar sus conocimientos, inventando conocimientos de ingeniería a medida que avanzábamos. Estos experimentos permitieron valorar cada vez más el conocimiento de DENDRAL. Cuanto más hacías eso, más inteligente se volvía el programa. Tuvimos muy buenos resultados.

La generalización fue: en el conocimiento está el poder. Esa fue la gran idea. En mi carrera, ese es el gran "¡Ah, ja!", y no era la forma en que se hacía la IA anteriormente. Suena simple, pero probablemente sea la generalización más poderosa de la IA. [49]

Los otros sistemas expertos mencionados anteriormente vinieron después de DENDRAL. MYCIN ejemplifica la arquitectura clásica de un sistema experto de una base de conocimientos de reglas acoplada a un mecanismo de razonamiento simbólico, incluido el uso de factores de certeza para manejar la incertidumbre. GUIDON muestra cómo se puede reutilizar una base de conocimiento explícita para una segunda aplicación, la tutoría, y es un ejemplo de un sistema de tutoría inteligente , un tipo particular de aplicación basada en el conocimiento. Clancey demostró que no era suficiente simplemente usar las reglas de MYCIN para la instrucción, sino que también necesitaba agregar reglas para la gestión del diálogo y el modelado de los estudiantes. [48] ​​XCON es importante debido a los millones de dólares que ahorró a DEC , lo que desencadenó el auge de los sistemas expertos donde la mayoría de las grandes corporaciones en los EE. UU. tenían grupos de sistemas expertos, para capturar la experiencia corporativa, preservarla y automatizarla:

En 1988, el grupo de IA de DEC tenía desplegados 40 sistemas expertos y había más en camino. DuPont tenía 100 en uso y 500 en desarrollo. Casi todas las grandes corporaciones estadounidenses tenían su propio grupo Al y utilizaban o investigaban sistemas expertos. [47]

El conocimiento experto en ajedrez estaba codificado en Deep Blue . En 1996, esto permitió a Deep Blue de IBM , con la ayuda de una IA simbólica, ganar en una partida de ajedrez al entonces campeón mundial, Garry Kasparov . [50]

Arquitectura de sistemas expertos y basados ​​en el conocimiento.

Un componente clave de la arquitectura del sistema para todos los sistemas expertos es la base de conocimientos, que almacena hechos y reglas para la resolución de problemas. [51] El enfoque más simple para una base de conocimientos de un sistema experto es simplemente una colección o red de reglas de producción . Las reglas de producción conectan símbolos en una relación similar a una declaración Si-Entonces. El sistema experto procesa las reglas para hacer deducciones y determinar qué información adicional necesita, es decir, qué preguntas hacer, utilizando símbolos legibles por humanos. Por ejemplo, OPS5 , CLIPS y sus sucesores Jess y Drools operan de esta manera.

Los sistemas expertos pueden operar ya sea en un encadenamiento hacia adelante (de la evidencia a las conclusiones) o en un encadenamiento hacia atrás (desde los objetivos hasta los datos necesarios y los requisitos previos). Los sistemas más avanzados basados ​​en el conocimiento, como Soar , también pueden realizar razonamiento de metanivel, es decir, razonar sobre su propio razonamiento en términos de decidir cómo resolver problemas y monitorear el éxito de las estrategias de resolución de problemas.

Los sistemas de pizarra son un segundo tipo de arquitectura de sistema experto o basada en el conocimiento . Modelan una comunidad de expertos que contribuyen progresivamente, cuando pueden, a resolver un problema. El problema se representa en múltiples niveles de abstracción o puntos de vista alternativos. Los expertos (fuentes de conocimiento) ofrecen sus servicios voluntariamente siempre que reconocen que pueden contribuir. Las posibles acciones de resolución de problemas están representadas en una agenda que se actualiza a medida que cambia la situación del problema. Un controlador decide qué tan útil es cada contribución y quién debe realizar la siguiente acción de resolución del problema. Un ejemplo, la arquitectura de la pizarra BB1 [52] se inspiró originalmente en estudios sobre cómo los humanos planean realizar múltiples tareas durante un viaje. [53] Una innovación de BB1 ​​fue aplicar el mismo modelo de pizarra para resolver su problema de control, es decir, su controlador realizó razonamiento de metanivel con fuentes de conocimiento que monitoreaban qué tan bien se estaba desarrollando un plan o la resolución de problemas y podía cambiar de un estrategia a otra a medida que las condiciones, como los objetivos o los tiempos, cambiaban. BB1 se ha aplicado en múltiples dominios: planificación de obras de construcción, sistemas de tutoría inteligentes y seguimiento de pacientes en tiempo real.

El segundo invierno de la IA, 1988-1993

En el apogeo del auge de la IA, empresas como Symbolics , LMI y Texas Instruments vendían máquinas LISP específicamente destinadas a acelerar el desarrollo de aplicaciones e investigaciones de IA. Además, varias empresas de inteligencia artificial, como Teknowledge e Inference Corporation , vendían shells de sistemas expertos, capacitación y consultoría a corporaciones.

Desafortunadamente, el auge de la IA no duró y Kautz describe mejor el segundo invierno de la IA que siguió:

Se pueden ofrecer muchas razones para la llegada del segundo invierno de la IA. Las empresas de hardware fracasaron cuando aparecieron en el mercado estaciones de trabajo Unix generales de Sun, mucho más económicas, junto con buenos compiladores para LISP y Prolog. Muchas implementaciones comerciales de sistemas expertos se suspendieron cuando su mantenimiento resultó demasiado costoso. Los sistemas médicos expertos nunca tuvieron éxito por varias razones: la dificultad para mantenerlos actualizados; el desafío para los profesionales médicos de aprender a utilizar una asombrosa variedad de diferentes sistemas expertos para diferentes afecciones médicas; y quizás lo más crucial, la renuencia de los médicos a confiar en un diagnóstico hecho por computadora por encima de su instinto, incluso en dominios específicos donde los sistemas expertos podrían superar a un médico promedio. El dinero del capital de riesgo abandonó la IA prácticamente de la noche a la mañana. La conferencia mundial de IA (IJCAI) organizó una enorme y lujosa feria comercial y miles de asistentes no académicos en 1987 en Vancouver; La principal conferencia de IA del año siguiente, AAAI 1988 en St. Paul, fue un evento pequeño y estrictamente académico. [7]

Añadiendo fundamentos más rigurosos, 1993-2011

razonamiento incierto

Se probaron tanto enfoques estadísticos como extensiones de la lógica.

Un enfoque estadístico, los modelos ocultos de Markov , ya se había popularizado en la década de 1980 para el trabajo de reconocimiento de voz. [9] Posteriormente, en 1988, Judea Pearl popularizó el uso de redes bayesianas como una forma sólida pero eficiente de manejar el razonamiento incierto con su publicación del libro Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. [54] y los enfoques bayesianos se aplicaron con éxito en sistemas expertos. [55] Incluso más tarde, en la década de 1990, el aprendizaje relacional estadístico, un enfoque que combina probabilidad con fórmulas lógicas, permitió que la probabilidad se combinara con lógica de primer orden, por ejemplo, con redes lógicas de Markov o lógica blanda probabilística .

También se intentaron otras extensiones no probabilísticas de la lógica de primer orden para respaldar. Por ejemplo, se podría utilizar un razonamiento no monótono con sistemas de mantenimiento de la verdad . Un sistema de mantenimiento de la verdad rastreaba las suposiciones y justificaciones de todas las inferencias. Permitió retirar inferencias cuando se descubrió que las suposiciones eran incorrectas o se derivaba una contradicción. Se podrían proporcionar explicaciones para una inferencia explicando qué reglas se aplicaron para crearla y luego continuando con las inferencias y reglas subyacentes hasta llegar a los supuestos fundamentales. [56] Lofti Zadeh había introducido un tipo diferente de extensión para manejar la representación de la vaguedad. Por ejemplo, al decidir qué tan "pesado" o "alto" es un hombre, frecuentemente no hay una respuesta clara de "sí" o "no", y un predicado para pesado o alto devolvería valores entre 0 y 1. Esos valores representados hasta qué punto los predicados eran verdaderos. Su lógica difusa proporcionó además un medio para propagar combinaciones de estos valores a través de fórmulas lógicas. [57]

Aprendizaje automático

Se investigaron enfoques de aprendizaje automático simbólico para abordar el cuello de botella en la adquisición de conocimientos . Uno de los primeros es Meta-DENDRAL . Meta-DENDRAL utilizó una técnica de generación y prueba para generar hipótesis de reglas plausibles para compararlas con espectros. El conocimiento del dominio y la tarea redujo la cantidad de candidatos evaluados a un tamaño manejable. Feigenbaum describió Meta-DENDRAL como

...la culminación de mi sueño de principios y mediados de la década de 1960 que tenía que ver con la formación teórica. La idea era que había un solucionador de problemas como DENDRAL que tomaba algunas entradas y producía una salida. Al hacerlo, utilizó capas de conocimiento para dirigir y podar la búsqueda. Ese conocimiento llegó allí porque entrevistamos a personas. Pero, ¿cómo adquirió la gente el conocimiento? Observando miles de espectros. Por eso queríamos un programa que analizara miles de espectros e infiriera el conocimiento de la espectrometría de masas que DENDRAL pudiera utilizar para resolver problemas de formación de hipótesis individuales. Lo hicimos. Incluso pudimos publicar nuevos conocimientos sobre espectrometría de masas en el Journal of the American Chemical Society , dando crédito sólo en una nota a pie de página de que un programa, Meta-DENDRAL, realmente lo hizo. Pudimos hacer algo que había sido un sueño: que un programa de computadora generara una pieza científica nueva y publicable. [49]

En contraste con el enfoque intensivo en conocimiento de Meta-DENDRAL, Ross Quinlan inventó un enfoque independiente del dominio para la clasificación estadística, el aprendizaje de árboles de decisión , comenzando primero con ID3 [58] y luego extendiendo sus capacidades a C4.5 . [59] Los árboles de decisión creados son clasificadores interpretables de caja de cristal , con reglas de clasificación interpretables por humanos.

También se lograron avances en la comprensión de la teoría del aprendizaje automático. Tom Mitchell introdujo el aprendizaje en el espacio de versiones , que describe el aprendizaje como una búsqueda a través de un espacio de hipótesis, con límites superiores, más generales, e inferiores, más específicos, que abarcan todas las hipótesis viables consistentes con los ejemplos vistos hasta ahora. [60] Más formalmente, Valiant presentó el aprendizaje probablemente aproximadamente correcto (PAC Learning), un marco para el análisis matemático del aprendizaje automático. [61]

El aprendizaje automático simbólico abarcaba más que aprender con el ejemplo. Por ejemplo, John Anderson proporcionó un modelo cognitivo de aprendizaje humano en el que la práctica de habilidades da como resultado una compilación de reglas desde un formato declarativo hasta un formato procedimental con su arquitectura cognitiva ACT-R . Por ejemplo, un estudiante podría aprender a aplicar "Los ángulos suplementarios son dos ángulos cuyas medidas suman 180 grados" como varias reglas de procedimiento diferentes. Por ejemplo, una regla podría decir que si X e Y son suplementarios y se conoce X, entonces Y será 180 - X. Llamó a su enfoque "compilación de conocimientos". ACT-R se ha utilizado con éxito para modelar aspectos de la cognición humana, como el aprendizaje y la retención. ACT-R también se utiliza en sistemas de tutoría inteligentes , llamados tutores cognitivos , para enseñar con éxito geometría, programación de computadoras y álgebra a niños en edad escolar. [62]

La programación lógica inductiva fue otro enfoque de aprendizaje que permitió sintetizar programas lógicos a partir de ejemplos de entrada y salida. Por ejemplo, el MIS (Sistema de Inferencia de Modelos) de Ehud Shapiro podría sintetizar programas Prolog a partir de ejemplos. [63] John R. Koza aplicó algoritmos genéticos a la síntesis de programas para crear programación genética , que utilizó para sintetizar programas LISP. Finalmente, Zohar Manna y Richard Waldinger proporcionaron un enfoque más general para la síntesis de programas que sintetiza un programa funcional mientras demuestra que sus especificaciones son correctas. [64]

Como alternativa a la lógica, Roger Schank introdujo el razonamiento basado en casos (CBR). El enfoque CBR descrito en su libro Dynamic Memory [65] se centra primero en recordar casos clave de resolución de problemas para uso futuro y generalizarlos cuando sea apropiado. Cuando se enfrenta a un nuevo problema, CBR recupera el caso anterior más similar y lo adapta a las particularidades del problema actual. [66] Otra alternativa a la lógica, los algoritmos genéticos y la programación genética se basan en un modelo evolutivo de aprendizaje, donde los conjuntos de reglas se codifican en poblaciones, las reglas gobiernan el comportamiento de los individuos y la selección de los más aptos elimina conjuntos de reglas inadecuadas. a lo largo de muchas generaciones. [67]

El aprendizaje automático simbólico se aplicó al aprendizaje de conceptos, reglas, heurísticas y resolución de problemas. Los enfoques, distintos de los anteriores, incluyen:

  1. Aprender de la instrucción o del consejo, es decir, tomar la instrucción humana, presentada como consejo, y determinar cómo ponerla en práctica en situaciones específicas. Por ejemplo, en un juego de Corazones, aprender exactamente cómo jugar una mano para "evitar ganar puntos". [68]
  2. Aprender de ejemplos: mejorar el desempeño aceptando comentarios de expertos en la materia (PYME) durante la capacitación. Cuando la resolución de problemas falla, pedirle al experto que aprenda un nuevo ejemplo para la resolución de problemas o que aprenda una nueva explicación de exactamente por qué un ejemplo es más relevante que otro. Por ejemplo, el programa Protos aprendió a diagnosticar casos de tinnitus interactuando con un audiólogo. [69]
  3. Aprender por analogía: construir soluciones a problemas basados ​​en problemas similares vistos en el pasado y luego modificar sus soluciones para adaptarlas a una nueva situación o dominio. [70] [71]
  4. Sistemas de aprendizaje para aprendices: aprender soluciones novedosas a problemas observando la resolución de problemas humanos. El conocimiento del dominio explica por qué las soluciones novedosas son correctas y cómo se puede generalizar la solución. LEAP aprendió a diseñar circuitos VLSI observando a diseñadores humanos. [72]
  5. Aprender por descubrimiento, es decir, crear tareas para realizar experimentos y luego aprender de los resultados. Eurisko , de Doug Lenat , por ejemplo, aprendió heurísticas para vencer a jugadores humanos en el juego de rol Traveler durante dos años seguidos. [73]
  6. Aprender macrooperadores: es decir, buscar macrooperadores útiles para aprender a partir de secuencias de acciones básicas de resolución de problemas. Los buenos macrooperadores simplifican la resolución de problemas al permitir que los problemas se resuelvan a un nivel más abstracto. [74]

Aprendizaje profundo e IA neurosimbólica 2011: ahora

Con el auge del aprendizaje profundo, el enfoque de la IA simbólica se ha comparado con el aprendizaje profundo como complementario "... y los investigadores de la IA han establecido muchas veces paralelismos entre la investigación de Kahneman sobre el razonamiento humano y la toma de decisiones, reflejados en su libro Thinking, Fast y Lento – y los llamados "sistemas de IA 1 y 2", que en principio serían modelados mediante aprendizaje profundo y razonamiento simbólico, respectivamente. Desde este punto de vista, el razonamiento simbólico es más apto para el razonamiento, la planificación y la explicación deliberativos, mientras que el aprendizaje profundo es más apto para el reconocimiento rápido de patrones en aplicaciones perceptuales con datos ruidosos. [15] [16]

IA neurosimbólica: integrando enfoques neuronales y simbólicos

La IA neurosimbólica intenta integrar arquitecturas neuronales y simbólicas de una manera que aborde las fortalezas y debilidades de cada una, de manera complementaria, para respaldar una IA robusta capaz de razonar, aprender y modelar cognitivamente. Como argumentan Valiant [75] y muchos otros, [76] la construcción eficaz de modelos cognitivos computacionales ricos exige la combinación de un razonamiento simbólico sólido y modelos eficientes de aprendizaje (máquina). Gary Marcus , de manera similar, sostiene que: "No podemos construir modelos cognitivos ricos de una manera adecuada y automatizada sin el triunvirato de la arquitectura híbrida, el rico conocimiento previo y las técnicas sofisticadas de razonamiento", [77] y en particular: "Para construir Para adoptar un enfoque sólido y basado en el conocimiento de la IA, debemos contar con la maquinaria de manipulación de símbolos en nuestro conjunto de herramientas. Gran parte del conocimiento útil es abstracto como para arreglárnoslas sin herramientas que representen y manipulen la abstracción, y hasta la fecha, la única maquinaria que conocemos. Uno de los medios que pueden manipular de forma fiable ese conocimiento abstracto es el aparato de manipulación de símbolos". [78]

Henry Kautz , [17] Francesca Rossi , [79] y Bart Selman [80] también han abogado por una síntesis. Sus argumentos se basan en la necesidad de abordar los dos tipos de pensamiento discutidos en el libro de Daniel Kahneman , Thinking, Fast and Slow . Kahneman describe el pensamiento humano como si tuviera dos componentes, el Sistema 1 y el Sistema 2 . El Sistema 1 es rápido, automático, intuitivo e inconsciente. El sistema 2 es más lento, paso a paso y explícito. El Sistema 1 es el que se utiliza para el reconocimiento de patrones, mientras que el Sistema 2 es mucho más adecuado para la planificación, la deducción y el pensamiento deliberativo. Desde este punto de vista, el aprendizaje profundo modela mejor el primer tipo de pensamiento, mientras que el razonamiento simbólico modela mejor el segundo tipo y ambos son necesarios.

Garcez y Lamb describen que la investigación en esta área ha estado en curso durante al menos los últimos veinte años, [81] y data de su libro de 2002 sobre sistemas de aprendizaje neurosimbólico. [82] Cada año desde 2005 se lleva a cabo una serie de talleres sobre razonamiento neurosimbólico; consulte http://www.neural-symbolic.org/ para obtener más detalles.

En su artículo de 2015, Aprendizaje y razonamiento neuronal-simbólico: contribuciones y desafíos, Garcez et al. argumenta eso:

La integración de los paradigmas simbólico y conexionista de la IA ha sido perseguida por una comunidad de investigación relativamente pequeña durante las últimas dos décadas y ha arrojado varios resultados significativos. Durante la última década, los sistemas simbólicos neuronales se han mostrado capaces de superar la llamada fijación proposicional de las redes neuronales, como lo expresó McCarthy (1988) en respuesta a Smolensky (1988); ver también (Hinton, 1990). Las redes neuronales se mostraron capaces de representar lógicas modales y temporales (d'Avila Garcez y Lamb, 2006) y fragmentos de lógica de primer orden (Bader, Hitzler, Hölldobler, 2008; d'Avila Garcez, Lamb, Gabbay, 2009). Además, los sistemas neuronales-simbólicos se han aplicado a una serie de problemas en las áreas de bioinformática, ingeniería de control, verificación y adaptación de software, inteligencia visual, aprendizaje de ontologías y juegos de computadora. [76]

Los enfoques para la integración son variados. A continuación se presenta la taxonomía de arquitecturas neurosimbólicas de Henry Kautz , junto con algunos ejemplos:

Quedan muchas preguntas clave de investigación, como por ejemplo:

Técnicas y aportes

Esta sección proporciona una descripción general de las técnicas y contribuciones en un contexto general que conduce a muchos otros artículos más detallados en Wikipedia. Las secciones sobre aprendizaje automático y razonamiento incierto se tratan anteriormente en la sección de historia.

Lenguajes de programación de IA

El lenguaje de programación de IA clave en los EE. UU. durante el último período de auge simbólico de la IA fue LISP . LISP es el segundo lenguaje de programación más antiguo después de FORTRAN y fue creado en 1958 por John McCarthy . LISP proporcionó el primer bucle de lectura, evaluación e impresión para respaldar el rápido desarrollo del programa. Las funciones compiladas se pueden mezclar libremente con funciones interpretadas. También se proporcionaron seguimiento de programas, pasos y puntos de interrupción, junto con la capacidad de cambiar valores o funciones y continuar desde puntos de interrupción o errores. Tenía el primer compilador autohospedado , lo que significa que el compilador en sí se escribió originalmente en LISP y luego se ejecutó interpretativamente para compilar el código del compilador.

Otras innovaciones clave iniciadas por LISP que se han extendido a otros lenguajes de programación incluyen:

Los programas eran en sí mismos estructuras de datos sobre las que otros programas podían operar, lo que permitía la fácil definición de lenguajes de nivel superior.

A diferencia de Estados Unidos, en Europa el lenguaje de programación de IA clave durante el mismo período fue Prolog . Prolog proporcionaba un almacén integrado de hechos y cláusulas que podían consultarse mediante un bucle de lectura-evaluación-impresión . El almacén podría actuar como una base de conocimientos y las cláusulas podrían actuar como reglas o una forma restringida de lógica. Como subconjunto de la lógica de primer orden, Prolog se basó en cláusulas de Horn con una suposición de mundo cerrado (cualquier hecho no conocido se consideraba falso) y una suposición de nombre único para los términos primitivos (por ejemplo, se consideraba que el identificador barack_obama se refería exactamente a uno). objeto. El retroceso y la unificación están integrados en Prolog.

A Alain Colmerauer y Philippe Roussel se les atribuye el mérito de ser los inventores de Prolog. Prolog es una forma de programación lógica inventada por Robert Kowalski . Su historia también estuvo influenciada por PLANNER de Carl Hewitt , una base de datos afirmativa con invocación de métodos dirigida por patrones. Para más detalles consulte la sección sobre los orígenes de Prolog en el artículo de PLANNER .

Prolog también es un tipo de programación declarativa . Las cláusulas lógicas que describen programas se interpretan directamente para ejecutar los programas especificados. No se requiere una serie explícita de acciones, como es el caso de los lenguajes de programación imperativos .

Japón defendió Prolog para su Proyecto de Quinta Generación , con la intención de construir hardware especial para un alto rendimiento. De manera similar, las máquinas LISP se construyeron para ejecutar LISP, pero cuando el segundo auge de la IA terminó en quiebra, estas empresas no pudieron competir con las nuevas estaciones de trabajo que ahora podían ejecutar LISP o Prolog de forma nativa a velocidades comparables. Consulte la sección de historia para obtener más detalles.

Smalltalk fue otro lenguaje de programación de IA influyente. Por ejemplo, introdujo metaclases y, junto con Flavours y CommonLoops , influyó en el Common Lisp Object System , o ( CLOS ), que ahora forma parte de Common Lisp , el dialecto estándar actual de Lisp. CLOS es un sistema orientado a objetos basado en Lisp que permite herencia múltiple , además de extensiones incrementales tanto de clases como de metaclases, proporcionando así un protocolo de metaobjetos en tiempo de ejecución . [86]

Para otros lenguajes de programación de IA, consulte esta lista de lenguajes de programación para inteligencia artificial . Actualmente, Python , un lenguaje de programación multiparadigma , es el lenguaje de programación más popular, en parte debido a su extensa biblioteca de paquetes que admite ciencia de datos , procesamiento de lenguaje natural y aprendizaje profundo. Python incluye un bucle de lectura, evaluación e impresión, elementos funcionales como funciones de orden superior y programación orientada a objetos que incluye metaclases.

Buscar

La búsqueda surge en muchos tipos de resolución de problemas, incluida la planificación , la satisfacción de restricciones y los juegos como damas , ajedrez y go . Los algoritmos de búsqueda de árbol de búsqueda de IA más conocidos son la búsqueda en amplitud , la búsqueda en profundidad , A* y la búsqueda de Monte Carlo . Los algoritmos de búsqueda clave para la satisfacibilidad booleana son WalkSAT , aprendizaje de cláusulas basado en conflictos y el algoritmo DPLL . Para la búsqueda adversaria al jugar, la poda alfa-beta , la rama y el límite y el minimax fueron las primeras contribuciones.

Representación del conocimiento y razonamiento.

Se han investigado múltiples enfoques diferentes para representar el conocimiento y luego razonar con esas representaciones. A continuación se muestra una descripción general rápida de los enfoques para la representación del conocimiento y el razonamiento automatizado.

Representación del conocimiento

Las redes semánticas , los gráficos conceptuales , los marcos y la lógica son enfoques para modelar conocimientos como el conocimiento de dominio, el conocimiento de resolución de problemas y el significado semántico del lenguaje. Las ontologías modelan conceptos clave y sus relaciones en un dominio. Ontologías de ejemplo son YAGO , WordNet y DOLCE . DOLCE es un ejemplo de ontología superior que puede usarse para cualquier dominio, mientras que WordNet es un recurso léxico que también puede verse como una ontología . YAGO incorpora WordNet como parte de su ontología, para alinear hechos extraídos de Wikipedia con sintetizadores de WordNet . La Ontología de la Enfermedad es un ejemplo de una ontología médica que se utiliza actualmente.

La lógica de descripción es una lógica para la clasificación automatizada de ontologías y para detectar datos de clasificación inconsistentes. OWL es un lenguaje utilizado para representar ontologías con lógica de descripción . Protégé es un editor de ontologías que puede leer ontologías OWL y luego verificar la coherencia con clasificadores deductivos como HermiT. [87]

La lógica de primer orden es más general que la lógica de descripción. Los demostradores de teoremas automatizados que se analizan a continuación pueden demostrar teoremas en lógica de primer orden. La lógica de la cláusula Horn es más restringida que la lógica de primer orden y se utiliza en lenguajes de programación lógica como Prolog. Las extensiones de la lógica de primer orden incluyen la lógica temporal , para manejar el tiempo; lógica epistémica , para razonar sobre el conocimiento del agente; lógica modal , para manejar la posibilidad y la necesidad; y lógicas probabilísticas para manejar la lógica y la probabilidad juntas.

Demostración automática de teoremas

Ejemplos de demostradores automatizados de teoremas para lógica de primer orden son:

Prover9 se puede utilizar junto con el verificador de modelos Mace4 . ACL2 es un demostrador de teoremas que puede manejar demostraciones por inducción y es descendiente del demostrador de teoremas de Boyer-Moore, también conocido como Nqthm .

Razonamiento en sistemas basados ​​en el conocimiento

Los sistemas basados ​​en conocimiento tienen una base de conocimiento explícita , típicamente de reglas, para mejorar la reutilización entre dominios al separar el código de procedimiento y el conocimiento del dominio. Un motor de inferencia independiente procesa reglas y agrega, elimina o modifica un almacén de conocimientos.

Los motores de inferencia de encadenamiento directo son los más comunes y se ven en CLIPS y OPS5 . El encadenamiento hacia atrás ocurre en Prolog, donde se usa una representación lógica más limitada, Horn Clauses . La coincidencia de patrones, específicamente la unificación , se utiliza en Prolog.

Un tipo más flexible de resolución de problemas ocurre cuando se razona sobre qué hacer a continuación, en lugar de simplemente elegir una de las acciones disponibles. Este tipo de razonamiento de metanivel se utiliza en Soar y en la arquitectura de pizarra BB1.

Las arquitecturas cognitivas como ACT-R pueden tener capacidades adicionales, como la capacidad de compilar conocimientos de uso frecuente en fragmentos de nivel superior .

Razonamiento de sentido común

Marvin Minsky propuso por primera vez encuadres como una forma de interpretar situaciones visuales comunes, como una oficina, y Roger Schank extendió esta idea a guiones para rutinas comunes, como salir a cenar. Cyc ha intentado capturar conocimientos útiles de sentido común y tiene "microteorías" para manejar tipos particulares de razonamiento de dominio específico.

La simulación cualitativa, como el QSIM de Benjamin Kuipers , [88] se aproxima al razonamiento humano sobre la física ingenua, como lo que sucede cuando calentamos un líquido en una olla en la estufa. Esperamos que se caliente y posiblemente se desborde, aunque no conozcamos su temperatura, su punto de ebullición u otros detalles, como la presión atmosférica.

De manera similar, el álgebra de intervalo temporal de Allen es una simplificación del razonamiento sobre el tiempo y el cálculo de conexión de regiones es una simplificación del razonamiento sobre las relaciones espaciales. Ambos pueden resolverse con solucionadores de restricciones .

Restricciones y razonamiento basado en restricciones.

Los solucionadores de restricciones realizan un tipo de inferencia más limitado que la lógica de primer orden. Pueden simplificar conjuntos de restricciones espaciotemporales, como las de RCC o Álgebra temporal , además de resolver otros tipos de problemas de rompecabezas, como Wordle , Sudoku , problemas criptoaritméticos , etc. La programación lógica de restricciones se puede utilizar para resolver problemas de programación, por ejemplo con reglas de manejo de restricciones (CHR).

Planificación automatizada

El General Problem Solver (GPS) planteó la planificación como solución de problemas y utilizó el análisis de medios y fines para crear planes. STRIPS adoptó un enfoque diferente y consideró la planificación como una demostración de teoremas. Graphplan adopta un enfoque de planificación de mínimo compromiso, en lugar de elegir secuencialmente acciones desde un estado inicial, trabajando hacia adelante, o un estado objetivo si se trabaja hacia atrás. Satplan es un enfoque de planificación en el que un problema de planificación se reduce a un problema de satisfacibilidad booleano .

Procesamiento natural del lenguaje

El procesamiento del lenguaje natural se centra en tratar el lenguaje como datos para realizar tareas como identificar temas sin comprender necesariamente el significado deseado. La comprensión del lenguaje natural, por el contrario, construye una representación de significado y la utiliza para un procesamiento posterior, como responder preguntas.

El análisis , la tokenización , la corrección ortográfica , el etiquetado de partes del discurso , la fragmentación de frases nominales y verbales son aspectos del procesamiento del lenguaje natural manejados durante mucho tiempo por la IA simbólica, pero que desde entonces han sido mejorados por enfoques de aprendizaje profundo. En la IA simbólica, se han utilizado la teoría de la representación del discurso y la lógica de primer orden para representar los significados de las oraciones. El análisis semántico latente (LSA) y el análisis semántico explícito también proporcionaron representaciones vectoriales de documentos. En el último caso, los componentes vectoriales se pueden interpretar como conceptos nombrados en artículos de Wikipedia.

Los nuevos enfoques de aprendizaje profundo basados ​​en modelos Transformer ahora han eclipsado estos enfoques anteriores de IA simbólica y han alcanzado un rendimiento de vanguardia en el procesamiento del lenguaje natural . Sin embargo, los modelos Transformer son opacos y aún no producen representaciones semánticas interpretables por humanos para oraciones y documentos. En cambio, producen vectores de tareas específicas donde el significado de los componentes del vector es opaco.

Agentes y sistemas multiagente

Los agentes son sistemas autónomos integrados en un entorno que perciben y sobre el que actúan en algún sentido. El libro de texto estándar de Russell y Norvig sobre inteligencia artificial está organizado para reflejar arquitecturas de agentes cada vez más sofisticadas. [89] La sofisticación de los agentes varía desde simples agentes reactivos hasta aquellos con un modelo del mundo y capacidades de planificación automatizadas , posiblemente un agente BDI , es decir, uno con creencias, deseos e intenciones, o alternativamente un modelo de aprendizaje por refuerzo aprendido sobre tiempo para elegir acciones, hasta una combinación de arquitecturas alternativas, como una arquitectura neurosimbólica [85] que incluye aprendizaje profundo para la percepción. [90]

Por el contrario, un sistema multiagente consta de múltiples agentes que se comunican entre sí con algún lenguaje de comunicación entre agentes, como el lenguaje de manipulación y consulta de conocimiento (KQML). No es necesario que todos los agentes tengan la misma arquitectura interna. Las ventajas de los sistemas multiagente incluyen la capacidad de dividir el trabajo entre los agentes y aumentar la tolerancia a fallas cuando los agentes se pierden. Los problemas de investigación incluyen cómo los agentes llegan a un consenso , resolución distribuida de problemas , aprendizaje multiagente , planificación multiagente y optimización de restricciones distribuidas .

Controversias

Desde el principio surgieron controversias en la IA simbólica, tanto dentro del campo (por ejemplo, entre los logicistas (los "limpios" prológicos ) y los no logicistas (los "desaliñados" antilógicos ) como entre aquellos que abrazaron la IA pero rechazaron la IA simbólica. enfoques (principalmente conexionistas ) y aquellos fuera del campo. Las críticas desde fuera del campo provinieron principalmente de filósofos, por motivos intelectuales, pero también de agencias de financiación, especialmente durante los dos inviernos de la IA.

El problema del marco: desafíos de representación del conocimiento para la lógica de primer orden

Se descubrieron limitaciones en el uso de lógica simple de primer orden para razonar sobre dominios dinámicos. Se descubrieron problemas tanto con respecto a enumerar las condiciones previas para que una acción tenga éxito como a la hora de proporcionar axiomas sobre lo que no cambia después de que se realizó una acción.

McCarthy y Hayes introdujeron el problema del marco en 1969 en el artículo "Algunos problemas filosóficos desde el punto de vista de la inteligencia artificial". [91] Un ejemplo simple ocurre al "demostrar que una persona podría entablar una conversación con otra", ya que se requeriría un axioma que afirmara "si una persona tiene un teléfono, todavía lo tiene después de buscar un número en la guía telefónica" para la deducción para tener éxito. Se necesitarían axiomas similares para otras acciones de dominio para especificar qué no cambió.

Un problema similar, llamado problema de calificación , ocurre al intentar enumerar las condiciones previas para que una acción tenga éxito. Se pueden imaginar infinitas condiciones patológicas; por ejemplo, un plátano en el tubo de escape podría impedir que un coche funcione correctamente.

El enfoque de McCarthy para solucionar el problema del marco fue la circunscripción , una especie de lógica no monótona en la que se podían hacer deducciones a partir de acciones que sólo necesitaban especificar lo que cambiaría sin tener que especificar explícitamente todo lo que no cambiaría. Otras lógicas no monótonas proporcionaron sistemas de mantenimiento de la verdad que revisaron las creencias y llevaron a contradicciones.

Otras formas de manejar dominios más abiertos incluyeron sistemas de razonamiento probabilístico y aprendizaje automático para aprender nuevos conceptos y reglas. El Advice Taker de McCarthy puede verse aquí como una inspiración, ya que podría incorporar nuevos conocimientos proporcionados por un ser humano en forma de afirmaciones o reglas. Por ejemplo, los sistemas experimentales de aprendizaje automático simbólico exploraron la capacidad de recibir consejos de lenguaje natural de alto nivel e interpretarlos en reglas procesables específicas de un dominio.

De manera similar a los problemas en el manejo de dominios dinámicos, el razonamiento de sentido común también es difícil de captar en el razonamiento formal. Ejemplos de razonamiento de sentido común incluyen el razonamiento implícito sobre cómo piensa la gente o el conocimiento general de los acontecimientos, objetos y seres vivos del día a día. Este tipo de conocimiento se da por sentado y no se considera digno de mención. El razonamiento de sentido común es un área abierta de investigación y desafiante tanto para los sistemas simbólicos (por ejemplo, Cyc ha intentado capturar partes clave de este conocimiento durante más de una década) como para los sistemas neuronales (por ejemplo, los automóviles autónomos que no saben chocar contra los conos o no atropellar a los peatones que van en bicicleta).

McCarthy consideraba que su asesor tenía sentido común, pero su definición de sentido común era diferente a la anterior. [92] Definió que un programa tiene sentido común " si automáticamente deduce por sí mismo una clase suficientemente amplia de consecuencias inmediatas de cualquier cosa que se le diga y de lo que ya sabe ".

IA conexionista: desafíos filosóficos y conflictos sociológicos

Los enfoques conexionistas incluyen trabajos anteriores sobre redes neuronales , [93] como los perceptrones ; trabajos de mediados y finales de los 80, como Connection Machine de Danny Hillis y los avances de Yann LeCun en redes neuronales convolucionales ; hasta los enfoques más avanzados de hoy en día, como Transformers , GAN y otros trabajos en aprendizaje profundo.

Se han esbozado tres posiciones filosóficas [94] entre los conexionistas:

  1. Implementacionismo: donde las arquitecturas conexionistas implementan las capacidades para el procesamiento simbólico,
  2. Conexionismo radical, donde el procesamiento simbólico se rechaza totalmente y las arquitecturas conexionistas subyacen a la inteligencia y son plenamente suficientes para explicarla.
  3. Conexionismo moderado: donde el procesamiento simbólico y las arquitecturas conexionistas se consideran complementarios y ambos son necesarios para la inteligencia.

Olazaran, en su historia sociológica de las controversias dentro de la comunidad de redes neuronales, describió la visión del conexionismo moderado como esencialmente compatible con la investigación actual sobre híbridos neurosimbólicos:

La tercera y última posición que me gustaría examinar aquí es lo que llamo la visión conexionista moderada, una visión más ecléctica del debate actual entre conexionismo e IA simbólica. Uno de los investigadores que más explícitamente ha elaborado esta postura es Andy Clark , filósofo de la Escuela de Ciencias Cognitivas y de Computación de la Universidad de Sussex (Brighton, Inglaterra). Clark defendió los sistemas híbridos (en parte simbólicos, en parte conexionistas). Afirmó que se necesitan (al menos) dos tipos de teorías para estudiar y modelar la cognición. Por un lado, para algunas tareas de procesamiento de información (como el reconocimiento de patrones), el conexionismo tiene ventajas sobre los modelos simbólicos. Pero, por otro lado, para otros procesos cognitivos (como el razonamiento serial, deductivo y los procesos generativos de manipulación de símbolos) el paradigma simbólico ofrece modelos adecuados, y no sólo "aproximaciones" (contrariamente a lo que afirmarían los conexionistas radicales). [95]

Gary Marcus ha afirmado que la animadversión de la comunidad de aprendizaje profundo contra los enfoques simbólicos ahora puede ser más sociológica que filosófica:

Pensar que podemos simplemente abandonar la manipulación de símbolos es suspender la incredulidad.

Y, sin embargo, en su mayor parte, así es como procede la mayor parte de la IA actual. Hinton y muchos otros se han esforzado por desterrar por completo los símbolos. La esperanza del aprendizaje profundo, aparentemente basada no tanto en la ciencia sino en una especie de rencor histórico, es que el comportamiento inteligente surgirá puramente de la confluencia de datos masivos y aprendizaje profundo. Mientras que las computadoras y el software clásicos resuelven tareas definiendo conjuntos de reglas de manipulación de símbolos dedicadas a trabajos particulares, como editar una línea en un procesador de textos o realizar un cálculo en una hoja de cálculo, las redes neuronales generalmente intentan resolver tareas mediante aproximación estadística y aprendiendo de ejemplos.

Según Marcus, Geoffrey Hinton y sus colegas han sido vehementemente "antisimbólicos":

Cuando el aprendizaje profundo resurgió en 2012, fue con una especie de actitud intransigente que ha caracterizado a la mayor parte de la última década. En 2015, su hostilidad hacia todo lo relacionado con los símbolos había cristalizado por completo. Dio una charla en un taller de IA en Stanford comparando símbolos con éter , uno de los mayores errores de la ciencia.

...

Desde entonces, su campaña antisimbólica no ha hecho más que aumentar en intensidad. En 2016, Yann LeCun , Bengio y Hinton escribieron un manifiesto a favor del aprendizaje profundo en una de las revistas científicas más importantes, Nature. Cerró con un ataque directo a la manipulación de símbolos, pidiendo no una reconciliación sino un reemplazo total. Más tarde, Hinton dijo en una reunión de líderes de la Unión Europea que invertir más dinero en métodos de manipulación de símbolos era "un gran error", comparándolo con invertir en motores de combustión interna en la era de los coches eléctricos. [96]

Parte de estas disputas pueden deberse a una terminología poco clara:

Judea Pearl , ganadora del premio Turing, ofrece una crítica del aprendizaje automático que, desafortunadamente, combina los términos aprendizaje automático y aprendizaje profundo. De manera similar, cuando Geoffrey Hinton se refiere a la IA simbólica, la connotación del término tiende a ser la de sistemas expertos desposeídos de cualquier capacidad de aprender. Es necesario aclarar el uso de la terminología. El aprendizaje automático no se limita a la minería de reglas de asociación , véase el conjunto de trabajos sobre aprendizaje automático simbólico y aprendizaje relacional (las diferencias con el aprendizaje profundo son la elección de la representación, la lógica localista en lugar de la distribuida, y la no utilización de algoritmos de aprendizaje basados ​​en gradientes). ). Del mismo modo, la IA simbólica no se trata sólo de reglas de producción escritas a mano. Una definición adecuada de IA se refiere a la representación y el razonamiento del conocimiento , los sistemas autónomos de múltiples agentes , la planificación y la argumentación , así como el aprendizaje. [97]

Robótica situada: el mundo como modelo

Otra crítica a la IA simbólica es el enfoque de la cognición incorporada :

El enfoque de la cognición incorporada afirma que no tiene sentido considerar el cerebro por separado: la cognición tiene lugar dentro de un cuerpo, que está incrustado en un entorno. Necesitamos estudiar el sistema en su conjunto; El funcionamiento del cerebro explota las regularidades de su entorno, incluido el resto de su cuerpo. Bajo el enfoque de la cognición incorporada, la robótica, la visión y otros sensores se vuelven centrales, no periféricos. [98]

Rodney Brooks inventó la robótica basada en el comportamiento , un enfoque de la cognición incorporada. Nouvelle AI , otro nombre para este enfoque, se considera una alternativa tanto a la IA simbólica como a la IA conexionista. Su enfoque rechazaba las representaciones, ya fueran simbólicas o distribuidas, no sólo por considerarlas innecesarias sino también perjudiciales. En cambio, creó la arquitectura de subsunción , una arquitectura en capas para agentes encarnados. Cada capa logra un propósito diferente y debe funcionar en el mundo real. Por ejemplo, el primer robot que describe en Inteligencia sin representación , tiene tres capas. La capa inferior interpreta los sensores de sonar para evitar objetos. La capa intermedia hace que el robot deambule cuando no hay obstáculos. La capa superior hace que el robot vaya a lugares más distantes para una mayor exploración. Cada capa puede inhibir o suprimir temporalmente una capa de nivel inferior. Criticó a los investigadores de IA por definir los problemas de IA para sus sistemas, cuando: "No existe una división clara entre percepción (abstracción) y razonamiento en el mundo real". [99] Llamó a sus robots "Criaturas" y cada capa estaba "compuesta por una red de topología fija de máquinas de estados finitos simples". [100] En el enfoque de Nouvelle AI, "Primero, es de vital importancia probar las criaturas que construimos en el mundo real; es decir, en el mismo mundo que habitamos los humanos. Es desastroso caer en la tentación de probarlas en un mundo simplificado primero, incluso con las mejores intenciones de transferir luego la actividad a un mundo no simplificado." [101] Su énfasis en las pruebas del mundo real contrastaba con "los primeros trabajos en IA se concentraban en juegos, problemas geométricos, álgebra simbólica, demostración de teoremas y otros sistemas formales" [102] y el uso del mundo de bloques en la IA simbólica. sistemas como SHRDLU .

Vistas actuales

Cada enfoque (simbólico, conexionista y basado en el comportamiento) tiene ventajas, pero ha sido criticado por los demás enfoques. La IA simbólica ha sido criticada por ser incorpórea, propensa al problema de calificación y deficiente en el manejo de los problemas de percepción donde sobresale el aprendizaje profundo. A su vez, la IA conexionista ha sido criticada por no ser adecuada para la resolución deliberativa de problemas paso a paso, la incorporación de conocimientos y la planificación del manejo. Finalmente, Nouvelle AI sobresale en los dominios de robótica reactiva y del mundo real, pero ha sido criticada por sus dificultades para incorporar el aprendizaje y el conocimiento.

Actualmente, las IA híbridas que incorporan uno o más de estos enfoques se consideran el camino a seguir. [17] [79] [80] Russell y Norvig concluyen que:

En general, Dreyfus vio áreas donde la IA no tenía respuestas completas y dijo que, por lo tanto, la IA es imposible; Ahora vemos que muchas de estas mismas áreas están sometidas a investigación y desarrollo continuos que conducen a una mayor capacidad, no a una imposibilidad. [98]

Ver también

Notas

  1. ^ McCarthy dijo una vez: "Esto es IA, así que no nos importa si es psicológicamente real". [2] McCarthy reiteró su posición en 2006 en la conferencia AI@50 donde dijo: "La inteligencia artificial no es, por definición, una simulación de la inteligencia humana". [26] Pamela McCorduck escribe que hay "dos ramas principales de la inteligencia artificial: una destinada a producir un comportamiento inteligente independientemente de cómo se logró, y la otra destinada a modelar procesos inteligentes que se encuentran en la naturaleza, particularmente los humanos"., [27 ] Stuart Russell y Peter Norvig escribieron : "Los textos de ingeniería aeronáutica no definen el objetivo de su campo como fabricar 'máquinas que vuelen tan exactamente como las palomas que puedan engañar incluso a otras palomas'".

Citas

  1. ^ Garnelo, Marta; Shanahan, Murray (1 de octubre de 2019). "Conciliar el aprendizaje profundo con la inteligencia artificial simbólica: representar objetos y relaciones". Opinión actual en ciencias del comportamiento . 29 : 17-23. doi : 10.1016/j.cobeha.2018.12.010 . hdl : 10044/1/67796 . S2CID  72336067.
  2. ^ ab Kolata 1982.
  3. ^ Kautz 2022, págs. 107-109.
  4. ^ ab Russell y Norvig 2021, pág. 19.
  5. ^ ab Russell y Norvig 2021, págs.
  6. ^ ab Kautz 2022, págs. 109-110.
  7. ^ abc Kautz 2022, pag. 110.
  8. ^ Kautz 2022, págs. 110-111.
  9. ^ ab Russell y Norvig 2021, pág. 25.
  10. ^ Kautz 2022, pag. 111.
  11. ^ Kautz 2020, págs. 110-111.
  12. ^ Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986). "Aprendizaje de representaciones mediante errores de retropropagación". Naturaleza . 323 (6088): 533–536. Código Bib :1986Natur.323..533R. doi :10.1038/323533a0. ISSN  1476-4687. S2CID  205001834.
  13. ^ LeCun, Y.; Bóser, B.; Denker, I.; Henderson, D.; Howard, R.; Hubbard, W.; Tackle, L. (1989). "Retropropagación aplicada al reconocimiento de códigos postales escritos a mano". Computación neuronal . 1 (4): 541–551. doi :10.1162/neco.1989.1.4.541. S2CID  41312633.
  14. ^ ab Marcus y Davis 2019.
  15. ^ ab Rossi, Francesca. "Pensar rápido y lento en IA". AAAI . Consultado el 5 de julio de 2022 .
  16. ^ ab Selman, Bart. "Discurso presidencial de la AAAI: el estado de la IA". AAAI . Consultado el 5 de julio de 2022 .
  17. ^ abc Kautz 2020.
  18. ^ Kautz 2022, pag. 106.
  19. ^ Newell y Simon 1972.
  20. ^ y McCorduck 2004, págs. 139–179, 245–250, 322–323 (EPAM).
  21. ^ Crevier 1993, págs. 145-149.
  22. ^ McCorduck 2004, págs. 450–451.
  23. ^ Crevier 1993, págs. 258-263.
  24. ^ ab Kautz 2022, pag. 108.
  25. ^ Russell y Norvig 2021, pag. 9 (AI logicista), pág. 19 (trabajo de McCarthy).
  26. ^ Fabricante 2006.
  27. ^ McCorduck 2004, págs. 100-101.
  28. ^ Russell y Norvig 2021, pag. 2.
  29. ^ McCorduck 2004, págs. 251-259.
  30. ^ Crevier 1993, págs. 193-196.
  31. ^ Howe 1994.
  32. ^ McCorduck 2004, págs. 259–305.
  33. ^ Crevier 1993, págs. 83–102, 163–176.
  34. ^ McCorduck 2004, págs. 421–424, 486–489.
  35. ^ Crevier 1993, pag. 168.
  36. ^ McCorduck 2004, pag. 489.
  37. ^ Crevier 1993, págs. 239-243.
  38. ^ Russell y Norvig 2021, pag. 316, 340.
  39. ^ Kautz 2022, pag. 109.
  40. ^ Russell y Norvig 2021, pag. 22.
  41. ^ McCorduck 2004, págs. 266–276, 298–300, 314, 421.
  42. ^ Shustek, Len (junio de 2010). "Una entrevista con Ed Feigenbaum". Comunicaciones de la ACM . 53 (6): 41–45. doi :10.1145/1743546.1743564. ISSN  0001-0782. S2CID  10239007 . Consultado el 14 de julio de 2022 .
  43. ^ Lenat, Douglas B; Feigenbaum, Edward A (1988). "En los umbrales del conocimiento". Actas del Taller internacional sobre inteligencia artificial para aplicaciones industriales : 291–300. doi :10.1109/AIIA.1988.13308. S2CID  11778085.
  44. ^ Russell y Norvig 2021, págs. 22-24.
  45. ^ McCorduck 2004, págs. 327–335, 434–435.
  46. ^ Crevier 1993, págs. 145–62, 197–203.
  47. ^ ab Russell y Norvig 2021, pág. 23.
  48. ^ ab Clancey 1987.
  49. ^ ab Shustek, Len (2010). "Una entrevista con Ed Feigenbaum". Comunicaciones de la ACM . 53 (6): 41–45. doi :10.1145/1743546.1743564. ISSN  0001-0782. S2CID  10239007 . Consultado el 5 de agosto de 2022 .
  50. ^ "La fascinación por la IA: ¿qué es la inteligencia artificial?". Guía digital de IONOS . Consultado el 2 de diciembre de 2021 .
  51. ^ Hayes-Roth, Murray y Adelman 2015.
  52. ^ Hayes-Roth, Barbara (1985). "Una arquitectura de pizarra para el control". Inteligencia artificial . 26 (3): 251–321. doi :10.1016/0004-3702(85)90063-3.
  53. ^ Hayes-Roth, Barbara (1980). Procesos de Planificación Humana . RAND.
  54. ^ Perla 1988.
  55. ^ Spiegelhalter y col. 1993.
  56. ^ Russell y Norvig 2021, págs. 335–337.
  57. ^ Russell y Norvig 2021, pag. 459.
  58. ^ Quinlan, J. Ross. "Capítulo 15: Aprendizaje de procedimientos de clasificación eficientes y su aplicación a las finales de ajedrez". En Michalski, Carbonell y Mitchell (1983).
  59. ^ Quinlan, J. Ross (15 de octubre de 1992). C4.5: Programas de aprendizaje automático (1ª ed.). San Mateo, California: Morgan Kaufmann. ISBN 978-1-55860-238-0.
  60. ^ Mitchell, Tom M.; Utgoff, Paul E.; Banerji, Ranan. "Capítulo 6: Aprendizaje mediante experimentación: adquisición y perfeccionamiento de heurísticas de resolución de problemas". En Michalski, Carbonell y Mitchell (1983).
  61. ^ Valiente, LG (5 de noviembre de 1984). "Una teoria de lo aprendible". Comunicaciones de la ACM . 27 (11): 1134-1142. doi : 10.1145/1968.1972 . ISSN  0001-0782. S2CID  12837541.
  62. ^ Koedinger, KR; Anderson, JR; Hadley, WH; Marcos, MA; otros (1997). "La tutoría inteligente llega a la escuela de la gran ciudad". Revista Internacional de Inteligencia Artificial en Educación (IJAIED) . 8 : 30–43 . Consultado el 18 de agosto de 2012 .
  63. ^ Shapiro, Ehud Y (1981). "El sistema de inferencia modelo". Actas de la séptima conferencia internacional conjunta sobre inteligencia artificial . IJCAI. vol. 2. pág. 1064.
  64. ^ Maná, Zóhar; Waldinger, Richard (1 de enero de 1980). "Un enfoque deductivo de la síntesis de programas". Transmisión ACM. Programa. Lang. Sistema . 2 (1): 90-121. doi :10.1145/357084.357090. S2CID  14770735.
  65. ^ Schank, Roger C. (28 de enero de 1983). Memoria dinámica: una teoría del recuerdo y el aprendizaje en computadoras y personas . Cambridge Cambridgeshire: Nueva York: Cambridge University Press. ISBN 978-0-521-27029-8.
  66. ^ Hammond, Kristian J. (11 de abril de 1989). Planificación basada en casos: ver la planificación como una tarea de memoria . Boston: Prensa académica. ISBN 978-0-12-322060-8.
  67. ^ Koza, John R. (11 de diciembre de 1992). Programación genética: sobre la programación de computadoras mediante selección natural (1ª ed.). Cambridge, Mass: un libro de Bradford. ISBN 978-0-262-11170-6.
  68. ^ Mostow, David Jack. "Capítulo 12: Transformación automática del asesoramiento en un procedimiento de búsqueda heurística". En Michalski, Carbonell y Mitchell (1983).
  69. ^ Bareiss, Ray; Portero, Bruce; Wier, Craig. "Capítulo 4: Protos: un aprendiz de aprendizaje basado en ejemplos". En Michalski, Carbonell y Mitchell (1986), págs. 112-139.
  70. ^ Carbonell, Jaime. "Capítulo 5: Aprendizaje por analogía: formulación y generalización de planes a partir de experiencias pasadas". En Michalski, Carbonell y Mitchell (1983), págs. 137-162.
  71. ^ Carbonell, Jaime. "Capítulo 14: Analogía derivacional: una teoría de la resolución reconstructiva de problemas y la adquisición de experiencia". En Michalski, Carbonell y Mitchell (1986), págs. 371-392.
  72. ^ Mitchell, Tom; Mabadevan, Sridbar; Steinberg, Luis. "Capítulo 10: LEAP: un aprendiz de aprendizaje para el diseño VLSI". En Kodratoff y Michalski (1990), págs. 271-289.
  73. ^ Lenat, Douglas. "Capítulo 9: El papel de la heurística en el aprendizaje por descubrimiento: tres estudios de caso". En Michalski, Carbonell y Mitchell (1983), págs. 243-306.
  74. ^ Korf, Richard E. (1985). Aprender a resolver problemas buscando macrooperadores . Apuntes de Investigación en Inteligencia Artificial. Publicación Pitman. ISBN 0-273-08690-1.
  75. ^ Valiente 2008.
  76. ^ ab Garcez et al. 2015.
  77. ^ Marco 2020, pag. 44.
  78. ^ Marco 2020, pag. 17.
  79. ^ ab Rossi 2022.
  80. ^ ab Selman 2022.
  81. ^ Garcez y Cordero 2020, pag. 2.
  82. ^ Garcez y col. 2002.
  83. ^ Rocktäschel, Tim; Riedel, Sebastián (2016). "Aprendizaje de la inferencia de la base de conocimientos con demostradores de teoremas neuronales". Actas del quinto taller sobre construcción automatizada de bases de conocimientos . San Diego, CA: Asociación de Lingüística Computacional. págs. 45–50. doi : 10.18653/v1/W16-1309 . Consultado el 6 de agosto de 2022 .
  84. ^ Serafini, Luciano; Garcez, Artur d'Avila (2016), Redes tensoriales lógicas: aprendizaje profundo y razonamiento lógico a partir de datos y conocimiento , arXiv : 1606.04422
  85. ^ ab Garcez, Artur d'Ávila; Cordero, Luis C.; Gabbay, Dov M. (2009). Razonamiento cognitivo neuronal-simbólico (1ª ed.). Berlín-Heidelberg: Springer. Código Bib : 2009nscr.book.....D. doi :10.1007/978-3-540-73246-4. ISBN 978-3-540-73245-7. S2CID  14002173.
  86. ^ Kiczales, Gregor; Rivieres, Jim des; Bobrow, Daniel G. (30 de julio de 1991). El arte del protocolo de metaobjetos (1ª ed.). Cambridge, Mass: The MIT Press. ISBN 978-0-262-61074-2.
  87. ^ Motik, Boris; Esquilador, Rob; Horrocks, Ian (28 de octubre de 2009). "Razonamiento de Hypertableau para lógicas de descripción". Revista de investigación en inteligencia artificial . 36 : 165–228. arXiv : 1401.3485 . doi :10.1613/jair.2811. ISSN  1076-9757. S2CID  190609.
  88. ^ Kuipers, Benjamín (1994). Razonamiento cualitativo: modelado y simulación con conocimientos incompletos . Prensa del MIT. ISBN 978-0-262-51540-5.
  89. ^ Russell y Norvig 2021.
  90. ^ Leo de Penning, Artur S. d'Avila Garcez, Luís C. Lamb, John-Jules Ch. Meyer: "Un agente cognitivo neuronal-simbólico para el aprendizaje y el razonamiento en línea". IJCAI 2011: 1653-1658
  91. ^ McCarthy y Hayes 1969.
  92. ^ McCarthy 1959.
  93. ^ Nilsson 1998, pág. 7.
  94. ^ Olazarán 1993, págs. 411–416.
  95. ^ Olazarán 1993, págs. 415–416.
  96. ^ Marco 2020, pag. 20.
  97. ^ Garcez y Cordero 2020, pag. 8.
  98. ^ ab Russell y Norvig 2021, pág. 982.
  99. ^ Brooks 1991, pág. 143.
  100. ^ Brooks 1991, pág. 151.
  101. ^ Brooks 1991, pág. 150.
  102. ^ Brooks 1991, pág. 142.

Referencias