La motivación intrínseca en el estudio de la inteligencia artificial y cualquier robótica es un mecanismo que permite a los agentes artificiales (incluidos los robots ) exhibir comportamientos inherentemente gratificantes, como la exploración y la curiosidad, agrupados bajo el mismo término en el estudio de la psicología . Los psicólogos consideran que la motivación intrínseca en los humanos es el impulso de realizar una actividad por satisfacción inherente, solo por diversión o desafío. [1]
Un agente inteligente está intrínsecamente motivado a actuar si el contenido de la información por sí solo, o la experiencia resultante de la acción, es el factor motivador.
En este contexto, el contenido de información se mide en el sentido teórico de cuantificar la incertidumbre. Una motivación intrínseca típica es la búsqueda de situaciones inusuales y sorprendentes (exploración), en contraste con una motivación extrínseca típica, como la búsqueda de alimentos (homeostasis). [2] Las motivaciones extrínsecas se describen típicamente en la inteligencia artificial como dependientes de la tarea o dirigidas a un objetivo .
El estudio de la motivación intrínseca en psicología y neurociencia comenzó en la década de 1950 con algunos psicólogos que explicaban la exploración a través de impulsos para manipular y explorar, sin embargo, esta visión homeostática fue criticada por White. [3] Una explicación alternativa de Berlyne en 1960 fue la búsqueda de un equilibrio óptimo entre novedad y familiaridad. [4] Festinger describió la diferencia entre la visión interna y externa del mundo como una disonancia que los organismos están motivados a reducir. [5] Una visión similar fue expresada en los años 70 por Kagan como el deseo de reducir la incompatibilidad entre la estructura cognitiva y la experiencia. [6] En contraste con la idea de la incongruencia óptima, Deci y Ryan identificaron a mediados de los años 80 una motivación intrínseca basada en la competencia y la autodeterminación . [7]
Un influyente enfoque computacional temprano para implementar la curiosidad artificial a principios de los años 1990 por Schmidhuber , desde entonces se ha desarrollado hasta convertirse en una "teoría formal de la creatividad, la diversión y la motivación intrínseca". [8]
La motivación intrínseca suele estudiarse en el marco del aprendizaje de refuerzo computacional [9] [10] (introducido por Sutton y Barto ), donde las recompensas que impulsan el comportamiento del agente se derivan intrínsecamente en lugar de imponerse externamente y deben aprenderse del entorno. [11] El aprendizaje de refuerzo es agnóstico a cómo se genera la recompensa: un agente aprenderá una política (estrategia de acción) a partir de la distribución de recompensas proporcionadas por las acciones y el entorno. Cada enfoque de la motivación intrínseca en este esquema es esencialmente una forma diferente de generar la función de recompensa para el agente.
Los agentes artificiales intrínsecamente motivados exhiben un comportamiento que se asemeja a la curiosidad o la exploración . La exploración en inteligencia artificial y robótica ha sido ampliamente estudiada en modelos de aprendizaje de refuerzo [12] , generalmente alentando al agente a explorar la mayor parte posible del entorno, para reducir la incertidumbre sobre la dinámica del entorno (aprendiendo la función de transición) y la mejor manera de lograr sus objetivos (aprendiendo la función de recompensa). La motivación intrínseca, por el contrario, alienta al agente a explorar primero los aspectos del entorno que le confieren más información, para buscar novedades. Un trabajo reciente que unificó la exploración del recuento de visitas de estado y la motivación intrínseca ha demostrado un aprendizaje más rápido en un entorno de videojuego [13] .
Ouedeyer y Kaplan han hecho una contribución sustancial al estudio de la motivación intrínseca. [14] [2] [15] Definen la motivación intrínseca basándose en la teoría de Berlyne, [4] y dividen los enfoques para la implementación de la motivación intrínseca en tres categorías que, en líneas generales, siguen las raíces de la psicología: "modelos basados en el conocimiento", "modelos basados en la competencia" y "modelos morfológicos". [2] Los modelos basados en el conocimiento se subdividen a su vez en "teóricos de la información" y "predictivos". [15] Baldassare y Mirolli presentan una tipología similar, diferenciando los modelos basados en el conocimiento entre los basados en la predicción y los basados en la novedad. [16]
La cuantificación de la predicción y la novedad para impulsar el comportamiento generalmente se posibilita mediante la aplicación de modelos de teoría de la información, donde el estado del agente y la estrategia (política) a lo largo del tiempo se representan mediante distribuciones de probabilidad que describen un proceso de decisión de Markov y el ciclo de percepción y acción tratado como un canal de información. [17] [18] Estos enfoques afirman la viabilidad biológica como parte de una familia de enfoques bayesianos para la función cerebral . La principal crítica y dificultad de estos modelos es la intratabilidad de calcular distribuciones de probabilidad en grandes espacios de estados discretos o continuos. [2] No obstante, se ha desarrollado un considerable cuerpo de trabajo que modela el flujo de información alrededor del ciclo sensoriomotor, lo que conduce a funciones de recompensa de facto derivadas de la reducción de la incertidumbre, incluida la inferencia activa , [19] pero también infotaxis, [20] información predictiva, [21] [22] y empoderamiento . [23]
El principio autotélico de Steels [24] es un intento de formalizar el flujo (psicología) . [25]
Otros motivos intrínsecos que se han modelado computacionalmente incluyen la motivación de logro, afiliación y poder. [26] Estos motivos pueden implementarse como funciones de probabilidad de éxito o incentivo. Las poblaciones de agentes pueden incluir individuos con diferentes perfiles de motivación de logro, afiliación y poder, modelando la diversidad de la población y explicando por qué diferentes individuos toman diferentes acciones cuando se enfrentan a la misma situación.
Una teoría computacional más reciente de la motivación intrínseca intenta explicar una gran variedad de hallazgos psicológicos basados en tales motivos. Cabe destacar que este modelo de motivación intrínseca va más allá del logro, la afiliación y el poder, ya que toma en consideración otros motivos humanos importantes. Los datos empíricos de la psicología se simularon computacionalmente y se tuvieron en cuenta utilizando este modelo. [27]
El aprendizaje intrínsecamente motivado (o impulsado por la curiosidad) es un tema de investigación emergente en inteligencia artificial y robótica de desarrollo [28] que tiene como objetivo desarrollar agentes que puedan aprender habilidades o comportamientos generales, que se puedan implementar para mejorar el rendimiento en tareas extrínsecas, como la adquisición de recursos. [29] El aprendizaje intrínsecamente motivado se ha estudiado como un enfoque para el aprendizaje autónomo permanente en máquinas [30] [31] y el aprendizaje abierto en personajes de juegos de computadora. [32] En particular, cuando el agente aprende una representación abstracta significativa, se puede utilizar una noción de distancia entre dos representaciones para medir la novedad, lo que permite una exploración eficiente de su entorno. [33] A pesar del impresionante éxito del aprendizaje profundo en dominios específicos (por ejemplo, AlphaGo ), muchos en el campo (por ejemplo, Gary Marcus ) han señalado que la capacidad de generalizar sigue siendo un desafío fundamental en la inteligencia artificial. El aprendizaje intrínsecamente motivado, aunque prometedor en términos de poder generar objetivos a partir de la estructura del entorno sin tareas impuestas externamente, enfrenta el mismo desafío de generalización: cómo reutilizar políticas o secuencias de acción, cómo comprimir y representar espacios de estados continuos o complejos y retener y reutilizar las características sobresalientes que se han aprendido. [29]