En inteligencia artificial , el aprendizaje por aprendizaje (o aprendizaje por demostración o aprendizaje por imitación ) es el proceso de aprendizaje mediante la observación de un experto. [1] [2] Puede verse como una forma de aprendizaje supervisado , donde el conjunto de datos de entrenamiento consiste en ejecuciones de tareas por parte de un profesor de demostración. [2]
Los métodos de mapeo intentan imitar al experto mediante la formación de un mapeo directo, ya sea de estados a acciones [2] o de estados a valores de recompensa [1] . Por ejemplo, en 2002, los investigadores utilizaron este enfoque para enseñarle a un robot AIBO habilidades básicas de fútbol [2] .
El aprendizaje por refuerzo inverso (IRL) es el proceso de derivar una función de recompensa a partir de la conducta observada. Mientras que el "aprendizaje por refuerzo" ordinario implica el uso de recompensas y castigos para aprender la conducta, en el IRL la dirección se invierte y un robot observa la conducta de una persona para averiguar qué objetivo parece estar intentando alcanzar esa conducta. [3] El problema del IRL se puede definir como: [4]
Dados 1) mediciones del comportamiento de un agente a lo largo del tiempo, en una variedad de circunstancias; 2) mediciones de las entradas sensoriales a ese agente; 3) un modelo del entorno físico (incluido el cuerpo del agente): determinar la función de recompensa que el agente está optimizando.
El investigador de la vida real Stuart J. Russell propone que la vida real podría utilizarse para observar a los humanos e intentar codificar sus complejos "valores éticos", en un esfuerzo por crear "robots éticos" que algún día podrían saber "no cocinar a su gato" sin necesidad de que se les diga explícitamente. [5] El escenario puede modelarse como un "juego de aprendizaje de refuerzo inverso cooperativo", donde un jugador "persona" y un jugador "robot" cooperan para asegurar los objetivos implícitos de la persona, a pesar de que estos objetivos no sean conocidos explícitamente ni por la persona ni por el robot. [6] [7]
En 2017, OpenAI y DeepMind aplicaron el aprendizaje profundo al aprendizaje de refuerzo inverso cooperativo en dominios simples como los juegos de Atari y tareas robóticas sencillas como volteretas hacia atrás. El papel humano se limitó a responder las preguntas del robot sobre cuál de dos acciones diferentes prefería. Los investigadores encontraron evidencia de que las técnicas pueden ser económicamente escalables para los sistemas modernos. [8] [9]
El aprendizaje mediante aprendizaje por refuerzo inverso (AIRP) fue desarrollado en 2004 por Pieter Abbeel , profesor del departamento de Ingeniería Eléctrica y Computación de Berkeley , y Andrew Ng , profesor asociado del departamento de Informática de la Universidad de Stanford . AIRP trata de " un proceso de decisión de Markov en el que no se nos da explícitamente una función de recompensa, sino que podemos observar a un experto demostrando la tarea que queremos aprender a realizar". [1] AIRP se ha utilizado para modelar funciones de recompensa de escenarios altamente dinámicos en los que no hay una función de recompensa obvia de forma intuitiva. Tomemos como ejemplo la tarea de conducir, hay muchos objetivos diferentes que funcionan simultáneamente, como mantener una distancia de seguridad, una buena velocidad, no cambiar de carril con demasiada frecuencia, etc. Esta tarea, puede parecer fácil a primera vista, pero una función de recompensa trivial puede no converger hacia la política deseada.
Un campo en el que se ha utilizado ampliamente el AIRP es el control de helicópteros. Si bien las trayectorias simples se pueden derivar intuitivamente, las tareas complicadas como las acrobacias para espectáculos han tenido éxito. Estas incluyen maniobras acrobáticas como volteretas en el lugar, giros en el lugar, bucles, huracanes e incluso aterrizajes con autorrotación. Este trabajo fue desarrollado por Pieter Abbeel, Adam Coates y Andrew Ng: "Acrobacias autónomas en helicóptero mediante aprendizaje mediante aprendizaje" [10] .
Los modelos de sistemas intentan imitar al experto modelando la dinámica del mundo. [2]
El sistema aprende reglas para asociar condiciones previas y posteriores a cada acción. En una demostración de 1994, un humanoide aprende un plan generalizado a partir de sólo dos demostraciones de una tarea repetitiva de recolección de pelotas. [2]
El aprendizaje a partir de demostraciones se suele explicar desde la perspectiva de que el sistema de control del robot está disponible y el demostrador humano lo está utilizando. Y, de hecho, si el software funciona, el operador humano toma el brazo robótico, realiza un movimiento con él y el robot reproducirá la acción más tarde. Por ejemplo, le enseña al brazo robótico cómo colocar una taza debajo de una cafetera y presionar el botón de inicio. En la fase de reproducción, el robot está imitando este comportamiento 1:1. Pero no es así como funciona el sistema internamente; es solo lo que la audiencia puede observar. En realidad, el aprendizaje a partir de demostraciones es mucho más complejo. Uno de los primeros trabajos sobre el aprendizaje por aprendices de robots (robots antropomórficos que aprenden por imitación) fue la tesis doctoral de Adrian Stoica en 1995. [11]
En 1997, el experto en robótica Stefan Schaal trabajaba en el brazo robótico Sarcos . El objetivo era sencillo: resolver la tarea de balanceo del péndulo . El robot puede ejecutar un movimiento por sí mismo y, como resultado, el péndulo se mueve. El problema es que no está claro qué acciones darán lugar a qué movimiento. Se trata de un problema de control óptimo que se puede describir con fórmulas matemáticas, pero es difícil de resolver. La idea de Schaal no era utilizar un solucionador de fuerza bruta , sino registrar los movimientos de una demostración humana. El ángulo del péndulo se registra durante tres segundos en el eje y. Esto da como resultado un diagrama que produce un patrón. [12]
En la animación por ordenador, el principio se denomina animación spline . [13] Esto significa que en el eje x se da el tiempo, por ejemplo 0,5 segundos, 1,0 segundos, 1,5 segundos, mientras que en el eje y se da la variable. En la mayoría de los casos es la posición de un objeto. En el péndulo invertido es el ángulo.
La tarea general consta de dos partes: registrar el ángulo a lo largo del tiempo y reproducir el movimiento registrado. El paso de reproducción es sorprendentemente simple. Como entrada, sabemos en qué paso de tiempo qué ángulo debe tener el péndulo. Llevar el sistema a un estado se llama "control de seguimiento" o control PID . Esto significa que tenemos una trayectoria a lo largo del tiempo y debemos encontrar acciones de control para mapear el sistema a esta trayectoria. Otros autores llaman al principio "comportamiento de dirección" [14] , porque el objetivo es llevar un robot a una línea dada.
{{cite book}}
: CS1 maint: varios nombres: lista de autores ( enlace )