Aprendizaje mediante aprendizaje

En inteligencia artificial , el aprendizaje por aprendizaje (o aprendizaje por demostración o aprendizaje por imitación ) es el proceso de aprendizaje mediante la observación de un experto. ^[1]^[2] Puede verse como una forma de aprendizaje supervisado , donde el conjunto de datos de entrenamiento consiste en ejecuciones de tareas por parte de un profesor de demostración. ^[2]

Enfoque de función de mapeo

Los métodos de mapeo intentan imitar al experto mediante la formación de un mapeo directo, ya sea de estados a acciones ^[2] o de estados a valores de recompensa ^[1] . Por ejemplo, en 2002, los investigadores utilizaron este enfoque para enseñarle a un robot AIBO habilidades básicas de fútbol ^{[2] .}

Enfoque de aprendizaje por refuerzo inverso

El aprendizaje por refuerzo inverso (IRL) es el proceso de derivar una función de recompensa a partir de la conducta observada. Mientras que el "aprendizaje por refuerzo" ordinario implica el uso de recompensas y castigos para aprender la conducta, en el IRL la dirección se invierte y un robot observa la conducta de una persona para averiguar qué objetivo parece estar intentando alcanzar esa conducta. ^[3] El problema del IRL se puede definir como: ^[4]

Dados 1) mediciones del comportamiento de un agente a lo largo del tiempo, en una variedad de circunstancias; 2) mediciones de las entradas sensoriales a ese agente; 3) un modelo del entorno físico (incluido el cuerpo del agente): determinar la función de recompensa que el agente está optimizando.

El investigador de la vida real Stuart J. Russell propone que la vida real podría utilizarse para observar a los humanos e intentar codificar sus complejos "valores éticos", en un esfuerzo por crear "robots éticos" que algún día podrían saber "no cocinar a su gato" sin necesidad de que se les diga explícitamente. ^[5] El escenario puede modelarse como un "juego de aprendizaje de refuerzo inverso cooperativo", donde un jugador "persona" y un jugador "robot" cooperan para asegurar los objetivos implícitos de la persona, a pesar de que estos objetivos no sean conocidos explícitamente ni por la persona ni por el robot. ^[6]^[7]

En 2017, OpenAI y DeepMind aplicaron el aprendizaje profundo al aprendizaje de refuerzo inverso cooperativo en dominios simples como los juegos de Atari y tareas robóticas sencillas como volteretas hacia atrás. El papel humano se limitó a responder las preguntas del robot sobre cuál de dos acciones diferentes prefería. Los investigadores encontraron evidencia de que las técnicas pueden ser económicamente escalables para los sistemas modernos. ^[8]^[9]

El aprendizaje mediante aprendizaje por refuerzo inverso (AIRP) fue desarrollado en 2004 por Pieter Abbeel , profesor del departamento de Ingeniería Eléctrica y Computación de Berkeley , y Andrew Ng , profesor asociado del departamento de Informática de la Universidad de Stanford . AIRP trata de " un proceso de decisión de Markov en el que no se nos da explícitamente una función de recompensa, sino que podemos observar a un experto demostrando la tarea que queremos aprender a realizar". ^[1] AIRP se ha utilizado para modelar funciones de recompensa de escenarios altamente dinámicos en los que no hay una función de recompensa obvia de forma intuitiva. Tomemos como ejemplo la tarea de conducir, hay muchos objetivos diferentes que funcionan simultáneamente, como mantener una distancia de seguridad, una buena velocidad, no cambiar de carril con demasiada frecuencia, etc. Esta tarea, puede parecer fácil a primera vista, pero una función de recompensa trivial puede no converger hacia la política deseada.

Un campo en el que se ha utilizado ampliamente el AIRP es el control de helicópteros. Si bien las trayectorias simples se pueden derivar intuitivamente, las tareas complicadas como las acrobacias para espectáculos han tenido éxito. Estas incluyen maniobras acrobáticas como volteretas en el lugar, giros en el lugar, bucles, huracanes e incluso aterrizajes con autorrotación. Este trabajo fue desarrollado por Pieter Abbeel, Adam Coates y Andrew Ng: "Acrobacias autónomas en helicóptero mediante aprendizaje mediante aprendizaje" ^{[10] .}

Enfoque de modelo de sistema

Los modelos de sistemas intentan imitar al experto modelando la dinámica del mundo. ^[2]

Plan de enfoque

El sistema aprende reglas para asociar condiciones previas y posteriores a cada acción. En una demostración de 1994, un humanoide aprende un plan generalizado a partir de sólo dos demostraciones de una tarea repetitiva de recolección de pelotas. ^[2]

Ejemplo

El aprendizaje a partir de demostraciones se suele explicar desde la perspectiva de que el sistema de control del robot está disponible y el demostrador humano lo está utilizando. Y, de hecho, si el software funciona, el operador humano toma el brazo robótico, realiza un movimiento con él y el robot reproducirá la acción más tarde. Por ejemplo, le enseña al brazo robótico cómo colocar una taza debajo de una cafetera y presionar el botón de inicio. En la fase de reproducción, el robot está imitando este comportamiento 1:1. Pero no es así como funciona el sistema internamente; es solo lo que la audiencia puede observar. En realidad, el aprendizaje a partir de demostraciones es mucho más complejo. Uno de los primeros trabajos sobre el aprendizaje por aprendices de robots (robots antropomórficos que aprenden por imitación) fue la tesis doctoral de Adrian Stoica en 1995. ^[11]

En 1997, el experto en robótica Stefan Schaal trabajaba en el brazo robótico Sarcos . El objetivo era sencillo: resolver la tarea de balanceo del péndulo . El robot puede ejecutar un movimiento por sí mismo y, como resultado, el péndulo se mueve. El problema es que no está claro qué acciones darán lugar a qué movimiento. Se trata de un problema de control óptimo que se puede describir con fórmulas matemáticas, pero es difícil de resolver. La idea de Schaal no era utilizar un solucionador de fuerza bruta , sino registrar los movimientos de una demostración humana. El ángulo del péndulo se registra durante tres segundos en el eje y. Esto da como resultado un diagrama que produce un patrón. ^[12]

En la animación por ordenador, el principio se denomina animación spline . ^[13] Esto significa que en el eje x se da el tiempo, por ejemplo 0,5 segundos, 1,0 segundos, 1,5 segundos, mientras que en el eje y se da la variable. En la mayoría de los casos es la posición de un objeto. En el péndulo invertido es el ángulo.

La tarea general consta de dos partes: registrar el ángulo a lo largo del tiempo y reproducir el movimiento registrado. El paso de reproducción es sorprendentemente simple. Como entrada, sabemos en qué paso de tiempo qué ángulo debe tener el péndulo. Llevar el sistema a un estado se llama "control de seguimiento" o control PID . Esto significa que tenemos una trayectoria a lo largo del tiempo y debemos encontrar acciones de control para mapear el sistema a esta trayectoria. Otros autores llaman al principio "comportamiento de dirección" ^[14] , porque el objetivo es llevar un robot a una línea dada.

Véase también

Aprendizaje por refuerzo inverso

Referencias

^ abc "Aprendizaje mediante aprendizaje por refuerzo inverso". Pieter Abbeel , Andrew Ng, en la 21.ª Conferencia internacional sobre aprendizaje automático (ICML). 2004.
^ abcdef Argall, Brenna D.; Chernova, Sonia; Veloso, Manuela; Browning, Brett (mayo de 2009). "Un estudio sobre el aprendizaje de robots a partir de la demostración". Robótica y Sistemas Autónomos . 57 (5): 469–483. CiteSeerX 10.1.1.145.345 . doi :10.1016/j.robot.2008.10.024. S2CID 1045325.
^ Wolchover, Natalie. "Este pionero de la inteligencia artificial tiene algunas preocupaciones". WIRED . Consultado el 22 de enero de 2018 .
^ Russell, Stuart (1998). "Agentes de aprendizaje para entornos inciertos". Actas de la undécima conferencia anual sobre teoría del aprendizaje computacional . págs. 101–103. doi :10.1145/279943.279964. S2CID 546942.
^ Havens, John C. (23 de junio de 2015). "La ética de la IA: cómo evitar que tu robot cocine a tu gato". The Guardian . Consultado el 22 de enero de 2018 .
^ "La inteligencia artificial y el problema del rey Midas". Huffington Post . 12 de diciembre de 2016 . Consultado el 22 de enero de 2018 .
^ Hadfield-Menell, D., Russell, SJ, Abbeel, Pieter y Dragan, A. (2016). Aprendizaje por refuerzo inverso cooperativo. En Avances en sistemas de procesamiento de información neuronal (pp. 3909-3917).
^ "Dos gigantes de la IA se unen para evitar el apocalipsis robótico". WIRED . 7 de julio de 2017 . Consultado el 29 de enero de 2018 .
^ Christiano, PF, Leike, J., Brown, T., Martic, M., Legg, S. y Amodei, D. (2017). Aprendizaje por refuerzo profundo a partir de las preferencias humanas. En Advances in Neural Information Processing Systems (pp. 4302-4310).
^ Pieter Abbeel, Adam Coates, Andrew Ng, “Acrobacias aéreas autónomas con helicópteros mediante aprendizaje mediante aprendizaje”. En vol. 29, número 13, International Journal of Robotics Research, 2010.
^ Stoica, Adrian (1995). Aprendizaje del movimiento por aprendices de robots: un enfoque neuronal difuso (tesis doctoral). Universidad Tecnológica de Victoria.https://vuir.vu.edu.au/15323/
^ Atkeson, Christopher G. y Stefan Schaal (1997). "Tareas de aprendizaje a partir de una única demostración". Actas de la Conferencia internacional sobre robótica y automatización (PDF) . Vol. 2. IEEE. págs. 1706–1712. CiteSeerX 10.1.1.385.3520 . doi :10.1109/robot.1997.614389. ISBN. 978-0-7803-3612-4.S2CID 1945873 .{{cite book}}: CS1 maint: varios nombres: lista de autores ( enlace )
^ Baris Akgun y Maya Cakmak y Karl Jiang y Andrea L. Thomaz (2012). "Aprendizaje basado en fotogramas clave a partir de la demostración" (PDF) . Revista internacional de robótica social . 4 (4): 343–355. doi :10.1007/s12369-012-0160-0. S2CID 10004846.
^ Reynolds, Craig W. (1999). Conductas de dirección para personajes autónomos. Conferencia de desarrolladores de juegos. Págs. 763–782.