Con una técnica de entrenamiento que se usa comúnmente para enseñar a los perros a sentarse y quedarse quietos, los científicos informáticos de la Universidad Johns Hopkins le mostraron a un robot cómo aprender varios trucos nuevos, incluido apilar bloques. Con el método, el robot, llamado Spot, pudo aprenderen días, lo que suele tardar un mes.
Al utilizar el refuerzo positivo, un enfoque familiar para cualquiera que haya usado golosinas para cambiar el comportamiento de un perro, el equipo mejoró drásticamente las habilidades del robot y lo hizo lo suficientemente rápido para hacer que entrenar robots para el trabajo en el mundo real sea una empresa más factible. Los hallazgos sonrecientemente publicado en un artículo llamado "¡Buen robot!"
"La pregunta aquí era cómo conseguimos que el robot aprenda una habilidad", dijo el autor principal, Andrew Hundt, estudiante de doctorado que trabaja en el Laboratorio de Robótica e Interacción Computacional de Johns Hopkins. "He tenido perros, así que sé que las recompensas funcionany esa fue la inspiración de cómo diseñé el algoritmo de aprendizaje ".
A diferencia de los humanos y los animales que nacen con cerebros altamente intuitivos, las computadoras son pizarras en blanco y deben aprender todo desde cero. Pero el verdadero aprendizaje a menudo se logra mediante prueba y error, y los especialistas en robótica todavía están descubriendo cómo los robots pueden aprender de manera eficiente de sus errores..
El equipo logró eso aquí al diseñar un sistema de recompensas que funciona para un robot de la misma manera que las golosinas funcionan para un perro. Donde un perro puede obtener una galleta por un trabajo bien hecho, el robot gana puntos numéricos.
Hundt recordó cómo una vez le enseñó a su cachorro de mezcla de terrier llamado Leah el comando "déjalo", para que ella pudiera ignorar a las ardillas en los paseos. Usó dos tipos de golosinas, golosinas de entrenador ordinarias y algo aún mejor, como queso. Cuando Leah estabaemocionada y olfateando las golosinas, no consiguió nada. Pero cuando se calmó y miró hacia otro lado, consiguió las cosas buenas. "Fue entonces cuando le di el queso y dije: '¡Déjalo! ¡Buena Leah!'"
De manera similar, para apilar bloques, Spot el robot necesitaba aprender a concentrarse en acciones constructivas. A medida que el robot exploraba los bloques, rápidamente aprendió que los comportamientos correctos para apilar ganaban puntos altos, pero los incorrectos no ganaban nada. Alcance pero no¿No agarras un bloque? No hay puntos. ¿Derribar una pila? Definitivamente no hay puntos. El lugar ganó más colocando el último bloque encima de una pila de cuatro bloques.
La táctica de entrenamiento no solo funcionó, tomó solo días enseñarle al robot lo que solía tomar semanas. El equipo pudo reducir el tiempo de práctica al entrenar primero a un robot simulado, que es muy parecido a un videojuego, y luego correrpruebas con Spot.
"El robot quiere la puntuación más alta", dijo Hundt. "Aprende rápidamente el comportamiento correcto para obtener la mejor recompensa. De hecho, solía llevar un mes de práctica para que el robot alcanzara el 100% de precisión. Pudimospara hacerlo en dos días. "
El refuerzo positivo no solo sirvió para ayudar al robot a aprender a apilar bloques, con el sistema de puntos, el robot aprendió con la misma rapidez varias otras tareas, incluso cómo jugar un juego de navegación simulado. La capacidad de aprender de errores de todo tipode situaciones es fundamental para diseñar un robot que pueda adaptarse a nuevos entornos.
"Al principio, el robot no tiene idea de lo que está haciendo, pero mejorará cada vez más con cada práctica. Nunca se rinde, sigue tratando de apilar y es capaz de terminar la tarea el 100% del tiempo", dijo Hundt..
El equipo imagina que estos hallazgos podrían ayudar a entrenar a los robots domésticos para lavar la ropa y lavar los platos, tareas que podrían ser populares en el mercado abierto y ayudar a las personas mayores a vivir de forma independiente. También podrían ayudar a diseñar automóviles autónomos mejorados.
"Nuestro objetivo es eventualmente desarrollar robots que puedan realizar tareas complejas en el mundo real, como el ensamblaje de productos, el cuidado de los ancianos y la cirugía", dijo Hager. "Actualmente no sabemos cómo programar tareas como esa -- el mundo es demasiado complejo. Pero un trabajo como este nos muestra que es prometedora la idea de que los robots pueden aprender a realizar estas tareas del mundo real de una manera segura y eficiente ".
Fuente de la historia :
Materiales proporcionado por Universidad Johns Hopkins . Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :