Un día, entrenar robots interactivos puede ser un trabajo fácil para todos, incluso para aquellos que no tienen experiencia en programación. Los robotistas están desarrollando robots automatizados que pueden aprender nuevas tareas únicamente observando a los humanos. En casa, algún día podrías enseñarle a un robot doméstico cómo hacer una rutinatareas en el lugar de trabajo, puede entrenar robots como nuevos empleados, mostrándoles cómo realizar muchas tareas.
Haciendo progresos en esa visión, los investigadores del MIT han diseñado un sistema que permite que este tipo de robots aprendan tareas complicadas que de otro modo los obstaculizarían con demasiadas reglas confusas. Una de esas tareas es preparar una mesa en ciertas condiciones.
En esencia, el sistema de "Planificación con especificaciones inciertas" PUnS de los investigadores brinda a los robots la capacidad de planificación humana para sopesar simultáneamente muchos requisitos ambiguos y potencialmente contradictorios para alcanzar un objetivo final. Al hacerlo, el sistemasiempre elige la acción más probable para tomar, basada en una "creencia" sobre algunas especificaciones probables para la tarea que se supone que debe realizar.
En su trabajo, los investigadores compilaron un conjunto de datos con información sobre cómo ocho objetos, una taza, un vaso, una cuchara, un tenedor, un cuchillo, un plato, un plato pequeño y un tazón, podrían colocarse sobre una mesa en varias configuraciones.Un brazo robótico observó por primera vez demostraciones humanas seleccionadas al azar de colocar la mesa con los objetos, luego los investigadores le encargaron al brazo que estableciera automáticamente una mesa en una configuración específica, en experimentos del mundo real y en simulación, según lo que había visto.
Para tener éxito, el robot tuvo que sopesar muchos posibles pedidos de ubicación, incluso cuando los elementos se eliminaron, apilaron u ocultaron a propósito. Normalmente, todo eso confundiría demasiado a los robots. Pero el robot de los investigadores no cometió errores en varios mundos realesexperimentos y solo un puñado de errores en decenas de miles de pruebas simuladas.
"La visión es poner la programación en manos de expertos en dominios, que pueden programar robots a través de formas intuitivas, en lugar de describir órdenes a un ingeniero para agregar a su código", dice el primer autor Ankit Shah, un estudiante graduado en el Departamentode Aeronáutica y Astronáutica AeroAstro y el Interactive Robotics Group, que enfatiza que su trabajo es solo un paso para cumplir esa visión. "De esa manera, los robots ya no tendrán que realizar tareas preprogramadas. Los trabajadores de la fábrica pueden enseñar a un robot a hacermúltiples tareas de ensamblaje complejas. Los robots domésticos pueden aprender a apilar armarios, cargar el lavavajillas o poner la mesa desde la gente en casa ".
Uniéndose a Shah en el papel están el estudiante graduado de AeroAstro y Interactive Robotics Group, Shen Li, y la líder del Grupo de Robótica Interactiva, Julie Shah, profesora asociada en AeroAstro y el Laboratorio de Ciencias de la Computación e Inteligencia Artificial.
Bots que cubren apuestas
Los robots son buenos planificadores en tareas con "especificaciones" claras, que ayudan a describir la tarea que el robot debe cumplir, considerando sus acciones, entorno y objetivo final. Aprender a establecer una mesa observando demostraciones está lleno de especificaciones inciertas.Los artículos deben colocarse en ciertos lugares, según el menú y el lugar donde se sientan los invitados, y en ciertos pedidos, según la disponibilidad inmediata de un artículo o las convenciones sociales. Los enfoques actuales de planificación no son capaces de tratar con especificaciones tan inciertas.
Un enfoque popular para la planificación es el "aprendizaje de refuerzo", una técnica de aprendizaje automático de prueba y error que los recompensa y penaliza por las acciones mientras trabajan para completar una tarea. Pero para tareas con especificaciones inciertas, es difícil definirlas con claridadrecompensas y sanciones. En resumen, los robots nunca aprenden completamente lo correcto de lo incorrecto.
El sistema de los investigadores, llamado PUnS por Planificación con especificaciones inciertas, permite que un robot tenga una "creencia" sobre una gama de especificaciones posibles. La creencia en sí misma puede usarse para repartir recompensas y sanciones ". El robotesencialmente está cubriendo sus apuestas en términos de lo que se pretende en una tarea, y toma acciones que satisfacen su creencia, en lugar de que le demos una especificación clara ", dice Ankit Shah.
El sistema se basa en la "lógica temporal lineal" LTL, un lenguaje expresivo que permite el razonamiento robótico sobre los resultados actuales y futuros. Los investigadores definieron plantillas en LTL que modelan varias condiciones basadas en el tiempo, como lo que debe suceder ahora,debe suceder eventualmente, y debe suceder hasta que ocurra algo más. Las observaciones del robot de 30 demostraciones humanas para establecer la tabla arrojaron una distribución de probabilidad sobre 25 fórmulas LTL diferentes. Cada fórmula codificó una preferencia ligeramente diferente - o especificación - para establecer la tablaEsa distribución de probabilidad se convierte en su creencia.
"Cada fórmula codifica algo diferente, pero cuando el robot considera varias combinaciones de todas las plantillas e intenta satisfacer todo junto, finalmente termina haciendo lo correcto", dice Ankit Shah.
Siguiendo criterios
Los investigadores también desarrollaron varios criterios que guían al robot para satisfacer toda la creencia sobre esas fórmulas candidatas. Una, por ejemplo, satisface la fórmula más probable, que descarta todo lo demás aparte de la plantilla con la mayor probabilidad. Otros satisfacen la mayornúmero de fórmulas únicas, sin considerar su probabilidad general, o satisfacen varias fórmulas que representan la probabilidad total más alta. Otra simplemente minimiza el error, por lo que el sistema ignora las fórmulas con alta probabilidad de falla.
Los diseñadores pueden elegir cualquiera de los cuatro criterios para preestablecer antes del entrenamiento y las pruebas. Cada uno tiene su propio compromiso entre flexibilidad y aversión al riesgo. La elección de los criterios depende completamente de la tarea. En situaciones críticas de seguridad, por ejemplo, un diseñador puedeelija limitar la posibilidad de falla, pero donde las consecuencias de la falla no son tan severas, los diseñadores pueden optar por dar a los robots una mayor flexibilidad para probar diferentes enfoques.
Con los criterios establecidos, los investigadores desarrollaron un algoritmo para convertir la creencia del robot - la distribución de probabilidad apuntando a la fórmula deseada - en un problema de aprendizaje de refuerzo equivalente. Este modelo hará ping al robot con una recompensa o penalización por unacción que toma, según la especificación que se decide seguir.
En las simulaciones que le pidieron al robot que pusiera la mesa en diferentes configuraciones, solo cometió seis errores de 20,000 intentos. En las demostraciones del mundo real, mostró un comportamiento similar a cómo un humano realizaría la tarea. Si un artículo no fuerainicialmente visible, por ejemplo, el robot terminaría de colocar el resto de la mesa sin el artículo. Luego, cuando se revelara la horquilla, la colocaría en el lugar adecuado. "Ahí es donde la flexibilidad es muy importante", dice Shah."De lo contrario, se atascaría cuando espera colocar un tenedor y no terminar el resto de la configuración de la mesa".
A continuación, los investigadores esperan modificar el sistema para ayudar a los robots a cambiar su comportamiento en función de instrucciones verbales, correcciones o la evaluación de un usuario del rendimiento del robot. "Digamos que una persona le muestra a un robot cómo poner una mesa en un solo lugar. La persona puede decir, 'haga lo mismo para todos los otros puntos' o 'coloque el cuchillo antes del tenedor aquí' ", dice Shah." Queremos desarrollar métodos para que el sistema se adapte naturalmente para manejar esos problemas verbales.comandos, sin necesidad de demostraciones adicionales "
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :