Los informáticos de la Universidad de Bonn han desarrollado un software que puede mirar unos minutos hacia el futuro: el programa primero aprende la secuencia típica de acciones, como cocinar, a partir de secuencias de video. Basado en este conocimiento, puede predecir con precisiónen nuevas situaciones, qué hará el chef en ese momento. Los investigadores presentarán sus hallazgos en la Conferencia más grande del mundo sobre Visión por Computadora y Reconocimiento de Patrones, que se realizará del 19 al 21 de junio en Salt Lake City, EE. UU.
El mayordomo perfecto, como saben todos los fanáticos del drama social británico, tiene una habilidad especial: siente los deseos de su empleador antes de que sean pronunciados. El grupo de trabajo del profesor Dr. Jürgen Gall quiere enseñar a las computadoras algo similar: "Queremos predecir el momento y la duración de las actividades: minutos o incluso horas antes de que sucedan ", explica.
Un robot de cocina, por ejemplo, podría pasar los ingredientes tan pronto como sean necesarios, precalentar el horno a tiempo, y mientras tanto advertir al chef si está a punto de olvidar un paso de preparación. El vacío automáticoMientras tanto, Cleaner sabe que no tiene nada que hacer en la cocina en ese momento y, en cambio, se ocupa de la sala de estar.
Los humanos somos muy buenos para anticipar las acciones de otros. Sin embargo, para las computadoras, esta disciplina aún está en pañales. Los investigadores del Instituto de Ciencias de la Computación de la Universidad de Bonn ahora pueden anunciar un primer éxito: tienendesarrolló un software de autoaprendizaje que puede estimar el tiempo y la duración de actividades futuras con una precisión asombrosa por períodos de varios minutos.
Datos de entrenamiento: cuatro horas de videos de ensaladas
Los datos de capacitación utilizados por los científicos incluyeron 40 videos en los que los artistas preparan diferentes ensaladas. Cada una de las grabaciones duró alrededor de 6 minutos y contenía un promedio de 20 acciones diferentes. Los videos también contenían detalles precisos de a qué hora comenzó la acción ycuanto tardó.
La computadora "vio" estos videos de ensaladas por un total de alrededor de cuatro horas. De esta manera, el algoritmo aprendió qué acciones generalmente se siguen entre sí durante esta tarea y cuánto duran. Esto no es en absoluto trivial: después de todo, cada chef tiene suenfoque propio. Además, la secuencia puede variar según la receta.
"Luego probamos qué tan exitoso fue el proceso de aprendizaje", explica Gall. "Para esto confrontamos el software con videos que no había visto antes". Al menos los nuevos cortometrajes encajan en el contexto: también mostraron la preparaciónde una ensalada. Para la prueba, se le dijo a la computadora lo que se muestra en el primer 20 o 30 por ciento de uno de los nuevos videos. Sobre esta base, tenía que predecir lo que sucedería durante el resto de la película.
Eso funcionó increíblemente bien. Gall: "La precisión fue superior al 40 por ciento para períodos de pronóstico cortos, pero luego se redujo cuanto más el algoritmo tenía que mirar hacia el futuro". Para las actividades que tenían más de tres minutos en el futuro, la computadora erasigue siendo correcto en el 15 por ciento de los casos, sin embargo, el pronóstico solo se consideró correcto si tanto la actividad como el momento se predijeron correctamente.
Gall y sus colegas quieren que el estudio se entienda solo como un primer paso en el nuevo campo de predicción de actividad. Especialmente porque el algoritmo funciona notablemente peor si tiene que reconocer por sí solo lo que sucede en la primera parte del video,en lugar de que se lo digan. Debido a que este análisis nunca es 100 por ciento correcto, Gall habla de datos "ruidosos". "Nuestro proceso funciona con él", dice. "Pero desafortunadamente tampoco está cerca".
Los videos de prueba de muestra y las predicciones derivadas de ellos están disponibles en http://www.youtube.com/watch?v=xMNYRcVH_oI
Fuente de la historia :
Materiales proporcionados por Universidad de Bonn . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :