La miniaturización de las cámaras de video ha provocado una explosión en su uso, incluida su incorporación a una gama de dispositivos portátiles como cámaras para la cabeza, que se utilizan en escenarios que van desde eventos deportivos hasta combates armados. Analizar las tareas realizadas frente a dichos dispositivos yproporcionar orientación en tiempo real a las personas que los utilizan, sería útil caracterizar dónde se está enfocando realmente el usuario dentro del metraje en cada momento, pero las herramientas disponibles para predecir esto aún son limitadas.
En un nuevo estudio presentado en la 15a Conferencia Europea de Visión por Computador ECCV 2018, los investigadores de la Universidad de Tokio han desarrollado una herramienta computacional que puede aprender de las imágenes tomadas con una cámara frontal, en este caso de varias tareas realizadas en elcocina, y luego predecir con precisión dónde se dirigirá el enfoque del usuario a continuación. Esta nueva herramienta podría ser útil para permitir que las tecnologías vinculadas a video predigan qué acciones está realizando el usuario actualmente y brinden una guía adecuada con respecto al siguiente paso.
Los programas existentes para predecir dónde es probable que caiga la mirada humana dentro de un cuadro de metraje de video se han basado generalmente en el concepto de "prominencia visual", que utiliza distinciones de características como el color, la intensidad y el contraste dentro de la imagen parapredecir dónde es probable que esté mirando una persona. Sin embargo, en las imágenes de sujetos humanos que realizan tareas complejas, este enfoque de prominencia visual es inadecuado, ya que es probable que el individuo cambie su atención de un objeto a otro en una secuencia secuencial, y a menudo predecible, conducta.
Para aprovechar esta previsibilidad, en este estudio el equipo utilizó un enfoque novedoso que combina la prominencia visual con la "predicción de la mirada", que implica que una inteligencia artificial aprenda tales secuencias de acciones a partir de imágenes existentes y luego aplique el conocimiento obtenido para predecir la dirección.de la mirada del usuario en nuevas imágenes.
"Nuestro nuevo enfoque implica la construcción de primero un 'mapa de prominencia' para cada fotograma de metraje, luego un 'mapa de atención' basado en el lugar donde el usuario miraba anteriormente y en el movimiento de la cabeza del usuario, y finalmente la combinación de ambosde estos en un 'mapa de mirada' ", dice Yoichi Sato." Nuestros resultados mostraron que esta nueva herramienta superó las alternativas anteriores en términos de predecir dónde se dirigía realmente la mirada del usuario de la cámara frontal ".
Aunque los resultados del equipo se obtuvieron para imágenes de tareas en una cocina, como hervir agua en una estufa, podrían extenderse a situaciones como tareas realizadas en oficinas o fábricas. De hecho, según el autor principal Yifei Huang, "Las herramientas para evaluar los llamados videos egocéntricos de este tipo podrían incluso aplicarse en un contexto médico, como evaluar dónde se está enfocando un cirujano y ofrecer orientación sobre los pasos más apropiados a seguir en una operación ".
Fuente de la historia :
Materiales proporcionado por Instituto de Ciencias Industriales, Universidad de Tokio . Nota: el contenido se puede editar por estilo y longitud.
Referencia de la revista :
cite esta página :