Los investigadores del Instituto de Robótica de la Universidad Carnegie Mellon han permitido que una computadora entienda las posturas corporales y los movimientos de varias personas a partir del video en tiempo real, incluida, por primera vez, la postura de los dedos de cada individuo.
Este nuevo método fue desarrollado con la ayuda de Panoptic Studio, una cúpula de dos pisos integrada con 500 cámaras de video. Los conocimientos obtenidos de los experimentos en esa instalación ahora permiten detectar la pose de un grupo de personas usando una solacámara y una computadora portátil.
Yaser Sheikh, profesor asociado de robótica, dijo que estos métodos para rastrear la forma y el movimiento humanos en 2-D abren nuevas formas para que las personas y las máquinas interactúen entre sí, y para que las personas usen máquinas para comprender mejor el mundo que les rodea.La capacidad de reconocer las posturas de las manos, por ejemplo, hará posible que las personas interactúen con las computadoras de formas nuevas y más naturales, como comunicarse con las computadoras simplemente señalando cosas.
La detección de los matices de la comunicación no verbal entre individuos permitirá que los robots sirvan en espacios sociales, permitiendo que los robots perciban qué están haciendo las personas a su alrededor, en qué estado de ánimo se encuentran y si pueden ser interrumpidos.alerta temprana de que un peatón está a punto de salir a la calle al monitorear el lenguaje corporal. Permitir que las máquinas entiendan el comportamiento humano también podría permitir nuevos enfoques para el diagnóstico conductual y la rehabilitación de afecciones como el autismo, la dislexia y la depresión.
"Nos comunicamos casi tanto con el movimiento de nuestros cuerpos como con nuestra voz", dijo Sheikh. "Pero las computadoras son más o menos ciegas".
En el análisis deportivo, la detección de pose en tiempo real hará posible que las computadoras no solo rastreen la posición de cada jugador en el campo de juego, como es el caso, sino que también sepan qué hacen los jugadores con sus brazos,piernas y cabezas en cada momento. Los métodos se pueden usar para eventos en vivo o se pueden aplicar a videos existentes.
Para alentar más investigación y aplicaciones, los investigadores han publicado su código de computadora para la estimación de múltiples personas y de pose manual. Ya está siendo ampliamente utilizado por grupos de investigación, y más de 20 grupos comerciales, incluidas las compañías automotrices, han expresado interés enlicenciando la tecnología, dijo Sheikh.
Sheikh y sus colegas presentarán informes sobre sus métodos de detección multipersonal y de pose manual en CVPR 2017, la Conferencia de reconocimiento de patrones y visión por computadora, del 21 al 26 de julio en Honolulu
El seguimiento de varias personas en tiempo real, particularmente en situaciones sociales en las que pueden estar en contacto entre sí, presenta una serie de desafíos. Simplemente usar programas que rastrean la pose de un individuo no funciona bien cuando se aplica a cada individuo en ungrupo, particularmente cuando ese grupo crece. Sheikh y sus colegas adoptaron un enfoque de abajo hacia arriba, que primero localiza todas las partes del cuerpo en una escena - brazos, piernas, caras, etc. - y luego asocia esas partes con individuos particulares.
Los desafíos para la detección de manos son aún mayores. A medida que las personas usan sus manos para sostener objetos y hacer gestos, es poco probable que una cámara vea todas las partes de la mano al mismo tiempo. A diferencia de la cara y el cuerpo, no existen grandes conjuntos de datosde imágenes de manos que han sido laboriosamente anotadas con etiquetas de partes y posiciones.
Pero para cada imagen que muestra solo una parte de la mano, a menudo existe otra imagen desde un ángulo diferente con una vista completa o complementaria de la mano, dijo Hanbyul Joo, un estudiante de doctorado en robótica. Ahí es donde los investigadoreshizo uso de Panoptic Studio multicámara de CMU.
"Un solo disparo le da 500 vistas de la mano de una persona, además anota automáticamente la posición de la mano", explicó Joo. "Las manos son demasiado pequeñas para ser anotadas por la mayoría de nuestras cámaras, sin embargo, para este estudio utilizamos solo31 cámaras de alta definición, pero aún así pudieron construir un conjunto de datos masivo "
Joo y Tomas Simon, otro estudiante de doctorado, usaron sus manos para generar miles de vistas.
"El Estudio Panóptico sobrealimenta nuestra investigación", dijo Sheikh. Ahora se está utilizando para mejorar los detectores de cuerpo, cara y mano al entrenarlos conjuntamente. Además, a medida que avanza el trabajo para pasar de los modelos 2-D de humanos a 3-D modelos, la capacidad de la instalación para generar automáticamente imágenes anotadas será crucial.
Cuando el Panoptic Studio se construyó hace una década con el apoyo de la National Science Foundation, no estaba claro qué impacto tendría, dijo Sheikh.
"Ahora, podemos romper una serie de barreras técnicas principalmente como resultado de esa subvención NSF hace 10 años", agregó. "Estamos compartiendo el código, pero también estamos compartiendo todos los datoscapturado en el Estudio Panóptico "
Fuente de la historia :
Materiales proporcionado por Universidad Carnegie Mellon . Original escrito por Byron Spice. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :