Ya sea para juegos de computadora, análisis de movimiento en deportes o incluso exámenes médicos, muchas aplicaciones requieren que las personas y sus movimientos se capturen digitalmente en 3D en tiempo real. Hasta ahora, esto solo era posible con sistemas caros de varias cámaras,o haciendo que la gente use trajes especiales. Los informáticos del Instituto Max Planck de Ciencias de la Computación ahora han desarrollado un sistema que requiere una sola cámara de video. Incluso puede estimar la pose 3D de una persona que actúa en un video pregrabado, parapor ejemplo, un video de YouTube. Por lo tanto, ofrece nuevas aplicaciones en control de personajes, realidad virtual y captura de movimiento ubicua con teléfonos inteligentes.
"Esto le permite capturar videos con su teléfono celular en los Alpes y hacer un seguimiento del cuerpo. Hacer esto en 3D, en tiempo real y solo con una cámara como la de su dispositivo móvil, es un gran salto,"informa Dushyant Mehta, estudiante de doctorado en el Grupo de Gráficos, Visión y Video dirigido por el profesor Christian Theobalt en el Instituto Max Planck de Informática en Saarbruecken MPI.
Junto con sus colegas, desarrolló un sistema de software que solo necesita una cámara convencional para capturar digitalmente a una persona, junto con sus movimientos, en tiempo real.
"Hasta ahora, varias cámaras de video, o una llamada cámara de profundidad como en el Kinect, han sido necesarias para esta tarea", explica Srinath Sridhar, también investigadora del Grupo de Gráficos, Visión y Video.
El nuevo sistema se basa en una red neuronal que los investigadores llaman una "red neuronal convolucional" o CNN para abreviar, que a menudo se asocia con el término "aprendizaje profundo". Los investigadores del MPI han desarrollado un nuevo método para calcular los trespose tridimensional de la persona a partir de la información bidimensional de las transmisiones de video con la ayuda de una red neuronal.
Un video corto en su sitio web, producido por los científicos, muestra cómo se ve esto. Un investigador hace malabares con los clubes en el fondo de una habitación, mientras que en primer plano un monitor muestra la grabación de video correspondiente. La figura del investigador esaquí superpuesto por una figura roja simplificada. Otra vista 3D muestra el movimiento desde un lado, mostrando que, por primera vez, la pose 3D completa se captura en tiempo real. No importa qué tan rápido o qué tan lejos se mueva el investigador oextiende sus extremidades, la figura del palo hace los mismos movimientos en 3D, al igual que la versión de personaje virtual más desarrollada en el espacio virtual, que se muestra en otro monitor a la izquierda.
Los investigadores llaman a su sistema "VNect". El sistema predice tanto la postura 3D de la persona en la imagen como la localiza en la imagen. Esto permite que el sistema evite desperdiciar cálculos en regiones de la imagen que no contienenpersona. La red neuronal del sistema se entrena utilizando decenas de miles de imágenes anotadas durante el proceso de aprendizaje automático. El sistema proporciona información de pose en 3D en términos de ángulos articulares, que se pueden usar fácilmente para controlar caracteres virtuales.
"VNect hace que el seguimiento de la pose del cuerpo en 3D para la realidad virtual de los juegos de computadora sea accesible para un público más amplio porque no necesitan tener Kinect u otras cámaras disponibles, no necesitan usar asientos especiales y solo pueden usar cámaras web que sonmás fácilmente accesible ", dice Mehta y agrega:" También permite nuevas experiencias en realidad virtual en primera persona ". Además de este control interactivo de personajes, VNect es el primer sistema que también se puede utilizar para estimar la pose 3D de una persona en la comunidadvideos como los que se proporcionan en la plataforma en línea YouTube. Christian Theobalt continúa: "Hay muchas otras aplicaciones posibles, desde la interacción humano-computadora hasta la interacción humano-robot y la industria 4.0, donde el hombre y el robot trabajan juntos en una fábrica. También piensesobre la conducción autónoma, donde el automóvil puede estimar en el futuro el movimiento articulado completo de las personas desde una cámara a color para evaluar su comportamiento ".
Pero VNect todavía tiene sus limitaciones. La precisión de la estimación de pose es un poco menor que la precisión obtenida con la estimación de pose basada en marcadores o multicámara. Se mete en problemas si la cara de la persona está ocluida, los movimientos sondemasiado rápido o las posturas están demasiado lejos del conjunto entrenado de poses. La oclusión por múltiples personas también es un problema.
Sin embargo, Sridhar está seguro de que la tecnología madurará aún más y podrá manejar escenas cada vez más complejas, de modo que pueda usarse en la vida cotidiana.
Fuente de la historia :
Materiales proporcionado por Universidad de Saarland . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :