Utilizando fotos turísticas disponibles públicamente de lugares emblemáticos del mundo como la Fontana di Trevi en Roma o Top of the Rock en la ciudad de Nueva York, los investigadores de la Universidad de Cornell han desarrollado un método para crear imágenes 3D maniobrables que muestran cambios en la apariencia a lo largo del tiempo.
El método, que emplea el aprendizaje profundo para ingerir y sintetizar decenas de miles de fotos, en su mayoría sin etiquetas y sin fecha, resuelve un problema que ha eludido a los expertos en visión por computadora durante seis décadas.
"Es una nueva forma de modelar escenas que no solo te permite mover la cabeza y ver, digamos, la fuente desde diferentes puntos de vista, sino que también te da controles para cambiar la hora", dijo Noah Snavely, profesor asociado de informática.en Cornell Tech y autor principal de "Crowdsampling the Plenoptic Function", presentado en la Conferencia Europea sobre Visión por Computadora, celebrada virtualmente del 23 al 28 de agosto.
"Si realmente fueras a la Fontana di Trevi durante tus vacaciones, la apariencia dependería de la hora a la que fueras; por la noche, estaría iluminada por focos desde el fondo. Por la tarde, seríailuminado por el sol, a menos que haya ido en un día nublado ", dijo Snavely." Aprendimos toda la gama de apariencias, según la hora del día y el clima, de estas colecciones de fotos desorganizadas, de modo que puede explorar toda la gama y moverse simultáneamente por laescena."
Representar un lugar de una manera fotorrealista es un desafío para la visión por computadora tradicional, en parte debido a la gran cantidad de texturas que se pueden reproducir. "El mundo real es tan diverso en su apariencia y tiene diferentes tipos de materiales: cosas brillantes, agua, estructuras delgadas ", dijo Snavely.
Otro problema es la inconsistencia de los datos disponibles. Describir cómo se ve algo desde todos los puntos de vista posibles en el espacio y el tiempo, conocido como la función plenóptica, sería una tarea manejable con cientos de cámaras web colocadas alrededor de una escena, registrando datos diariosy la noche. Pero como esto no es práctico, los investigadores tuvieron que desarrollar una forma de compensar.
"Es posible que no haya una foto tomada a las 4 p. M. Desde este punto de vista exacto en el conjunto de datos. Por lo tanto, debemos aprender de una foto tomada a las 9 p. M. En un lugar, y una foto tomada a las 4:03 desde otro lugar,", Dijo Snavely." Y no sabemos la granularidad de cuándo se tomaron estas fotos. Pero el uso del aprendizaje profundo nos permite inferir cómo se habría visto la escena en un momento y lugar determinados ".
Los investigadores introdujeron una nueva representación de escena llamada Deep Multiplane Images para interpolar la apariencia en cuatro dimensiones: 3D, además de cambios a lo largo del tiempo. Su método se inspira en parte en una técnica de animación clásica desarrollada por Walt Disney Company en la década de 1930, queutiliza capas de transparencias para crear un efecto 3D sin volver a dibujar todos los aspectos de una escena.
"Usamos la misma idea inventada para crear efectos 3D en animación 2D para crear efectos 3D en escenas del mundo real, para crear esta imagen profunda de múltiples capas ajustándola a todas estas medidas dispares de las fotos de los turistas", dijo Snavely."Es interesante que se deba a una técnica clásica muy antigua que se utiliza en la animación".
En el estudio, mostraron que este modelo podría entrenarse para crear una escena utilizando alrededor de 50,000 imágenes disponibles públicamente que se encuentran en sitios como Flickr e Instagram. El método tiene implicaciones para la investigación de la visión por computadora, así como para el turismo virtual, particularmenteútil en un momento en que pocos pueden viajar en persona.
"Puedes tener la sensación de estar realmente allí", dijo Snavely. "Funciona sorprendentemente bien para una variedad de escenas".
El primer autor del artículo es el estudiante de doctorado de Cornell Tech, Zhengqi Li. Abe Davis, profesor asistente de ciencias de la computación en la Facultad de Computación y Ciencias de la Información, y el estudiante de doctorado de Cornell Tech Wenqi Xian también contribuyeron.
La investigación fue apoyada en parte por el filántropo Eric Schmidt, ex director ejecutivo de Google, y Wendy Schmidt, por recomendación del Programa Schmidt Futures.
Fuente de la historia :
Materiales proporcionado por Universidad de Cornell . Original escrito por Melanie Lefkowitz. Nota: el contenido se puede editar por estilo y longitud.
cite esta página :