Dados solo unos pocos cuadros de un video, los humanos generalmente pueden suponer lo que está sucediendo y sucederá en la pantalla. Si vemos un cuadro temprano de latas apiladas, un cuadro central con un dedo en la base de la pila y un cuadro tardío que muestralas latas se volcaron, podemos adivinar que el dedo derribó las latas. Sin embargo, las computadoras luchan con este concepto.
En un documento presentado en la Conferencia Europea sobre Visión por Computadora de esta semana, los investigadores del MIT describen un módulo adicional que ayuda a los sistemas de inteligencia artificial llamados redes neuronales convolucionales, o CNN, para llenar los espacios entre los cuadros de video para mejorar en gran medida la redreconocimiento de actividad
El módulo de investigadores, llamado Red de relación temporal TRN, aprende cómo cambian los objetos en un video en diferentes momentos. Lo hace analizando algunos fotogramas clave que representan una actividad en diferentes etapas del video, como los objetos apiladosque luego se eliminan. Usando el mismo proceso, puede reconocer el mismo tipo de actividad en un video nuevo.
En experimentos, el módulo superó a los modelos existentes por un amplio margen al reconocer cientos de actividades básicas, como empujar objetos para hacerlos caer, lanzar algo al aire y dar un pulgar hacia arriba. También predijo con mayor precisión quésucede a continuación en un video, que muestra, por ejemplo, dos manos haciendo una pequeña rasgadura en una hoja de papel, dado solo un pequeño número de fotogramas iniciales.
Un día, el módulo podría usarse para ayudar a los robots a comprender mejor lo que sucede a su alrededor.
"Construimos un sistema de inteligencia artificial para reconocer la transformación de objetos, en lugar de la apariencia de los objetos", dice Bolei Zhou, un ex estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL que ahora es profesor asistente de informáticaciencia en la Universidad China de Hong Kong. "El sistema no pasa por todos los cuadros: recoge cuadros clave y, utilizando la relación temporal de cuadros, reconoce lo que está sucediendo. Eso mejora la eficiencia del sistema y hace quese ejecuta en tiempo real con precisión "
Los coautores del documento son el investigador principal de CSAIL, Antonio Torralba, quien también es profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación; el investigador principal de CSAIL, Aude Oliva; y el asistente de investigación de CSAIL, Alex Andonian.
Recoger fotogramas clave
Actualmente, dos módulos CNN comunes que se utilizan para el reconocimiento de actividades sufren de inconvenientes de eficiencia y precisión. Un modelo es preciso pero debe analizar cada cuadro de video antes de hacer una predicción, que es computacionalmente costosa y lenta. El otro tipo, llamado red de dos flujos, es menos preciso pero más eficiente. Utiliza un flujo para extraer características de un cuadro de video y luego combina los resultados con "flujos ópticos", un flujo de información extraída sobre el movimiento de cada píxel. Los flujos ópticos también son computacionalmente caros paraextraer, por lo que el modelo todavía no es tan eficiente.
"Queríamos algo que funcionara entre esos dos modelos: obtener eficiencia y precisión", dice Zhou.
Los investigadores entrenaron y probaron su módulo en tres conjuntos de datos de videos cortos de varias actividades realizadas. El primer conjunto de datos, llamado Something-Something, creado por la compañía TwentyBN, tiene más de 200,000 videos en 174 categorías de acción, como meter unel segundo conjunto de datos, Jester, contiene casi 150,000 videos con 27 gestos con las manos diferentes, como dar el pulgar hacia arriba o deslizar hacia la izquierda. El tercero, Charades, construido por investigadores de la Universidad Carnegie Mellon, tienecasi 10,000 videos de 157 actividades categorizadas, como llevar una bicicleta o jugar al baloncesto.
Cuando se le da un archivo de video, el módulo de los investigadores procesa simultáneamente los marcos ordenados, en grupos de dos, tres y cuatro, separados por un tiempo. Luego, rápidamente asigna una probabilidad de que la transformación del objeto en esos marcos coincida con un específicoclase de actividad. Por ejemplo, si procesa dos cuadros, donde el cuadro posterior muestra un objeto en la parte inferior de la pantalla y el anterior muestra el objeto en la parte superior, asignará una alta probabilidad a la clase de actividad, "objeto en movimiento hacia abajo. "Si un tercer cuadro muestra el objeto en el medio de la pantalla, esa probabilidad aumenta aún más, y así sucesivamente. A partir de esto, aprende las características de transformación de objetos en los cuadros que más representan una determinada clase de actividad.
Actividades de reconocimiento y previsión
En las pruebas, una CNN equipada con el nuevo módulo reconoció con precisión muchas actividades utilizando dos cuadros, pero la precisión aumentó al muestrear más cuadros. Para Jester, el módulo logró una precisión máxima del 95 por ciento en reconocimiento de actividad, superando a varios modelos existentes.
Incluso acertó en clasificaciones ambiguas: algo, algo, por ejemplo, incluía acciones como "pretender abrir un libro" versus "abrir un libro". Para discernir entre los dos, el módulo solo probó algunos fotogramas clave más, que reveló, por ejemplo, una mano cerca de un libro en un cuadro temprano, luego en el libro, luego se alejó del libro en un cuadro posterior.
Algunos otros modelos de reconocimiento de actividad también procesan fotogramas clave pero no consideran las relaciones temporales en los fotogramas, lo que reduce su precisión. Los investigadores informan que su módulo TRN casi duplica la precisión sobre esos modelos de fotogramas clave en ciertas pruebas.
El módulo también superó a los modelos en el pronóstico de una actividad, dados los marcos limitados. Después de procesar el primer 25 por ciento de los marcos, el módulo alcanzó una precisión de varios puntos porcentuales más que un modelo de referencia. Con el 50 por ciento de los marcos, alcanzó 10 a 40precisión porcentual más alta. Los ejemplos incluyen determinar que un papel se rasgaría un poco, en función de cómo se colocan las dos manos sobre el papel en los primeros cuadros, y predecir que una mano levantada, mostrada hacia adelante, se deslizaría hacia abajo.
"Eso es importante para las aplicaciones de robótica", dice Zhou. "Desea que [un robot] anticipe y pronostique lo que sucederá desde el principio, cuando realice una acción específica".
Luego, los investigadores apuntan a mejorar la sofisticación del módulo. El primer paso es implementar el reconocimiento de objetos junto con el reconocimiento de actividad. Luego, esperan agregar "física intuitiva", lo que significa ayudarlo a comprender las propiedades físicas de los objetos en el mundo real ".sabemos mucho de la física dentro de estos videos, podemos entrenar el módulo para aprender tales leyes físicas y usarlas para reconocer nuevos videos ", dice Zhou." También abrimos el código y los modelos de código abierto. La comprensión de la actividad es un área emocionante deinteligencia artificial en este momento "
Fuente de la historia :
Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :