Noticias de ciencia

de organizaciones de investigación

Ayudando a las computadoras a llenar los espacios entre los cuadros de video

El sistema de aprendizaje automático reconoce eficientemente las actividades al observar cómo cambian los objetos en solo unos pocos fotogramas clave

Fecha :: 13 de septiembre de 2018
Fuente :: Instituto de Tecnología de Massachusetts
Resumen :: Los investigadores han desarrollado un módulo adicional que ayuda a los sistemas de inteligencia artificial llamados redes neuronales convolucionales, o CNN, para llenar los espacios entre los cuadros de video para mejorar en gran medida el reconocimiento de la actividad de la red.
Compartir :

HISTORIA COMPLETA

Dados solo unos pocos cuadros de un video, los humanos generalmente pueden suponer lo que está sucediendo y sucederá en la pantalla. Si vemos un cuadro temprano de latas apiladas, un cuadro central con un dedo en la base de la pila y un cuadro tardío que muestralas latas se volcaron, podemos adivinar que el dedo derribó las latas. Sin embargo, las computadoras luchan con este concepto.

anuncio

En un documento presentado en la Conferencia Europea sobre Visión por Computadora de esta semana, los investigadores del MIT describen un módulo adicional que ayuda a los sistemas de inteligencia artificial llamados redes neuronales convolucionales, o CNN, para llenar los espacios entre los cuadros de video para mejorar en gran medida la redreconocimiento de actividad

El módulo de investigadores, llamado Red de relación temporal TRN, aprende cómo cambian los objetos en un video en diferentes momentos. Lo hace analizando algunos fotogramas clave que representan una actividad en diferentes etapas del video, como los objetos apiladosque luego se eliminan. Usando el mismo proceso, puede reconocer el mismo tipo de actividad en un video nuevo.

En experimentos, el módulo superó a los modelos existentes por un amplio margen al reconocer cientos de actividades básicas, como empujar objetos para hacerlos caer, lanzar algo al aire y dar un pulgar hacia arriba. También predijo con mayor precisión quésucede a continuación en un video, que muestra, por ejemplo, dos manos haciendo una pequeña rasgadura en una hoja de papel, dado solo un pequeño número de fotogramas iniciales.

Un día, el módulo podría usarse para ayudar a los robots a comprender mejor lo que sucede a su alrededor.

"Construimos un sistema de inteligencia artificial para reconocer la transformación de objetos, en lugar de la apariencia de los objetos", dice Bolei Zhou, un ex estudiante de doctorado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial CSAIL que ahora es profesor asistente de informáticaciencia en la Universidad China de Hong Kong. "El sistema no pasa por todos los cuadros: recoge cuadros clave y, utilizando la relación temporal de cuadros, reconoce lo que está sucediendo. Eso mejora la eficiencia del sistema y hace quese ejecuta en tiempo real con precisión "

Los coautores del documento son el investigador principal de CSAIL, Antonio Torralba, quien también es profesor en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación; el investigador principal de CSAIL, Aude Oliva; y el asistente de investigación de CSAIL, Alex Andonian.

anuncio

Recoger fotogramas clave

Actualmente, dos módulos CNN comunes que se utilizan para el reconocimiento de actividades sufren de inconvenientes de eficiencia y precisión. Un modelo es preciso pero debe analizar cada cuadro de video antes de hacer una predicción, que es computacionalmente costosa y lenta. El otro tipo, llamado red de dos flujos, es menos preciso pero más eficiente. Utiliza un flujo para extraer características de un cuadro de video y luego combina los resultados con "flujos ópticos", un flujo de información extraída sobre el movimiento de cada píxel. Los flujos ópticos también son computacionalmente caros paraextraer, por lo que el modelo todavía no es tan eficiente.

"Queríamos algo que funcionara entre esos dos modelos: obtener eficiencia y precisión", dice Zhou.

Los investigadores entrenaron y probaron su módulo en tres conjuntos de datos de videos cortos de varias actividades realizadas. El primer conjunto de datos, llamado Something-Something, creado por la compañía TwentyBN, tiene más de 200,000 videos en 174 categorías de acción, como meter unel segundo conjunto de datos, Jester, contiene casi 150,000 videos con 27 gestos con las manos diferentes, como dar el pulgar hacia arriba o deslizar hacia la izquierda. El tercero, Charades, construido por investigadores de la Universidad Carnegie Mellon, tienecasi 10,000 videos de 157 actividades categorizadas, como llevar una bicicleta o jugar al baloncesto.

Cuando se le da un archivo de video, el módulo de los investigadores procesa simultáneamente los marcos ordenados, en grupos de dos, tres y cuatro, separados por un tiempo. Luego, rápidamente asigna una probabilidad de que la transformación del objeto en esos marcos coincida con un específicoclase de actividad. Por ejemplo, si procesa dos cuadros, donde el cuadro posterior muestra un objeto en la parte inferior de la pantalla y el anterior muestra el objeto en la parte superior, asignará una alta probabilidad a la clase de actividad, "objeto en movimiento hacia abajo. "Si un tercer cuadro muestra el objeto en el medio de la pantalla, esa probabilidad aumenta aún más, y así sucesivamente. A partir de esto, aprende las características de transformación de objetos en los cuadros que más representan una determinada clase de actividad.

anuncio

Actividades de reconocimiento y previsión

En las pruebas, una CNN equipada con el nuevo módulo reconoció con precisión muchas actividades utilizando dos cuadros, pero la precisión aumentó al muestrear más cuadros. Para Jester, el módulo logró una precisión máxima del 95 por ciento en reconocimiento de actividad, superando a varios modelos existentes.

Incluso acertó en clasificaciones ambiguas: algo, algo, por ejemplo, incluía acciones como "pretender abrir un libro" versus "abrir un libro". Para discernir entre los dos, el módulo solo probó algunos fotogramas clave más, que reveló, por ejemplo, una mano cerca de un libro en un cuadro temprano, luego en el libro, luego se alejó del libro en un cuadro posterior.

Algunos otros modelos de reconocimiento de actividad también procesan fotogramas clave pero no consideran las relaciones temporales en los fotogramas, lo que reduce su precisión. Los investigadores informan que su módulo TRN casi duplica la precisión sobre esos modelos de fotogramas clave en ciertas pruebas.

El módulo también superó a los modelos en el pronóstico de una actividad, dados los marcos limitados. Después de procesar el primer 25 por ciento de los marcos, el módulo alcanzó una precisión de varios puntos porcentuales más que un modelo de referencia. Con el 50 por ciento de los marcos, alcanzó 10 a 40precisión porcentual más alta. Los ejemplos incluyen determinar que un papel se rasgaría un poco, en función de cómo se colocan las dos manos sobre el papel en los primeros cuadros, y predecir que una mano levantada, mostrada hacia adelante, se deslizaría hacia abajo.

"Eso es importante para las aplicaciones de robótica", dice Zhou. "Desea que [un robot] anticipe y pronostique lo que sucederá desde el principio, cuando realice una acción específica".

Luego, los investigadores apuntan a mejorar la sofisticación del módulo. El primer paso es implementar el reconocimiento de objetos junto con el reconocimiento de actividad. Luego, esperan agregar "física intuitiva", lo que significa ayudarlo a comprender las propiedades físicas de los objetos en el mundo real ".sabemos mucho de la física dentro de estos videos, podemos entrenar el módulo para aprender tales leyes físicas y usarlas para reconocer nuevos videos ", dice Zhou." También abrimos el código y los modelos de código abierto. La comprensión de la actividad es un área emocionante deinteligencia artificial en este momento "

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Instituto de Tecnología de Massachusetts . Original escrito por Rob Matheson. Nota: El contenido puede ser editado por estilo y longitud.

Cita esta página :

Instituto de Tecnología de Massachusetts. "Ayudando a las computadoras a llenar los espacios entre los cuadros de video: el sistema de aprendizaje automático reconoce eficientemente las actividades observando cómo cambian los objetos en solo unos pocos cuadros clave". ScienceDaily. ScienceDaily, 13 de septiembre de 2018. .

Massachusetts Institute of Technology. 2018, 13 de septiembre. Ayudando a las computadoras a llenar los espacios entre los cuadros de video: el sistema de aprendizaje automático reconoce de manera eficiente las actividades al observar cómo cambian los objetos en solo unos pocos cuadros clave. ScienceDaily . Recuperado el 21 de julio de 2020 de www.science-things.com/releases/2018/09/180913134545.htm

Instituto de Tecnología de Massachusetts. "Ayudando a las computadoras a llenar los espacios entre los cuadros de video: el sistema de aprendizaje automático reconoce las actividades de manera eficiente al observar cómo cambian los objetos en solo unos pocos cuadros clave". ScienceDaily. Www.science-things.com/releases/2018/09/180913134545.htm consultado el 21 de julio de 2020.

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Ayudando a las computadoras a llenar los espacios entre los cuadros de video

El sistema de aprendizaje automático reconoce eficientemente las actividades al observar cómo cambian los objetos en solo unos pocos fotogramas clave

1

2

3

4

5

1

2

3

4

5

Nueva investigación de la luz más antigua confirma la edad del universo

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Las primeras imágenes del Orbitador Solar revelan 'fogatas' en el sol

Prueba de sangre innovadora detecta el resultado positivo de COVID-19 en 20 minutos

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

matar el coronavirus con un dispositivo portátil de luz ultravioleta puede ser factible

Creado 'neurotransistor artificial'

prediciendo su personalidad a partir de los datos de su teléfono inteligente

Robot Jaws muestra que el chicle medicado podría ser el futuro

Campo magnético de una galaxia espiral

Los científicos descubren que los volcanes en Venus todavía están activos

¿Podrían las mini-Neptunas ser planetas oceánicos irradiados?

Estimuladores espinales reutilizados para restaurar el tacto en la extremidad perdida

El brazalete 3D con detección de manos señala el futuro de la tecnología portátil

Las poderosas manos similares a las de los humanos crean interacciones humano-robóticas más seguras

Excitación cuántica encontrada en material magnético Van Der Waals NiPS3

El dispositivo atomtrónico podría sondear el límite entre los mundos cuánticos y cotidianos

Los cristales 'parpadeantes' pueden convertir CO2 en combustibles