Noticias de ciencia

de organizaciones de investigación

Prestar atención a las palabras, no solo a las imágenes, conduce a mejores títulos de imágenes

Fecha :: 17 de marzo de 2016
Fuente :: Universidad de Rochester
Resumen :: Los investigadores están desarrollando el mejor enfoque para crear subtítulos de imágenes generadas por computadora. ¿La clave de su enfoque? Pensar en las palabras, lo que significan y cómo encajan en la estructura de una oración, tanto como pensar en la imagen misma.
Compartir :

HISTORIA COMPLETA

Un equipo de investigadores de la Universidad y Adobe está superando a otros enfoques para crear subtítulos de imágenes generados por computadora en una competencia internacional. ¿La clave de su enfoque ganador? ¿Pensar en palabras, qué significan y cómo encajan en la estructura de una oración?tanto como pensar en la imagen misma.

anuncio

El modelo Rochester / Adobe combina los dos enfoques que se usan a menudo en los subtítulos de imágenes: el enfoque "de arriba hacia abajo", que comienza desde la "esencia" de la imagen y luego la convierte en palabras, y el "de abajo hacia arriba""enfoque, que primero asigna palabras a diferentes aspectos de la imagen y luego las combina para formar una oración.

El modelo Rochester / Adobe actualmente está superando a Google, Microsoft, Baidu / UCLA, la Universidad de Stanford, la Universidad de California Berkeley, la Universidad de Toronto / Montreal y otros para encabezar la tabla de clasificación en una competencia de subtítulos de imágenes organizada por Microsoft, llamada MicrosoftCOCO Image Captioning Challenge. Si bien el ganador de la competencia de un año aún no se ha determinado, el sistema de "Atención" de Rochester, o ATT en la clasificación, ha liderado el campo desde noviembre pasado.

Otros grupos también han tratado de combinar estos dos métodos al tener un mecanismo de retroalimentación que permite que un sistema mejore lo que uno de los enfoques podría hacer. Sin embargo, varios sistemas que intentaron combinar estos dos enfoques se centraron en "atención visual ", que trata de tener en cuenta qué partes de una imagen son visualmente más importantes para describir mejor la imagen.

El sistema Rochester / Adobe se enfoca en lo que los investigadores describen como "atención semántica". En un artículo aceptado por la Conferencia IEEE 2016 sobre Reconocimiento de Visión y Patrón por Computadora CVPR, titulado "Subtítulos de imágenes con atención semántica", profesor de ciencias de la computaciónJiebo Luo y sus colegas definen la atención semántica como "la capacidad de proporcionar una descripción detallada y coherente de objetos semánticamente importantes que se necesitan exactamente cuando se necesitan".

"Para describir una imagen, debe decidir a qué prestar más atención", dijo Luo. "No se trata solo de lo que está en el centro de la imagen o de un objeto más grande, sino también de encontrar una forma dedecidir sobre la importancia de palabras específicas "

Por ejemplo, tome una imagen que muestre una mesa y personas sentadas. La mesa podría estar en el centro de la imagen, pero un título mejor podría ser "un grupo de personas sentadas alrededor de una mesa" en lugar de "una mesa con personas sentadas"Ambos son correctos, pero el primero también trata de tener en cuenta lo que podría ser de interés para los lectores y espectadores".

El subtitulado de imágenes por computadora reúne dos áreas clave en inteligencia artificial: la visión por computadora y el procesamiento del lenguaje natural. Por el lado de la visión por computadora, los investigadores entrenan sus sistemas en un conjunto de datos masivo de imágenes, para que aprendan a identificar objetos en imágenes. Los modelos de lenguaje puedenluego se usará para unir estas palabras. Para el algoritmo que Luo y su equipo usaron en su sistema, también entrenaron su sistema en muchos textos. El objetivo no solo era comprender la estructura de las oraciones sino también el significado de las palabras individuales, qué palabrasa menudo se usan junto con estas palabras, y qué palabras podrían ser semánticamente más importantes.

El documento relacionado se puede encontrar en línea en http://arxiv.org/abs/1603.03925 . El equipo de Rochester / Adobe está formado por Luo; el estudiante de doctorado Quanzeng You; y sus colaboradores de Adobe, Hailin Jin, Zhaowen Wang y Chen Fang. Presentarán este trabajo como "Spotlight" a la comunidad de visión por computadora en elEl CVPR 2016 se llevará a cabo en Las Vegas a fines de junio de 2016.

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Universidad de Rochester . Nota: El contenido puede ser editado por estilo y longitud.

Cite esta página :

Universidad de Rochester. "Prestar atención a las palabras y no solo a las imágenes conduce a mejores títulos de imágenes". ScienceDaily. ScienceDaily, 17 de marzo de 2016. .

Universidad de Rochester. 2016, 17 de marzo. Prestar atención a las palabras, no solo a las imágenes, conduce a mejores títulos de imágenes. ScienceDaily . Recuperado el 14 de julio de 2020 de www.science-things.com/releases/2016/03/160317105631.htm

Universidad de Rochester. "Prestar atención a las palabras y no solo a las imágenes conduce a mejores títulos de imágenes". ScienceDaily. Www.science-things.com/releases/2016/03/160317105631.htm consultado el 14 de julio de 2020.

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Prestar atención a las palabras, no solo a las imágenes, conduce a mejores títulos de imágenes

1

2

3

4

5

1

2

3

4

5

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Las enanas blancas revelan nuevas ideas sobre el origen del carbono en el universo

Mayor concentración de metal en los cráteres de la luna proporciona nuevas ideas sobre su origen

Los mejores y peores materiales para máscaras

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Los investigadores crean un filtro de aire que puede matar el coronavirus

Los efectos del uso de teléfonos inteligentes en la crianza de los hijos

Terapia administrada electrónicamente más eficaz que cara a cara

¿Cómo corre el riesgo de contraer un virus en un avión?

El flash fugaz es el resplandor óptico más distante de la explosión de rayos gamma jamás detectado

La inteligencia artificial predice qué sistemas planetarios sobrevivirán

Enorme 'Superflare' detectado en estrella cercana

Un sistema de realidad virtual basado en Raspberry Pi para animales pequeños

Un nuevo camino para la óptica de electrones en sistemas de estado sólido

El robot acuático inalámbrico podría limpiar el agua y transportar células

Creado 'neurotransistor artificial'

Robot Jaws muestra que el chicle medicado podría ser el futuro

Los científicos crean un nuevo dispositivo para iluminar el camino para las tecnologías cuánticas