Un equipo de investigadores de la Universidad y Adobe está superando a otros enfoques para crear subtítulos de imágenes generados por computadora en una competencia internacional. ¿La clave de su enfoque ganador? ¿Pensar en palabras, qué significan y cómo encajan en la estructura de una oración?tanto como pensar en la imagen misma.
El modelo Rochester / Adobe combina los dos enfoques que se usan a menudo en los subtítulos de imágenes: el enfoque "de arriba hacia abajo", que comienza desde la "esencia" de la imagen y luego la convierte en palabras, y el "de abajo hacia arriba""enfoque, que primero asigna palabras a diferentes aspectos de la imagen y luego las combina para formar una oración.
El modelo Rochester / Adobe actualmente está superando a Google, Microsoft, Baidu / UCLA, la Universidad de Stanford, la Universidad de California Berkeley, la Universidad de Toronto / Montreal y otros para encabezar la tabla de clasificación en una competencia de subtítulos de imágenes organizada por Microsoft, llamada MicrosoftCOCO Image Captioning Challenge. Si bien el ganador de la competencia de un año aún no se ha determinado, el sistema de "Atención" de Rochester, o ATT en la clasificación, ha liderado el campo desde noviembre pasado.
Otros grupos también han tratado de combinar estos dos métodos al tener un mecanismo de retroalimentación que permite que un sistema mejore lo que uno de los enfoques podría hacer. Sin embargo, varios sistemas que intentaron combinar estos dos enfoques se centraron en "atención visual ", que trata de tener en cuenta qué partes de una imagen son visualmente más importantes para describir mejor la imagen.
El sistema Rochester / Adobe se enfoca en lo que los investigadores describen como "atención semántica". En un artículo aceptado por la Conferencia IEEE 2016 sobre Reconocimiento de Visión y Patrón por Computadora CVPR, titulado "Subtítulos de imágenes con atención semántica", profesor de ciencias de la computaciónJiebo Luo y sus colegas definen la atención semántica como "la capacidad de proporcionar una descripción detallada y coherente de objetos semánticamente importantes que se necesitan exactamente cuando se necesitan".
"Para describir una imagen, debe decidir a qué prestar más atención", dijo Luo. "No se trata solo de lo que está en el centro de la imagen o de un objeto más grande, sino también de encontrar una forma dedecidir sobre la importancia de palabras específicas "
Por ejemplo, tome una imagen que muestre una mesa y personas sentadas. La mesa podría estar en el centro de la imagen, pero un título mejor podría ser "un grupo de personas sentadas alrededor de una mesa" en lugar de "una mesa con personas sentadas"Ambos son correctos, pero el primero también trata de tener en cuenta lo que podría ser de interés para los lectores y espectadores".
El subtitulado de imágenes por computadora reúne dos áreas clave en inteligencia artificial: la visión por computadora y el procesamiento del lenguaje natural. Por el lado de la visión por computadora, los investigadores entrenan sus sistemas en un conjunto de datos masivo de imágenes, para que aprendan a identificar objetos en imágenes. Los modelos de lenguaje puedenluego se usará para unir estas palabras. Para el algoritmo que Luo y su equipo usaron en su sistema, también entrenaron su sistema en muchos textos. El objetivo no solo era comprender la estructura de las oraciones sino también el significado de las palabras individuales, qué palabrasa menudo se usan junto con estas palabras, y qué palabras podrían ser semánticamente más importantes.
El documento relacionado se puede encontrar en línea en http://arxiv.org/abs/1603.03925 . El equipo de Rochester / Adobe está formado por Luo; el estudiante de doctorado Quanzeng You; y sus colaboradores de Adobe, Hailin Jin, Zhaowen Wang y Chen Fang. Presentarán este trabajo como "Spotlight" a la comunidad de visión por computadora en elEl CVPR 2016 se llevará a cabo en Las Vegas a fines de junio de 2016.
Fuente de la historia :
Materiales proporcionado por Universidad de Rochester . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :