Los avances en la tecnología de la comunicación han tenido un gran impacto en todo tipo de industrias, pero tal vez ninguno más grande que en educación. Ahora, cualquier persona de todo el mundo puede escuchar en vivo una conferencia del Premio Nobel o ganar créditos de las universidades más prestigiosas sin nadamás que el acceso a Internet. Sin embargo, la posible información que se obtiene al ver y escuchar en línea se pierde si el público no puede entender el idioma del profesor. Para resolver este problema, los científicos del Instituto Nara de Ciencia y Tecnología NAIST, Japón, presentó una solución con el nuevo aprendizaje automático en la 240ª reunión del Grupo de Interés Especial de Procesamiento del Lenguaje Natural, Sociedad de Procesamiento de la Información de Japón IPSJ SIG-NL.
Los sistemas de traducción automática han hecho que sea notablemente simple que alguien solicite indicaciones para llegar a su hotel en un idioma que nunca antes había escuchado o visto. A veces, los sistemas pueden cometer errores divertidos e inocentes, pero en general logran una comunicación coherente, al menos por poco tiempoPor lo general, intercambian solo una o dos oraciones. En el caso de una presentación que puede extenderse más allá de una hora, por ejemplo, una conferencia académica, son mucho menos robustas.
"NAIST tiene un 20% de estudiantes extranjeros y, aunque la cantidad de clases de inglés se está expandiendo, las opciones que tienen estos estudiantes están limitadas por su habilidad en japonés", explica el profesor de NAIST Satoshi Nakamura, quien dirigió el estudio.
El grupo de investigación de Nakamura adquirió 46.5 horas de videos de conferencias archivadas de NAIST con sus transcripciones y traducciones al inglés, y desarrolló un sistema basado en el aprendizaje profundo para transcribir el discurso de la conferencia japonesa y traducirlo al inglés. Mientras miraban los videos, los usuarios veían subtítulosen japonés e inglés que coincidían con el discurso del profesor.
Uno podría esperar que la salida ideal sería traducciones simultáneas que podrían hacerse con presentaciones en vivo. Sin embargo, las traducciones en vivo limitan el tiempo de procesamiento y, por lo tanto, la precisión.
"Debido a que estamos poniendo videos con subtítulos en los archivos, encontramos mejores traducciones al crear subtítulos con un tiempo de procesamiento más largo", dice.
El material de archivo utilizado para la evaluación consistió en conferencias de robótica, procesamiento de voz e ingeniería de software. Curiosamente, la tasa de error de palabras en el reconocimiento de voz se correlacionó con la deficiencia en el discurso de los profesores. Otro factor de las diferentes tasas de error fue la duración detiempo de hablar sin pausa. El corpus utilizado para la capacitación aún era insuficiente y debería desarrollarse más para futuras mejoras.
"Japón quiere aumentar sus estudiantes internacionales y NAIST tiene una gran oportunidad de ser un líder en este esfuerzo. Nuestro proyecto no solo mejorará la traducción automática, sino que también traerá mentes brillantes al país", continuó.
Fuente de la historia :
Materiales proporcionados por Instituto Nara de Ciencia y Tecnología . Nota: El contenido puede ser editado por estilo y longitud.
Cita esta página :