Cualquiera que alguna vez haya usado una máquina de escribir recordará la dificultad de corregir una palabra mal escrita o mal elegida, ¿recuerda la falta de definición y la cinta de corrección?
Ahora, la tecnología desarrollada por los científicos informáticos de la Universidad de Princeton puede hacer para grabaciones de audio de la voz humana lo que hizo el software de procesamiento de palabras para la palabra escrita
El software, llamado VoCo, proporciona un medio fácil para agregar o reemplazar una palabra en una grabación de audio de una voz humana editando una transcripción de la grabación. Las nuevas palabras se sintetizan automáticamente en la voz del hablante, incluso si no aparecenen cualquier otro lugar de la grabación.
El sistema, que utiliza un algoritmo sofisticado para aprender y recrear el sonido de una voz en particular, algún día podría facilitar la edición de podcasts y narraciones en videos. En términos más generales, la tecnología podría proporcionar un punto de partida para crear voces robóticas personalizadas quesuena natural.
"VoCo ofrece un vistazo a una tecnología muy práctica para editar pistas de audio, pero también es un presagio para futuras tecnologías que permitirán que la voz humana se sintetice y automatice de manera notable", dijo Adam Finkelstein, profesor de informáticaciencia en Princeton.
Zeyu Jin, un estudiante graduado de Princeton asesorado por Finkelstein, presentará el trabajo en la conferencia SIGGRAPH de la Association for Computing Machinery en julio. El trabajo en Princeton fue financiado por el Project X Fund, que proporciona financiación inicial a los ingenieros para la realización de proyectos especulativosLos investigadores de Princeton colaboraron con los científicos Gautham Mysore, Stephen DiVerdi y Jingwan Lu en Adobe Research.
El equipo describió el desarrollo de VoCo en un documento que se publicará en la edición de julio de la revista Transacciones en gráficos . El equipo de investigación ha publicado una preimpresión del documento, así como un video que muestra el proyecto y ejemplos de voces sintetizadas en sus páginas web.
En la pantalla de una computadora, la interfaz de usuario de VoCo es similar a otro software de edición de audio como el popular programa de edición de podcasts Audacity o el programa de edición de música de Apple GarageBand. Ofrece visualización de la forma de onda de la pista de audio y un conjunto de cortar, copiar ypegue herramientas para editar. Sin embargo, a diferencia de otros programas, VoCo también aumenta la forma de onda con una transcripción de texto de la pista y permite al usuario reemplazar o insertar nuevas palabras que aún no existen en la pista simplemente escribiendo la transcripción.el usuario escribe la nueva palabra, VoCo actualiza la pista de audio, sintetizando automáticamente la nueva palabra uniendo fragmentos de audio de otras partes de la narración.
"Actualmente, los editores de audio pueden cortar fragmentos de una pista de narración y mover un clip de un lugar a otro. Sin embargo, si desea agregar una palabra que no existe en la grabación, es posible solo a través de un trabajo minucioso"Proceso de prueba y error de búsqueda de pequeños fragmentos de audio que podrían encajar lo suficientemente bien como para formar la palabra", dijo Finkelstein. "VoCo automatiza el proceso de búsqueda y costura, y produce resultados que suenan incluso mejor que los creados manualmente por expertos en audio"
En el corazón de VoCo hay un algoritmo de optimización que busca la grabación de voz y elige las mejores combinaciones posibles de sonidos de palabras parciales, llamados "fonemas", para construir nuevas palabras en la voz del usuario. Para hacer esto, no solo necesitaencuentra los fonemas individuales, pero también encuentra secuencias de ellos que se unen sin transiciones abruptas, así como los ajusta en la oración existente para que la nueva palabra se mezcle sin problemas. Las palabras se pronuncian con diferente énfasis y entonación dependiendo de dónde caigan.una oración, por lo que el contexto es importante.
Para obtener pistas sobre este contexto, VoCo busca una pista de audio de la oración que se sintetiza automáticamente en voz artificial a partir de la transcripción del texto, una que suena robótica para los oídos humanos. Esta grabación se utiliza como punto de referencia en la construcción denueva palabra. VoCo luego combina las piezas de sonido de la grabación de voz humana real para que coincida con la palabra en la pista sintetizada, una técnica conocida como "conversión de voz", que inspiró el nombre del proyecto VoCo.
En caso de que la palabra sintetizada no sea correcta, VoCo ofrece a los usuarios varias versiones de la palabra para elegir. El sistema también proporciona un editor avanzado para modificar el tono y la duración, lo que permite a los usuarios expertos pulir aún más la pista.
Para probar qué tan efectivo fue su sistema al producir ediciones de sonido auténticas, los investigadores pidieron a las personas que escucharan un conjunto de pistas de audio, algunas de las cuales habían sido editadas con VoCo y otras que eran completamente naturales. Las versiones completamente automatizadas se confundieron congrabaciones reales más del 60 por ciento de las veces.
Jin, cuya investigación se centra en el audio y el aprendizaje automático, dijo que las tecnologías de conversión de voz son prometedoras para una gama de aplicaciones más allá de la edición de pistas de audio. Por ejemplo, las personas que han perdido la voz debido a una lesión o enfermedad podrían recrear sus vocesa través de un sistema robótico.
"Se nos acercó un hombre que tiene una enfermedad neurodegenerativa y solo puede hablar a través de un sistema de texto a voz controlado por sus párpados", dijo Jin. "La voz suena robótica, como el sistema utilizado por Steven Hawking, pero quieresu pequeña hija para escuchar su verdadera voz. Algún día podría ser posible analizar grabaciones pasadas de él hablando y creó un dispositivo de asistencia que habla con su propia voz ".
En el lado más claro, Jin dijo que la conversión de voz podría usarse para recuperar las voces perdidas hace mucho tiempo de personajes icónicos de dibujos animados como Bugs Bunny o Popeye. Estas voces, y las de actores famosos o figuras históricas, podrían usarsepara crear narraciones para nuevas películas, o incluso integrarse en asistentes personales inteligentes automáticos como Siri de Apple o Alexa de Amazon.
Los investigadores de Princeton actualmente están refinando el algoritmo VoCo para mejorar la capacidad del sistema de integrar las palabras sintetizadas de manera más fluida en las pistas de audio. También están trabajando para expandir las capacidades del sistema para crear frases más largas o incluso oraciones completas sintetizadas a partir de la voz de un narrador.
Finkelstein dijo que el software de edición como VoCo plantea preguntas importantes sobre cómo tratar el contenido digital cuando sabemos que puede haber sido modificado para cambiar su significado ". Esta pregunta llegó a la vanguardia de la fotografía hace décadas con la llegada del software de edición de imagen digitalcomo Adobe Photoshop ", dijo.
Dijo que la aparición de una edición de fotos rápida y fácil condujo a largas discusiones sobre la fiabilidad de las fotos en las noticias. Incluso antes de que la edición digital estuviera disponible, los fotógrafos expertos tenían muchos trucos para modificar sus impresiones, pero los nuevos programas lo hicieron más rápido y fácily no requirió el mismo grado de experiencia.
"Hoy damos por sentado que las fotos se pueden editar, y juzgamos las fotos con un poco más de escepticismo", dijo. "Entendemos que existe una responsabilidad periodística adjunta a las fotos".
Dijo que ahora está sucediendo la misma discusión con el audio digital. Los editores han podido modificar durante mucho tiempo los archivos de audio para limpiar una pista de audio, y podrían elegir cambiar su significado, por ejemplo, simplemente eliminando la palabra "no".Pero dijo que los programas como VoCo, al hacer que el proceso sea más fácil, probablemente generarán preocupaciones
"Esta herramienta seguramente alimentará la conversación sobre el audio que fue precedida por una conversación sobre fotos", dijo Finkelstein. "Muy pronto, será seguida por una conversación sobre video".
Fuente de la historia :
Materiales proporcionados por Universidad de Princeton, Escuela de Ingeniería . Nota: El contenido puede ser editado por estilo y longitud.
Cite esta página :