El equipo de investigación ha desarrollado el método de modelos de filtro de fuente neural NSF para la síntesis de voz de alta velocidad y alta calidad. Esta técnica, que combina los algoritmos recientes de aprendizaje profundo y un modelo clásico de producción del habla que se remonta a1960, es capaz no solo de generar formas de onda de voz de alta calidad, muy parecidas a la voz humana, sino también de llevar a cabo un aprendizaje estable a través de redes neuronales.
Hasta la fecha, muchos sistemas de síntesis de voz han adoptado el enfoque de codificador de voz, un método para sintetizar formas de onda de voz que se usa ampliamente en redes de teléfonos celulares y otras aplicaciones. Sin embargo, la calidad de las formas de onda de voz sintetizadas por estos métodos ha sido inferior ael de la voz humana. En 2016, una influyente compañía de tecnología en el extranjero propuso WaveNet, un método de síntesis de voz basado en algoritmos de aprendizaje profundo, y demostró la capacidad de sintetizar formas de onda de voz de alta calidad que se asemejan a la voz humana.El inconveniente de WaveNet es la estructura extremadamente compleja de sus redes neuronales, que exigen grandes cantidades de datos de voz para el aprendizaje automático y requieren el ajuste de parámetros y otros procedimientos laboriosos de prueba y error que se repiten muchas veces antes de que se puedan obtener predicciones precisas.
Uno de los vocoders más conocidos es el vocoder de filtro fuente que se desarrolló en la década de 1960 y sigue siendo de uso generalizado en la actualidad. El equipo de investigación del NII infundió el método de codificador de fuente convencional con algoritmos modernos de redes neuronales para desarrollar una nueva técnica para sintetizar formas de onda de voz de alta calidad que se asemejan a la voz humanaEntre las ventajas de esto filtro fuente neuralEl método NSF es la estructura simple de sus redes neuronales, que requieren solo aproximadamente 1 hora de datos de voz para el aprendizaje automático y pueden obtener resultados predictivos correctos sin una amplia sintonización de parámetros. Además, las pruebas de audición a gran escala han demostrado que las formas de onda del hablaproducidos por técnicas NSF son comparables en calidad a los generados por WaveNet.
Debido a que la base teórica de NSF difiere de las tecnologías patentadas utilizadas por influyentes empresas de TIC en el extranjero, es probable que la adopción de técnicas NSF estimule nuevos avances tecnológicos en la síntesis de voz. Por esta razón, se ha creado el código fuente que implementa el método NSFdisponible al público sin costo, lo que permite que sea ampliamente utilizado.
El código fuente, los modelos NSF capacitados y las muestras de voz sintetizadas por NSF reales tanto en japonés como en inglés están disponibles en los siguientes sitios :
Código fuente :
http://github.com/nii-yamagishilab/project-CURRENNT-public
Modelos entrenados puede ejecutarse para generar voces en inglés :
http://github.com/nii-yamagishilab/project-CURRENNT-scripts
muestras de voz japonés o inglés :
Fuente de la historia :
Materiales proporcionado por Organización de Investigación de Información y Sistemas . Nota: El contenido puede ser editado por estilo y longitud.
Referencia del diario :
Cita esta página :