Noticias de ciencia

de organizaciones de investigación

Nuevo método para la síntesis a alta velocidad de voces naturales

El modelo de filtro fuente neural utiliza redes neuronales para actualizar los métodos clásicos de síntesis de voz

Fecha :: 5 de febrero de 2019
Fuente :: Organización de Investigación de Información y Sistemas
Resumen :: El equipo de investigación ha desarrollado el método de modelos de filtro de fuente neural NSF para la síntesis de voz de alta velocidad y alta calidad. Esta técnica, que combina los algoritmos recientes de aprendizaje profundo y un modelo clásico de producción del habla que se remonta a1960, es capaz no solo de generar formas de onda de voz de alta calidad, muy parecidas a la voz humana, sino también de llevar a cabo un aprendizaje estable a través de redes neuronales.
Compartir :

HISTORIA COMPLETA

El equipo de investigación ha desarrollado el método de modelos de filtro de fuente neural NSF para la síntesis de voz de alta velocidad y alta calidad. Esta técnica, que combina los algoritmos recientes de aprendizaje profundo y un modelo clásico de producción del habla que se remonta a1960, es capaz no solo de generar formas de onda de voz de alta calidad, muy parecidas a la voz humana, sino también de llevar a cabo un aprendizaje estable a través de redes neuronales.

anuncio

Hasta la fecha, muchos sistemas de síntesis de voz han adoptado el enfoque de codificador de voz, un método para sintetizar formas de onda de voz que se usa ampliamente en redes de teléfonos celulares y otras aplicaciones. Sin embargo, la calidad de las formas de onda de voz sintetizadas por estos métodos ha sido inferior ael de la voz humana. En 2016, una influyente compañía de tecnología en el extranjero propuso WaveNet, un método de síntesis de voz basado en algoritmos de aprendizaje profundo, y demostró la capacidad de sintetizar formas de onda de voz de alta calidad que se asemejan a la voz humana.El inconveniente de WaveNet es la estructura extremadamente compleja de sus redes neuronales, que exigen grandes cantidades de datos de voz para el aprendizaje automático y requieren el ajuste de parámetros y otros procedimientos laboriosos de prueba y error que se repiten muchas veces antes de que se puedan obtener predicciones precisas.

Uno de los vocoders más conocidos es el vocoder de filtro fuente que se desarrolló en la década de 1960 y sigue siendo de uso generalizado en la actualidad. El equipo de investigación del NII infundió el método de codificador de fuente convencional con algoritmos modernos de redes neuronales para desarrollar una nueva técnica para sintetizar formas de onda de voz de alta calidad que se asemejan a la voz humanaEntre las ventajas de esto filtro fuente neuralEl método NSF es la estructura simple de sus redes neuronales, que requieren solo aproximadamente 1 hora de datos de voz para el aprendizaje automático y pueden obtener resultados predictivos correctos sin una amplia sintonización de parámetros. Además, las pruebas de audición a gran escala han demostrado que las formas de onda del hablaproducidos por técnicas NSF son comparables en calidad a los generados por WaveNet.

Debido a que la base teórica de NSF difiere de las tecnologías patentadas utilizadas por influyentes empresas de TIC en el extranjero, es probable que la adopción de técnicas NSF estimule nuevos avances tecnológicos en la síntesis de voz. Por esta razón, se ha creado el código fuente que implementa el método NSFdisponible al público sin costo, lo que permite que sea ampliamente utilizado.

El código fuente, los modelos NSF capacitados y las muestras de voz sintetizadas por NSF reales tanto en japonés como en inglés están disponibles en los siguientes sitios :

Código fuente :

http://github.com/nii-yamagishilab/project-CURRENNT-public

Modelos entrenados puede ejecutarse para generar voces en inglés :

http://github.com/nii-yamagishilab/project-CURRENNT-scripts

muestras de voz japonés o inglés :

http://nii-yamagishilab.github.io/samples-nsf/index.html

marque la diferencia: oportunidad patrocinada

Fuente de la historia :

Materiales proporcionado por Organización de Investigación de Información y Sistemas . Nota: El contenido puede ser editado por estilo y longitud.

Referencia del diario :

Xin Wang, Shinji Takaki, Junichi Yamagishi. Modelo de forma de onda basada en filtro de fuente neural para síntesis de voz paramétrica estadística . enviado a arXiv , 2019 [ resumen ]

Cita esta página :

Organización de Investigación de Información y Sistemas. "Nuevo método para la síntesis a alta velocidad de voces naturales: el modelo de filtro de fuente neuronal utiliza redes neuronales para actualizar los métodos clásicos de síntesis de voz". ScienceDaily. ScienceDaily, 5 de febrero de 2019. .

Organización de Investigación de Información y Sistemas. 2019, 5 de febrero. Nuevo método para la síntesis a alta velocidad de voces naturales: el modelo de filtro de fuente neuronal utiliza redes neuronales para actualizar los métodos clásicos de síntesis de voz. ScienceDaily . Recuperado el 20 de julio de 2020 de www.science-things.com/releases/2019/02/190205102528.htm

TEMAS RELACIONADOS
- Computadoras y matemáticas

anuncio

TÉRMINOS RELACIONADOS

HISTORIAS RELACIONADAS

DE ALREDEDOR DE LA WEB

A continuación hay artículos relevantes que pueden interesarle. ScienceDaily comparte enlaces con publicaciones académicas en el red TrendMD y gana ingresos de terceros anunciantes, donde se indique.

1

2

Nuevo método para la síntesis a alta velocidad de voces naturales

El modelo de filtro fuente neural utiliza redes neuronales para actualizar los métodos clásicos de síntesis de voz

1

2

3

4

5

1

2

3

4

5

Los científicos proponen un plan para determinar si el Planeta Nueve es un agujero negro primordial

Nueva investigación de la luz más antigua confirma la edad del universo

Las primeras imágenes del Orbitador Solar revelan 'fogatas' en el sol

El mejor material para las mascarillas caseras puede ser una combinación de dos telas

Prueba de sangre innovadora detecta el resultado positivo de COVID-19 en 20 minutos

Los mejores y peores materiales para máscaras

Creado 'neurotransistor artificial'

El primer lenguaje de programación intuitivo para computadoras cuánticas

Robot Jaws muestra que el chicle medicado podría ser el futuro

¿Podrían las mini-Neptunas ser planetas oceánicos irradiados?

Separando ráfagas de rayos gamma: los estudiantes hacen un avance crítico

Cómo mueren las galaxias: nuevas ideas sobre el enfriamiento de la formación estelar

El dispositivo atomtrónico podría sondear el límite entre los mundos cuánticos y cotidianos

Evidencia de décadas de teoría antigua para explicar los comportamientos extraños del agua

Los cristales 'parpadeantes' pueden convertir CO2 en combustibles

Una GoPro para escarabajos: los investigadores crean una mochila con cámara robótica para insectos

Dando a los robots una percepción humana de sus entornos físicos

Los investigadores dan a los robots habilidades de detección inteligente para llevar a cabo tareas complejas