WaveNet y otras voces sintéticas

Con Text-to-Speech, creas datos de audio sin procesar de voz humana natural. Es decir, se crea audio que suena como la voz de una persona. Cuando envías una solicitud de síntesis a Text-to-Speech, debes especificar una voz que “diga” las palabras.

Hay una amplia selección de voces personalizadas disponibles para que elijas en Text-to-Speech. Las voces son de géneros distintos y hablan en diferentes idiomas y acentos (para algunos idiomas). Algunos idiomas tienen varias voces para elegir. Puedes ver una lista de las voces disponibles para síntesis de voz en la página de voces compatibles de Text-to-Speech.

Las voces que se ofrecen en Text-to-Speech también pueden diferir en la forma en que se producen, es decir, la tecnología de voz sintética que se usa para crear el modelo de máquina de la voz. Una tecnología de voz común es la síntesis de texto a voz paramétrica, que normalmente pasa los resultados por algoritmos de procesamiento de señales, conocidos como vocoders, para generar los datos de audio. Muchas de las voces estándar disponibles en Text-to-Speech usan una variación de esta tecnología.

Voces generadas por WaveNet

La API de Text-to-Speech también ofrece un grupo de voces premium que se generan con un modelo de WaveNet, la misma tecnología que se usa para producir la voz del Asistente de Google, la Búsqueda de Google y Google Traductor. La tecnología de WaveNet no solo ofrece una serie de voces sintéticas, sino que representa una nueva forma de crearlas.

WaveNet genera una voz que tiene un sonido más natural que las de los demás sistemas de texto a voz. Sintetiza voces con un énfasis y una entonación en las sílabas, fonemas y palabras más parecidos al del habla humana. En promedio, WaveNet produce audio de voces que las personas prefieren; en comparación con otras tecnologías de síntesis de texto a voz.

En el gráfico, se muestra que WaveNet tiene la preferencia más alta por hablantes nativos Figura 1. Gráfico que muestra la comparación de WaveNet con otras voces sintéticas y la voz humana. Los valores del eje y representan la puntuación de la puntuación promedio de referencia (MOS) para cada voz. Los temas de prueba clasifican cada voz en una escala del 1 al 5, según el sonido que pareciera como voz natural. Para obtener más información acerca de las puntuaciones del MOS y la tecnología de WaveNet, consulta la página DeepMind WaveNet.

A diferencia de la mayoría de los demás sistemas de texto a voz, un modelo de WaveNet crea formas de onda de audio sin procesar desde cero. El modelo usa una red neuronal que se entrenó con una gran cantidad de muestras de voz. Durante el entrenamiento, la red extrae la estructura subyacente de la voz, como qué tonos van detrás de otros y cómo luce una forma de onda de voz real. Cuando se le proporciona una entrada de texto, el modelo entrenado de WaveNet puede generar las formas de onda de voz correspondientes desde cero, una muestra a la vez, con hasta 24,000 muestras por segundo y transiciones fluidas entre los sonidos individuales.

Para escuchar la diferencia entre un clip de audio generado con WaveNet y uno generado con otro tipo de proceso de texto a voz, compara los siguientes dos audios.


Ejemplo 1. Voz de alta calidad sin el uso de WaveNet


Ejemplo 2. Voz de WaveNet

Para obtener más información acerca de los modelos de WaveNet, lee esta entrada de blog de DeepMind.