WaveNet e outras vozes sintéticas

O Text-to-Speech cria dados de áudio brutos de fala humana natural. Ou seja, ele cria áudio que soa como uma pessoa falando. Quando você envia uma solicitação de síntese para o Text-to-Speech, é necessário especificar uma voz que "fala" as palavras.

Há uma grande variedade de vozes personalizadas disponíveis para você escolher no Text-to-Speech. As vozes diferem por idioma, gênero e sotaque (para alguns idiomas). Alguns idiomas têm várias vozes para escolher. Veja uma lista das vozes disponíveis para a síntese de voz no Text-to-Speech na página Vozes compatíveis.

As vozes oferecidas pelo Text-to-Speech também são diferentes em relação à forma como são produzidas em relação à tecnologia de fala sintética usada para criar o modelo de máquina da voz. Uma tecnologia de fala comum, a conversão paramétrica de texto em voz, normalmente gera dados de áudio pela passagem das saídas por algoritmos de processamento de sinais conhecidos como vocoders. Muitas das vozes padrão disponíveis no Text-to-Speech usam uma variação dessa tecnologia.

Vozes WaveNet

A API Text-to-Speech também oferece um grupo de vozes premium geradas usando um modelo WaveNet, a mesma tecnologia usada para produzir voz para o Google Assistente, a Pesquisa Google e o Google Tradutor. A tecnologia WaveNet fornece mais do que apenas uma série de vozes sintéticas. Ela representa uma nova maneira de criar fala sintética.

O WaveNet gera falas que soam mais naturais do que outros sistemas de conversão de texto em voz. Ele sintetiza a fala com ênfase mais humana e mais inflexão nas sílabas, nos fonemas e nas palavras. Em geral, as pessoas preferem áudio de fala gerado pelo WaveNet em relação a outras tecnologias de conversão de texto em voz.

Gráfico que mostra que o WaveNet tem maior preferência por falantes nativos Figura 1. Gráfico que mostra uma comparação do WaveNet com outras vozes sintéticas de fala humana. Os valores do eixo y representam a pontuação média de opinião (MOS, na sigla em inglês) para cada voz. Os temas de teste classificam cada voz em uma escala de 1 a 5 de acordo com o volume da fala natural. Para mais informações sobre pontuações e MSI da tecnologia WaveNet, consulte a página DeepMind WaveNet (em inglês).

Ao contrário da maioria dos outros sistemas de conversão de texto em voz, um modelo WaveNet cria formas de onda de áudio brutas do zero. O modelo usa uma rede neural que foi treinada com o uso de um grande volume de amostras de fala. Durante o treinamento, a rede extrai a estrutura subjacente da fala, como quais tons se sucedem e a aparência de uma forma de onda de fala realista. Quando recebe uma entrada de texto, o modelo WaveNet treinado pode gerar as formas de onda de fala correspondentes do zero, uma amostra por vez, com até 24.000 amostras por segundo e transições contínuas entre os sons individuais.

Para ouvir a diferença entre um clipe de áudio gerado pelo Wavenet e um clipe gerado por outro processo de conversão de texto em voz, compare os dois clipes de áudio abaixo.


Exemplo 1. Voz de alta qualidade que não é WaveNet


Exemplo 2. Voz do WaveNet

Para saber mais sobre os modelos WaveNet, leia esta postagem do blog da DeepMind.