O Text-to-Speech gera dados de áudio com fala natural e semelhante às humanas. Ou seja, ele cria áudio que soa como uma pessoa falando. Ao enviar uma solicitação de síntese para o Text-to-Speech, é necessário especificar uma voz.
Há uma grande variedade de vozes disponíveis para você escolher no Text-to-Speech. As vozes diferem por idioma, gênero e sotaque
(para alguns idiomas). Alguns idiomas têm várias vozes para escolher. Para ver uma lista completa de vozes disponíveis no seu idioma, consulte a página Vozes disponíveis. Você pode instruir o Text-to-Speech a usar uma voz específica dessa lista definindo os campos VoiceSelectionParams
quando enviar uma solicitação para a API. Consulte os Guias de início rápido do Text-to-Speech para saber detalhes sobre como enviar uma solicitação synthesize
.
Vozes Journey (visualização)
Com as vozes de jornada, que usam o mecanismo AudioLM, você pode criar falas mais envolventes e empáticas para apps de conversação. Com o streaming de texto, a Journey Voices produz comunicação em tempo real com baixa latência e oferece suporte aos idiomas listados na tabela de vozes compatíveis.
Experiências de chat
en-US-Journey-F
Assistentes virtuais
en-US-Journey-D
Chatbots de atendimento ao cliente
en-US-Journey-F
Aplicativos educacionais interativos
en-US-Journey-O
Vendas e pitches de venda
en-US-Journey-D
Hora de história
en-US-Journey-F
Vozes casuais (pré-lançamento)
As vozes casuais foram criadas para gerenciar um diálogo imperfeito e conversacional visando natural e conforto com os usuários humanos. Eles suportam disfluências (oh, uh, um, mhm) e têm uma cadência mais natural e tom de voz.
Vozes de estúdio
As vozes de estúdio são vozes de narração projetadas para leitura de notícias e conteúdo de transmissão.
Exemplo 1. A voz de en-US-Studio-O
lendo o Great Gatsby.
Vozes Neural2
A API Text-to-Speech oferece um nível de voz chamada Neural2. As vozes Neural2 são baseadas na mesma tecnologia usada para criar uma Voz personalizada. Com o Neural2, qualquer pessoa pode usar a tecnologia de voz personalizada, sem treinar a própria voz. Eles estão disponíveis em endpoints globais e de região única.
Exemplo 1. Voz Neural2
Vozes WaveNet
A API Text-to-Speech também oferece um grupo de vozes premium geradas usando um modelo WaveNet, a mesma tecnologia usada para produzir voz para o Google Assistente, a Pesquisa Google e o Google Tradutor. A tecnologia WaveNet fornece mais do que apenas uma série de vozes sintéticas. Ela representa uma nova maneira de criar fala sintética.
O WaveNet gera falas que soam mais naturais do que outros sistemas de conversão de texto em voz. Ele sintetiza a fala com ênfase mais humana e mais inflexão nas sílabas, nos fonemas e nas palavras.
Figura 1. Gráfico que mostra uma comparação do WaveNet com outras vozes sintéticas de fala humana. Os valores do eixo y representam a pontuação média de opinião (MOS, na sigla em inglês) para cada voz. Os temas de teste classificam cada voz em uma escala de 1 a 5 de acordo com o volume da fala natural. Para mais informações sobre pontuações e MSI da tecnologia WaveNet, consulte a página DeepMind WaveNet (em inglês).
Ao contrário da maioria dos outros sistemas de conversão de texto em voz, um modelo WaveNet cria formas de onda de áudio brutas do zero. O modelo usa uma rede neural que foi treinada com o uso de um grande volume de amostras de fala. Durante o treinamento, a rede extrai a estrutura subjacente da fala, como quais tons se sucedem e a aparência de uma forma de onda de fala realista. Quando recebe uma entrada de texto, o modelo WaveNet treinado pode gerar as formas de onda de fala correspondentes do zero, uma amostra por vez, com até 24.000 amostras por segundo e transições contínuas entre os sons individuais.
Para ouvir a diferença entre um clipe de áudio gerado pelo WaveNet e um clipe gerado por outro processo de conversão de texto em voz, compare os dois clipes de áudio abaixo.
Exemplo 1. Voz de alta qualidade que não é WaveNet
Exemplo 2. Voz do WaveNet
Vozes padrão
As vozes oferecidas pelo Text-to-Speech diferem na forma como são produzidas: a tecnologia de fala sintética usada para criar o modelo de máquina da voz. Uma tecnologia de fala comum, a conversão paramétrica de texto em voz, normalmente gera dados de áudio pela passagem das saídas por algoritmos de processamento de sinais conhecidos como vocoders. Muitas das vozes padrão disponíveis no Text-to-Speech usam uma variação dessa tecnologia.