O Text-to-Speech gera áudio com qualidade natural e semelhante a humana, que cria uma fala que soa como uma pessoa real. Para começar, especifique uma voz ao enviar uma solicitação de síntese.
O Text-to-Speech oferece várias vozes com base no idioma, gênero e sotaque. Alguns idiomas têm várias opções. Para conferir a lista completa, consulte a página Vozes disponíveis. Para selecionar uma voz, use o campo VoiceSelectionParams
na solicitação da API. Consulte os Guias de início rápido para instruções sobre como fazer uma solicitação synthesize
.
Visão geral
Tipo de voz | Destinado a | Etapa do lançamento | Controlabilidade | Streaming | |
---|---|---|---|---|---|
Vozes do Chirp em alta definição |
Agentes de conversa
|
Visualizar | - | Sim | |
Studio | Dois alto-falantes grupo |
Mídia: discussões e entrevistas
|
Experimental | - | - |
Um orador pessoa |
Mídia: narração
|
GA | SSML | - | |
Neural2 |
Uso geral
|
GA | SSML | - | |
Padrão |
Custo-benefício
|
GA | SSML | - |
Vozes HD do Chirp
As vozes Chirp HD são geradas pelo mecanismo AudioLM. Com as vozes HD do Chirp, você pode criar falas mais envolventes e empáticas para apps de conversação. Com o streaming de texto, as vozes do Chirp HD produzem comunicação em tempo real com baixa latência e oferecem suporte aos idiomas listados na tabela de vozes compatíveis.
Experiências de chat
Voz: en-US-Chirp-HD-F
Outros exemplos
Assistentes virtuais
en-US-Chirp-HD-D
Chatbots de atendimento ao cliente
en-US-Chirp-HD-F
Aplicativos educacionais interativos
en-US-Chirp-HD-O
Vendas e pitches de venda
en-US-Chirp-HD-D
Hora de história
en-US-Chirp-HD-F
Vozes de estúdio para vários alto-falantes
Crie discussões e entrevistas com as novas vozes de estúdio para vários alto-falantes, que são baseadas na mesma tecnologia das vozes do Chirp HD.
Vozes de estúdio
As vozes de estúdio são projetadas para leitura de notícias e conteúdo de transmissão.
Exemplo 1. A voz de en-US-Studio-O
lendo o Great Gatsby.
Vozes Neural2
A API Text-to-Speech oferece um nível de voz chamada Neural2. As vozes Neural2 são baseadas na mesma tecnologia usada para criar uma Voz personalizada. Com o Neural2, qualquer pessoa pode usar a tecnologia de voz personalizada, sem treinar a própria voz. Eles estão disponíveis em endpoints globais e de região única.
Exemplo 1. Voz Neural2
Vozes padrão
As vozes oferecidas pelo Text-to-Speech diferem na forma como são produzidas: a tecnologia de fala sintética usada para criar o modelo de máquina da voz. Uma tecnologia de fala comum, a conversão paramétrica de texto em voz, normalmente gera dados de áudio pela passagem das saídas por algoritmos de processamento de sinais conhecidos como vocoders. Muitas das vozes padrão disponíveis no Text-to-Speech usam uma variação dessa tecnologia.