Esta página foi traduzida pela API Cloud Translation.

Vozes compatíveis

O Text-to-Speech gera áudio com qualidade natural e semelhante a humana, que cria fala que soa como uma pessoa real. Para começar, especifique uma voz ao enviar uma solicitação de síntese.

O Text-to-Speech oferece várias vozes com base no idioma, gênero e sotaque. Alguns idiomas têm várias opções. Para conferir a lista completa, consulte a página Vozes disponíveis. Para selecionar uma voz, use o campo VoiceSelectionParams na solicitação da API.

Visão geral

Tipo de voz		Destinado a	Etapa do lançamento	Controlabilidade	Streaming
Chirp 3: vozes em alta definição		Agentes de conversa	Visualizar	-	Sim
Vozes Chirp HD		Agentes de conversa	Visualizar	-	Sim
Studio	Dois alto-falantes grupo	Mídia: discussões e entrevistas	Experimental	-	-
Studio	Um orador pessoa	Mídia: narração	GA	SSML	-
Neural2		Uso geral	GA	SSML	-
Padrão		Custo-benefício	GA	SSML	-

Detalhes do preço

Chirp 3: vozes em alta definição

Chirp 3: as vozes HD são impulsionadas por tecnologia que captura nuances na entonação humana, tornando as conversas mais envolventes. Essas vozes estão disponíveis em 8 estilos distintos em vários idiomas, adequados para aplicativos padrão e em tempo real.

Vozes Chirp HD

O Chirp HD voices é alimentado pela geração mais recente dos nossos modelos de IA generativa. Com as vozes Chirp HD, você pode criar falas mais envolventes e empáticas para apps de conversação. Com o streaming de texto, as vozes Chirp HD produzem comunicação em tempo real com baixa latência e oferecem suporte aos idiomas listados na tabela de vozes compatíveis.

Experiências de chat

Voz: en-US-Chirp-HD-F

Outros exemplos

Assistentes virtuais

Voz: en-US-Chirp-HD-D

Chatbots de atendimento ao cliente

Voz: en-US-Chirp-HD-F

Aplicativos educacionais interativos

Voz: en-US-Chirp-HD-O

Vendas e pitches de venda

Voz: en-US-Chirp-HD-D

Hora de história

Voz: en-US-Chirp-HD-F

Vozes de estúdio para vários alto-falantes

Crie discussões e entrevistas com as novas vozes de estúdio para vários alto-falantes, que são baseadas na mesma tecnologia das vozes do Chirp HD.

Exemplo: vozes de vários alto-falantes do Studio

Vozes de estúdio

As vozes de estúdio são projetadas para leitura de notícias e conteúdo de transmissão.

Exemplo: a voz en-US-Studio-O lendo O Grande Gatsby.

Vozes Neural2

A API Text-to-Speech oferece um nível de voz chamada Neural2. As vozes Neural2 são baseadas na mesma tecnologia usada para criar uma Voz personalizada. Com o Neural2, qualquer pessoa pode usar a tecnologia de voz personalizada, sem treinar a própria voz. Eles estão disponíveis em endpoints globais e de região única.

Exemplo: voz Neural2

Vozes padrão

As vozes oferecidas pelo Text-to-Speech diferem na tecnologia de fala sintética usada para criar o modelo de máquina da voz. Uma tecnologia de fala comum, a conversão paramétrica de texto em voz, normalmente gera dados de áudio pela passagem das saídas por algoritmos de processamento de sinais conhecidos como vocoders. Muitas das vozes padrão disponíveis no Text-to-Speech usam uma variação dessa tecnologia.

A seguir

Consulte os Guias de início rápido para instruções sobre como fazer uma solicitação synthesize.

Vozes compatíveis Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Visão geral

Chirp 3: vozes em alta definição

Vozes Chirp HD

Experiências de chat

Outros exemplos

Assistentes virtuais

Chatbots de atendimento ao cliente

Aplicativos educacionais interativos

Vendas e pitches de venda

Hora de história

Vozes de estúdio para vários alto-falantes

Vozes de estúdio

Vozes Neural2

Vozes padrão

A seguir

Vozes compatíveis