Teste o Gemini 3, nosso melhor modelo para raciocínio, programação e compreensão multimodal na plataforma de agentes do Gemini Enterprise

Text-to-Speech

IA da API Text-to-Speech

Converta texto em fala com som natural usando uma API desenvolvida com as melhores tecnologias de IA do Google.

Novos clientes ganham até US$ 300 em créditos para testar a Text-to-Speech e outros produtos do Google Cloud.

Ofereça aos usuários respostas inteligentes, realistas e com vozes de IA naturais
Crie interfaces de voz para apps com conversão de texto em voz integrada
Personalize sua comunicação e áudio com base nas preferências de voz e idioma do usuário

Saiba como criar vozes sintéticas usando a API Text-to-Speech

Iniciar laboratório autoguiado

Vantagens

Fala de alta fidelidade

Implante as tecnologias inovadoras do Google para gerar voz com entonação similar à humana. Criada com base na experiência em síntese de fala da DeepMind, a API proporciona vozes com qualidades semelhantes às humanas.

Seleção de voz mais ampla

Escolha entre as mais de 380 vozes em mais de 75 idiomas e variantes, incluindo árabe, espanhol, hindi, mandarim, russo e outros. Escolha a voz que combina mais com seu usuário e aplicativo.

Voz exclusiva

Crie uma voz exclusiva para representar sua marca em todos os pontos de contato com o cliente, em vez de usar uma voz comum compartilhada com outras organizações.

Demonstração

Coloque a API Text-to-Speech em ação

Digite o que você quer ouvir, selecione um idioma e clique em "Falar".

Principais recursos

Gemini-TTS

Sintetize falas de um ou vários locutores, de pequenos trechos a narrativas completas, sem perder a contextualidade. Você pode ditar o estilo, o sotaque, o ritmo, o tom e as emoções com comandos simples de linguagem natural em mais de 75 idiomas. Acesse o Media Studio ou confira nossa documentação para saber mais.

Chirp 3: vozes em alta definição

Crie agentes carismáticos usando as novas vozes de conversação espontânea baseadas no AudioML. Elas oferecem áudio de alta qualidade, streaming de baixa latência e fala com som natural, incorporando hesitações humanas, emoções e entonação precisa. Acesse o Media Studio ou confira nossa documentação para saber mais.

Chirp 3: voz personalizada instantânea

Crie modelos de voz personalizados com apenas 10 segundos de entrada de áudio. Perfeito para videogames, audiolivros, podcasts e muito mais. Disponível em mais de 30 locais. Acesse o Media Studio ou confira nossa documentação para saber mais.

Compatibilidade com comandos, textos e SSML

Controle a formatação de números e horários, a entrega, a pronúncia e a emoção usando scripting de texto simples, tags de SSML ou até mesmo comandos avançados de linguagem natural avançados, dependendo da compatibilidade do modelo. Acesse o Media Studio ou confira nossa documentação para saber mais.

O que há de novo

Inscreva-se na newsletter do Google Cloud para receber atualizações de produtos, informações sobre eventos, ofertas especiais e muito mais.

Arte vetorial de pessoas dizendo "Olá" em diferentes idiomas

Blog post

A API Cloud Text-to-Speech do Google agora aceita vozes personalizadasLeia o post do blog

Pessoa segurando um smartphone, mostrando um audiolivro criado com conversão de texto em voz

Video

Como converter PDFs em audiolivros usando machine learningAssista ao vídeo

esboço demonstrando uma conversa desenvolvida com tecnologia de IA com a Contact Center AI

Blog post

A IA de conversação otimiza a experiência dos clientesLeia o post do blog

Mulher segurando um celular e falando nele

Video

Soluções para promover a acessibilidade de chamadas telefônicas com a Speech-to-Text e a Text-to-SpeechAssista ao vídeo

Legenda de idiomas e vozes do Cloud Text-to-Speech acima de fileiras de, aproximadamente, 25 bandeiras do mundo

Blog post

Novas vozes e idiomas para a API Text-to-SpeechLeia o post do blog

Documentação

Quickstart

Gemini-TTS

Saiba como controlar de maneira precisa a síntese de voz com o Gemini-TTS, usando comandos em linguagem natural para ditar o estilo, o tom, o ritmo e as emoções.

Quickstart

Visão geral do Chirp 3: vozes em alta definição

Aprenda a sintetizar falas realistas e cheias de emoção usando o Chirp 3: vozes em alta definição e ajuste de áudio com controles avançados e práticas recomendadas de scripting.

Quickstart

Visão geral do Chirp 3: voz personalizada instantânea

Crie modelos de voz personalizados e exclusivos para sua organização usando apenas 10 segundos de gravações de áudio. Com esse recurso, você consegue gerar vozes pessoais rapidamente.

Tutorial

Como transformar endereços em áudio usando SSML

Aprenda a usar a Linguagem de Marcação de Síntese de Fala (SSML, na sigla em inglês) para transformar um arquivo de texto com endereços em áudio.

Google Cloud Basics

Noções básicas sobre a API Text-to-Speech

Um guia para os conceitos fundamentais do uso da API Text-to-Speech.

Google Cloud Basics

Vozes e idiomas compatíveis

Procure por guias e recursos deste produto.

Não encontrou o que procura?

Notas de lançamento

Leia sobre as atualizações mais recentes da Text-to-Speech

Casos de uso

Caso de uso

Bots de voz em centrais de atendimento

Ofereça uma experiência de voz melhor para o atendimento ao cliente com voicebots no Customer Experience Agent Studio que geram falas dinamicamente, em vez de reproduzir áudio estático pré-gravado. Interaja com vozes sintetizadas de alta qualidade que proporcionam aos autores da chamada uma sensação de familiaridade e personalização.

Fluxo da API Google Cloud Speech-to-Text

Caso de uso

Geração de voz em dispositivos

Tenha comunicações naturais com seus usuários, capacitando seus dispositivos a gerar vozes semelhantes às humanas como um leitor de texto. Crie uma interface do usuário de voz completa junto com as APIs Speech-to-Text e Natural Language para aprimorar a experiência do usuário com interações simples e interessantes.

Voz para texto com dispositivos e fluxo de IoT

Caso de uso

EPGs (guias de programação eletrônica) acessíveis

Os EPGs podem ler o texto em voz alta para fornecer uma melhor experiência de usuário aos seus clientes e cumprir com os requisitos de acessibilidade nos seus serviços e aplicativos. Faça uma demonstração do EPG.

Implemente com facilidade o recurso de conversão de texto em voz nos EPGs para oferecer uma melhor experiência de usuário aos clientes e cumprir com os requisitos de acessibilidade nos seus serviços e aplicativos.

Todos os recursos

Síntese de áudio de streaming	Potencialize seus agentes de IA com fala de latência ultrabaixa para conversas de qualidade em tempo real com o recurso de síntese de áudio de streaming.
Síntese de áudios longos	Sintetize até 1 milhão de bytes de entrada de maneira assíncrona com o recurso de síntese de áudios longos.
Seleção de voz e idioma	Escolha entre uma ampla seleção com mais de 380 vozes em mais de 75 idiomas e variantes, além de diversos outros recursos que vamos adicionar em breve.
Compatibilidade com texto e SSML	Personalize sua fala com tags SSML que permitem incluir pausas números, formatação de data e hora, e outras instruções de pronúncia.
Ajuste de tom	Personalize o tom da sua voz selecionada em até 20 semitons acima ou abaixo do padrão.
Ajuste da taxa de fala	Aumente ou diminua a velocidade da sua fala em até quatro vezes.
Controle do ganho de volume	Aumente o volume da saída em até 16 dB ou reduza em até -96 dB.
APIs REST e gRPC integradas	É fácil interagir com qualquer aplicativo ou dispositivo que possa enviar uma solicitação REST ou gRPC, incluindo celulares, PCs, tablets e dispositivos de IoT, como carros, TVs e alto-falantes.
Flexibilidade no formato de áudio	Converta texto em MP3, Linear16, OGG Opus e vários outros formatos de áudio.
Perfis de áudio	Otimize para o tipo de alto-falante em que a fala será reproduzida, como fones de ouvido ou telefones.

Preços

Os preços da Text-to-Speech se baseiam no número de caracteres enviados a cada mês para que o serviço os sintetize em áudio. O primeiro milhão de caracteres para vozes WaveNet a cada mês não tem custos financeiros. Para vozes padrão (sem ser WaveNet), os primeiros 4 milhões de caracteres mensais não têm custos financeiros. Depois que esses limites são atingidos, a Text-to-Speech é cobrada a cada um milhão de caracteres de texto processado.

Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Google Cloud.

Vá além

Clientes novos ganham US$ 300 em créditos para testar a Text-to-Speech e outros produtos do Google Cloud.

Precisa de ajuda para começar?
Entre em contato com a equipe de vendas
Trabalhe com parceiros de confiança
Encontre um parceiro
Continuar navegação
Ver todos os produtos

IA da API Text-to-Speech

Fala de alta fidelidade

Seleção de voz mais ampla

Voz exclusiva

Coloque a API Text-to-Speech em ação

Principais recursos

Gemini-TTS

Chirp 3: vozes em alta definição

Chirp 3: voz personalizada instantânea

Compatibilidade com comandos, textos e SSML

O que há de novo

Documentação

Gemini-TTS

Visão geral do Chirp 3: vozes em alta definição

Visão geral do Chirp 3: voz personalizada instantânea

Como transformar endereços em áudio usando SSML

Noções básicas sobre a API Text-to-Speech

Vozes e idiomas compatíveis

Não encontrou o que procura?

Consulte mais documentos

Casos de uso

Bots de voz em centrais de atendimento

Geração de voz em dispositivos

EPGs (guias de programação eletrônica) acessíveis

Todos os recursos

Preços

Vá além

Precisa de ajuda para começar?

Trabalhe com parceiros de confiança

Continuar navegação