Text-to-Speech

Converta texto em voz com som natural usando uma API desenvolvida pelas tecnologias de IA do Google.

Faça uma avaliação gratuita
  • action/check_circle_24px Criado com o Sketch.

    Melhore as interações com os clientes com respostas inteligentes e realistas

  • action/check_circle_24px Criado com o Sketch.

    Envolva os usuários com a interface do usuário de voz nos seus dispositivos e aplicativos

  • action/check_circle_24px Criado com o Sketch.

    Personalize sua comunicação com base na preferência do usuário por voz e idioma

Vantagens

Fala com alta fidelidade

Implante as tecnologias inovadoras do Google para gerar voz com entonação similar à humana. Criada com base na experiência em síntese de voz do DeepMind, a API proporciona vozes com qualidade semelhante às humanas.

Seleção de voz mais ampla

Escolha entre um grupo de mais de 220 vozes em mais de 40 idiomas e variantes. Escolha a voz que combina mais com seu usuário e aplicativo.

Voz exclusiva

Crie uma voz exclusiva para representar sua marca em todos os pontos de contato do cliente, em vez de usar uma voz comum compartilhada com outras organizações.

Demonstração

Coloque a Text-to-Speech em ação

Digite o que você quer ouvir, selecione um idioma e clique em “Falar”.

Principais recursos

Principais recursos

Voz personalizada (Beta)

Treine um modelo de síntese de fala personalizado usando suas próprias gravações de áudio para criar uma voz exclusiva e mais natural para a organização. É possível definir e escolher o perfil de voz mais adequado à sua organização e se ajustar rapidamente às mudanças, sem a necessidade de gravar novas frases. Saiba mais.

Vozes WaveNet

Aproveite as mais de 90 vozes WaveNet criadas com base na pesquisa inovadora da DeepMind para gerar discursos que trazem um resultado significativamente mais próximo ao humano.

Ajuste de voz

Personalize o tom da voz selecionada em até 20 semitons acima ou abaixo do padrão. Ajuste sua taxa de fala para aumentar ou reduzir a velocidade da taxa normal em até quatro vezes.

Compatibilidade com texto e SSML

Personalize a fala com tags SSML que permitem adicionar pausas, números, datas, formatação de tempo e outras instruções de pronúncia.

Veja todos os recursos

O que há de novo

Documentação

Documentação

Princípios básicos do Google Cloud
Noções básicas sobre Text-to-Speech

Um guia para os princípios básicos do uso da API Text-to-Speech.

Guia de início rápido
Guia de início rápido: como usar a linha de comando

Configure seu projeto e autorização do Google Cloud e faça uma solicitação para o Text-To-Speech criar áudio a partir de um texto.

Princípios básicos do Google Cloud
Vozes e idiomas compatíveis

Veja quais idiomas são compatíveis com o Text-to-Speech e ouça amostras das vozes disponíveis para cada um deles.

Princípios básicos do Google Cloud
Visão geral da voz personalizada (Beta)

Saiba como criar uma voz exclusiva e mais natural com a voz personalizada usando suas próprias gravações de áudio com qualidade de estúdio.

Tutorial
WaveNet e outras vozes sintéticas

Aprenda sobre as diferentes vozes sintéticas disponíveis para uso no Text-to-Speech, incluindo as vozes WaveNet Premium.

Tutorial
Como falar endereços com SSML

Este tutorial demonstra como usar a linguagem de marcação de síntese de fala (SSML, na sigla em inglês) para gerar falas a partir de um arquivo de texto que contém endereços.

Casos de uso

Casos de uso

Caso de uso
Bots de voz em centrais de atendimento

Proporcione uma melhor experiência no atendimento ao cliente ao gerar voz de maneira dinâmica, em vez de reproduzir áudios estáticos pré-gravados. Interaja com vozes sintetizadas de alta qualidade que proporcionam aos autores da chamada uma sensação de familiaridade e personalização.

Bots de voz na arquitetura de referência das centrais de atendimento
Caso de uso
Geração de voz em dispositivos

Permita comunicações naturais com seus usuários, capacitando seus dispositivos a gerar vozes semelhantes às humanas. Crie uma interface de usuário de voz completa em conjunto com o Speech-to-Text e melhore a experiência do usuário com interações fáceis e envolventes.

Geração de voz na arquitetura de referência de dispositivos
Caso de uso
EPGs (guias de programação eletrônica) acessíveis

Implemente com facilidade a funcionalidade de conversão de texto em voz nos EPGs para oferecer uma melhor experiência aos clientes e atender aos requisitos de acessibilidade para seus serviços e aplicativos. Teste a demonstração.

Todos os recursos

Todos os recursos

Voz personalizada (Beta) Treine um modelo de síntese de fala personalizado usando suas próprias gravações de áudio para criar uma voz exclusiva e mais natural para a organização. É possível definir e escolher o perfil de voz mais adequado à sua organização e se ajustar rapidamente às mudanças, sem a necessidade de gravar novas frases. Saiba mais.
Seleção de voz e idioma Escolha entre uma ampla seleção de mais de 220 vozes em mais de 40 idiomas e variantes. Em breve, serão feitas mais adições.
Vozes WaveNet Aproveite as mais de 90 vozes WaveNet criadas com base na pesquisa inovadora da DeepMind para gerar discursos que trazem um resultado significativamente mais próximo ao humano.
Compatibilidade com texto e SSML Personalize a fala com tags SSML que permitem adicionar pausas, números, datas, formatação de tempo e outras instruções de pronúncia.
Ajuste de tom Personalize o tom da voz selecionada em até 20 semitons acima ou abaixo do padrão.
Ajuste da taxa de fala Personalize a taxa de fala para aumentar ou reduzir a velocidade da taxa normal em até quatro vezes.
Controle do ganho de volume Aumente o volume da saída em até 16 dB ou reduza-o para até -96 dB.
API REST e gRPC integradas Faça integrações facilmente com qualquer aplicativo ou dispositivo que possa enviar uma solicitação REST ou gRPC, incluindo telefones, PCs, tablets, e dispositivos IoT, como carros, TVs e alto-falantes.
Flexibilidade no formato de áudio Escolha entre inúmeros formatos de áudio, incluindo MP3, Linear16 e Ogg Opus.
Perfis de áudio Otimize para o tipo de alto-falante em que a fala será reproduzida, como fones de ouvido ou telefones.

Preços

Preços

O Text-to-Speech é cobrado por cada um milhão de caracteres de texto processado após o Nível gratuito.

Caso o pagamento seja feito em uma moeda diferente do dólar americano, serão aplicados os preços listados na sua moeda na página SKUs do Google Cloud.