Cloud Text-to-Speech
Conversão de texto em voz com tecnologia de machine learning.
Faça uma avaliação gratuita Consulte a documentaçãoSíntese de fala de alta fidelidade
A Google Cloud Text-to-Speech converte texto de mais de 30 idiomas e variações em fala e conta com mais de 180 vozes. Ela aplica a pesquisa inovadora sobre síntese de fala (WaveNet) e as redes neurais avançadas do Google para oferecer áudio de alta fidelidade. Com a API fácil de usar, é possível criar interações realistas com os usuários e transformar o atendimento ao cliente e a interação com dispositivos e outros aplicativos.
Converta seu texto em voz agora mesmo
Digite o que você quer ouvir, selecione um idioma e clique em “Falar”.
Desenvolvido com a tecnologia de machine learning do Google
Aplique os algoritmos de redes neurais de aprendizado profundo para sintetizar o texto em uma variedade de vozes e idiomas. Nossas redes neurais foram desenvolvidas com base na experiência de síntese de fala do Google.
Seleção entre mais de 180 vozes
A Google Cloud Text-to-Speech oferece uma seleção de mais de 180 vozes em 30 idiomas e variações. Assim, os desenvolvedores podem escolher a voz que funciona melhor com o aplicativo que eles criaram.
Inclui acesso exclusivo à tecnologia WaveNet
A DeepMind fez uma pesquisa inovadora sobre modelos de machine learning para gerar uma fala que imita as vozes e os sons humanos de maneira mais natural. O resultado foi um desempenho 70% mais próximo ao humano. O Cloud Text-to-Speech oferece acesso exclusivo a mais de 90 vozes do WaveNet e continuará a adicionar mais vozes.
Integração fácil com aplicativos e dispositivos
O Cloud Text-to-Speech é compatível com todos os aplicativos ou dispositivos que podem enviar uma solicitação REST ou gRPC, incluindo smartphones, PCs, tablets e dispositivos de Internet das Coisas (IoT, na sigla em inglês), como automóveis, TVs e alto-falantes.
Compatibilidade com vários casos de uso comuns
A Google Cloud Text-to-Speech, como toda API fácil de usar, é uma solução flexível para criar experiências naturais para diversos casos de uso. Os casos de uso comuns incluem automatização de call centers, respostas interativas de dispositivos de IoT ou a conversão de texto para consumo como áudio.
Recursos do Cloud Text-to-Speech
- Multilíngue
- Compatível com 180 vozes em mais de 30 idiomas e variações. Serão feitas mais adições em breve.
- Vozes do WaveNet
- Acesso multilíngue exclusivo às vozes do WaveNet da DeepMind, com fala mais natural.
- Compatibilidade com texto e SSML
- Personalize a fala com tags SSML que permitem adicionar pausas, números, datas, formatação de tempo e outras instruções de pronúncia.
- Ajuste da taxa de fala
- Personalize a taxa de fala para aumentar ou reduzir a velocidade da taxa normal em até quatro vezes.
- Ajuste de tom
- Personalize o tom da voz selecionada em até 20 semitons acima ou abaixo da saída padrão.
- Controle do ganho de volume
- Aumente o volume da saída em até 16 dB ou reduza-o para até -96 dB.
- Flexibilidade no formato de áudio
- Escolha entre inúmeros formatos de áudio, incluindo mp3, Linear16 e Ogg Opus.
- Perfis de áudio
- Otimize para o tipo de alto-falante em que a fala será reproduzida, como fones de ouvido ou telefones.
Preços do Cloud Text-to-Speech
Síntese de fala de alta fidelidade
O Cloud Text-to-Speech é cobrado por cada um milhão de caracteres de texto processado, após o limite gratuito inicial de um milhão de caracteres. Para mais detalhes, consulte o nosso guia de preços.
| Recurso | Nível gratuito mensal | Uso pago |
|---|---|---|
| Vozes padrão (não WaveNet) | 0 a 4 milhões de caracteres | USD 4,00 / 1 milhão de caracteres |
| Vozes do WaveNet | 0 a 1 milhão de caracteres | USD 16,00 / 1 milhão de caracteres |