Os preços da Text-to-Speech se baseiam no número de caracteres enviados para que o serviço os sintetize em áudio a cada mês. Ative o faturamento para usar a Text-to-Speech. Você receberá uma cobrança automaticamente se o uso exceder o número de caracteres sem custo financeiro permitidos por mês. Para informações sobre como acompanhar os totais de caracteres, consulte Como monitorar o uso da API. O preço é calculado por caractere.
O número total de caracteres na string de entrada é contabilizado para faturamento, incluindo os espaços e caracteres de nova linha. Todas as tags da Linguagem de marcação de síntese de fala (SSML, na sigla em inglês), exceto a tag <mark>, também são incluídas na contagem de caracteres.
A mais recente evolução da nossa tecnologia Text-to-Speech, que oferece controle granular sobre o áudio gerado usando comandos baseados em texto.
Modelo | Limite de uso sem custo financeiro | Preço após o limite de uso sem custo financeiro |
|---|---|---|
Gemini 2.5 Flash TTS Gemini 2.5 Flash-Lite Preview TTS | Indisponível | Tokens de entrada: US$ 0,50 por 1 milhão de tokens de texto* (sku: 242A-EA16-C1EC) Tokens de saída: US$ 10,00 por 1 milhão de tokens de áudio* (sku: 9228-79EF-B162) |
Gemini 3.1 Flash TTS (pré-lançamento) | Indisponível | Tokens de entrada: US$ 1,00 por 1 milhão de tokens de texto* (sku: EB3F-1051-05D7) Tokens de saída: US$ 20,00 por 1 milhão de tokens de áudio* (sku: 7976-330B-8F17) |
Gemini 2.5 Pro TTS | Indisponível | Tokens de entrada: US$ 1,00 por 1 milhão de tokens de texto* (sku: 8FF1-7E5B-5BB7) Tokens de saída: US$ 20,00 por 1 milhão de tokens de áudio* (sku: DCF3-CB17-8262) |
* Os tokens de áudio correspondem a 25 tokens por segundo de áudio
Com a tecnologia dos nossos LLMs de ponta, nossos modelos de TTS mais recentes oferecem um nível incomparável de realismo e resposta emocional prontos para uso em todos os casos de uso.
Modelo | Limite de uso sem custo financeiro | Preço após o limite de uso sem custo financeiro |
|---|---|---|
Vozes Chirp 3: HD (sku:F977-2280-6F1B) | 0 a 1 milhão de caracteres | US$0,00003 por caractere (US$30 por 1 milhão de caracteres) |
(sku:A247-37D7-C094) | Indisponível | US$0,00006 por caractere (US$60 por 1 milhão de caracteres) |
Modelo | Limite de uso sem custo financeiro | Preço após o limite de uso sem custo financeiro |
|---|---|---|
Vozes WaveNet (sku:9D01-5995-B545) | 0 a 4 milhões de caracteres | US$0,000004 por caractere (US$4 por 1 milhão de caracteres) |
Vozes de estúdio (sku:84AB-48C0-F9C3) | 0 a 1 milhão de caracteres | US$0,00016 por caractere (US$160 por 1 milhão de caracteres) |
Vozes padrão (sku:9D01-5995-B545) | 0 a 4 milhões de caracteres | US$ 0,000004 por caractere (US$4 por 1 milhão de caracteres) |
Vozes Neural2 (sku:FEBD-04B6-769B) | 0 a 1 milhão de caracteres | US$ 0,000016 por caractere (US$ 16 por 1 milhão de caracteres) |
Vozes Polyglot (pré-lançamento) (sku:FEBD-04B6-769B) | 0 a 1 milhão de caracteres | US$ 0,000016 por caractere (US$ 16 por 1 milhão de caracteres) |
Observação: para as vozes WaveNet e Standard, o número de caracteres será igual ou menor que o número de bytes representado pelo texto. Isso inclui caracteres alfanuméricos, pontuação e espaços em branco. Alguns conjuntos de caracteres usam mais que um byte para um caractere. Por exemplo, cada caractere em japonês (ja-JP) em UTF-8 geralmente necessita de mais de um byte. Nesse caso, você é cobrado por apenas um caractere, não por vários bytes.
Se você usar outros recursos do Google Cloud acoplados à Text-to-Speech (como instâncias do Google App Engine), também receberá cobranças pelo uso desses serviços. Consulte a calculadora de preços do Google Cloud para determinar outros custos com base nas taxas atuais.