Os preços da Text-to-Speech se baseiam no número de caracteres enviados para que o serviço os sintetize em áudio a cada mês. Ative o faturamento para usar a Text-to-Speech. Você receberá uma cobrança automaticamente se o uso exceder o número de caracteres gratuitos permitidos por mês. Para informações sobre como acompanhar os totais de caracteres, consulte Como monitorar o uso da API. O preço é calculado por caractere.
O número total de caracteres na string de entrada é contabilizado para faturamento, incluindo os espaços e caracteres de nova linha. Todas as tags da Linguagem de marcação de síntese de fala (SSML, na sigla em inglês), exceto a tag <mark>, também são incluídas na contagem de caracteres.
A mais recente evolução da nossa tecnologia Text-to-Speech, que oferece controle granular sobre o áudio gerado usando comandos baseados em texto.
Modelo | Limite de uso gratuito | Preço após o limite de uso gratuito |
---|---|---|
TTS do Gemini 2.5 Flash | Indisponível | Tokens de entrada: US$ 0,50 por 1 milhão de tokens de texto (sku: 242A-EA16-C1EC) Tokens de saída: US$ 10,00 por 1 milhão de tokens de áudio* (sku: 9228-79EF-B162) |
Gemini 2.5 Pro TTS | Indisponível | Tokens de entrada: US$ 1,00 por 1 milhão de tokens de texto (sku: 8FF1-7E5B-5BB7) Tokens de saída: US$ 20,00 por 1 milhão de tokens de áudio* (sku: DCF3-CB17-8262) |
* Os tokens de áudio correspondem a 25 tokens por segundo de áudio
Com tecnologia dos nossos LLMs de ponta, nossos modelos mais recentes de TTS oferecem um nível incomparável de realismo e ressonância emocional prontos para uso em todos os casos de uso.
Modelo | Limite de uso gratuito | Preço após o limite de uso gratuito |
---|---|---|
Vozes Chirp 3: HD (sku:F977-2280-6F1B) | 0 a 1 milhão de caracteres | US$0,00003 por caractere (US$30 por 1 milhão de caracteres) |
(sku:A247-37D7-C094) | Indisponível | US$0,00006 por caractere (US$60 por 1 milhão de caracteres) |
Modelo | Limite de uso gratuito | Preço após o limite de uso gratuito |
---|---|---|
Vozes WaveNet (sku:9D01-5995-B545) | 0 a 4 milhões de caracteres | US$0,000004 por caractere (US$4 por 1 milhão de caracteres) |
Vozes de estúdio (sku:84AB-48C0-F9C3) | 0 a 1 milhão de caracteres | US$0,00016 por caractere (US$160 por 1 milhão de caracteres) |
Vozes padrão (sku:9D01-5995-B545) | 0 a 4 milhões de caracteres | US$ 0,000004 por caractere (US$4 por 1 milhão de caracteres) |
Vozes Neural2 (sku:FEBD-04B6-769B) | 0 a 1 milhão de caracteres | US$ 0,000016 por caractere (US$ 16 por 1 milhão de caracteres) |
Vozes Polyglot (pré-lançamento) (sku:FEBD-04B6-769B) | 0 a 1 milhão de caracteres | US$ 0,000016 por caractere (US$ 16 por 1 milhão de caracteres) |
Observação: para as vozes WaveNet e Standard, o número de caracteres será igual ou menor que o número de bytes representado pelo texto. Isso inclui caracteres alfanuméricos, pontuação e espaços em branco. Alguns conjuntos de caracteres usam mais que um byte para um caractere. Por exemplo, cada caractere em japonês (ja-JP) em UTF-8 geralmente necessita de mais de um byte. Nesse caso, você é cobrado por apenas um caractere, não por vários bytes.
Se você usar outros recursos do Google Cloud acoplados à Text-to-Speech (como instâncias do Google App Engine), também receberá cobranças pelo uso desses serviços. Consulte a calculadora de preços do Google Cloud para determinar outros custos com base nas taxas atuais.