Custo de criação e implantação de modelos de IA na Vertex AI
Os preços são indicados em dólares americanos (US$). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
Você só paga pelas solicitações que retornam um código de resposta 200. As solicitações que retornam outros códigos de resposta, como códigos 4xx e 5xx, não são cobradas pela entrada ou saída.
Nesta página, você encontra informações sobre os preços da IA generativa na Vertex AI. Para todos os outros preços da Vertex AI, incluindo os serviços ML Platform e MLOps, consulte a página de preços da Vertex AI.
Modelos do Google
Gemini 3
| Modelo | Tipo | Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada | Preço (por 1 milhão de tokens) > 200 mil tokens de entrada | Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada em cache | Preço (por 1 milhão de tokens) > 200 mil tokens de entrada em cache | Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada com API em lote | Preço (por 1 milhão de tokens) > 200 mil tokens de entrada com API em lote |
|---|---|---|---|---|---|---|---|
| Pré-lançamento do Gemini 3 Pro | |||||||
| Entrada (texto, imagem, vídeo, áudio) | US$ 2 | US$ 4 | US$ 0,20 | US$ 0,40 | US$ 1 | US$ 2 | |
| Saída de texto (resposta e raciocínio) | US$ 12 | US$ 18 | N/A | N/A | US$ 6 | US$ 9 | |
| Saída de imagem** | US$ 120 | N/A | N/A | N/A | US$ 60 | N/A | |
| Embasamento com a Pesquisa Google e embasamento na Web para empresas |
O Gemini 3 Pro inclui 5.000 consultas de pesquisa por mês sem custo financeiro adicional. As consultas de pesquisa que excederem esses limites serão cobradas a US$14 por 1.000 consultas de pesquisa. Uma solicitação enviada por um cliente ao Gemini pode resultar em uma ou mais consultas à Pesquisa Google (ou Web Grounding para Enterprise). Você vai pagar por cada consulta de pesquisa individual realizada. O faturamento vai começar em 5 de janeiro de 2026. Os tokens de entrada fornecidos pelo Grounding com a Pesquisa Google ou pelo Web Grounding para empresas não são cobrados. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||||||
| Embasamento com o Google Maps |
O Gemini 3 Pro inclui 5.000 consultas de pesquisa por mês sem custo financeiro adicional. Consultas do Maps que excederem esses limites serão cobradas a US$14 por 1.000 consultas. Uma solicitação enviada por um cliente ao Gemini pode resultar em uma ou mais consultas ao Google Maps. Você vai receber uma cobrança por cada consulta individual realizada. O faturamento vai começar em 5 de janeiro de 2026 |
||||||
| Embasamento com seus dados | US$ 2,50 por 1.000 solicitações. | ||||||
* Se um contexto de entrada de consulta for maior que 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
** Uma imagem de saída de 1K (1024 x 1024) e 2K (2048 x 2048) consome 1.120 tokens de saída de imagem, o que equivale a US $0,134/imagem gerada. Uma imagem 4K (4096 x 4096) consome 2.000 tokens de saída de imagem, o que equivale a US $0,24 por imagem gerada.
Gemini 2.5
| Modelo | Tipo | Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada | Preço (por 1 milhão de tokens) > 200 mil tokens de entrada | Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada em cache | Preço (por 1 milhão de tokens) > 200 mil tokens de entrada em cache | Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada com API em lote | Preço (por 1 milhão de tokens) > 200 mil tokens de entrada com API em lote |
|---|---|---|---|---|---|---|---|
| Gemini 2.5 Pro | |||||||
| Entrada (texto, imagem, vídeo, áudio) | US$ 1,25 | US$ 2,5 | US$ 0,125 | US$ 0,250 | US$ 0,625 | US$ 1,25 | |
| Saída de texto (resposta e raciocínio) | US$ 10 | US$ 15 | N/A | N/A | US$ 5 | US$ 7,50 | |
| Gemini 2.5 Pro Uso em computadores – pré-lançamento |
|||||||
| Entrada (texto, imagem, vídeo, áudio) | US$ 1,25 | US$ 2,5 | N/A | N/A | N/A | N/A | |
| Saída de texto (resposta e raciocínio) | US$ 10,00 | US$ 15,00 | N/A | N/A | N/A | N/A | |
Gemini 2.5 Flash |
|||||||
| Entrada (texto, imagem, vídeo) | US$ 0,30 | US$ 0,30 | US$ 0,030 | US$ 0,030 | US$ 0,15 | US$ 0,15 | |
| Entrada de áudio | US$ 1 | US$ 1 | US$ 0,100 | US$ 0,100 | US$ 0,5 | US$ 0,5 | |
| Saída de texto (resposta e raciocínio) | US$ 2,50 | US$ 2,50 | N/A | N/A | US$ 1,25 | US$ 1,25 | |
| Saída de imagem*** | US$ 30 | US$ 30 | N/A | N/A | US$ 15 | US$ 15 | |
API Gemini 2.5 Flash Live |
|||||||
| 1 milhão de tokens de texto de entrada | US$ 0,5 | US$ 0,5 | N/A | N/A | N/A | N/A | |
| 1 milhão de tokens de áudio de entrada | US$ 3 | US$ 3 | N/A | N/A | N/A | N/A | |
| 1 milhão de tokens de entrada de vídeo/imagem | US$ 3 | US$ 3 | N/A | N/A | N/A | N/A | |
| 1 milhão de tokens de texto de saída | US$ 2 | US$ 2 | N/A | N/A | N/A | N/A | |
| 1 milhão de tokens de áudio de saída | US$ 12 | US$ 12 | N/A | N/A | N/A | N/A | |
Gemini 2.5 Flash Lite |
|||||||
| Entrada (texto, imagem, vídeo) | US$ 0,10 | US$ 0,10 | US$ 0,010 | US$ 0,010 | US$ 0,05 | US$ 0,05 | |
| Entrada de áudio | US$ 0,3 | US$ 0,3 | US$ 0,030 | US$ 0,030 | US$ 0,15 | US$ 0,15 | |
| Saída de texto (resposta e raciocínio) | US$ 0,40 | US$ 0,40 | N/A | N/A | US$ 0,20 | US$ 0,20 | |
Embasamento com a Pesquisa Google |
O Gemini 2.0 Flash, 2.5 Flash e 2.5 Flash-Lite incluem um total de 1.500 comandos fundamentados por dia sem custo financeiro adicional. O Gemini 2.5 Pro inclui 10 mil comandos fundamentados por dia sem custo adicional. Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados. Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google**. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||||||
Embasamento na Web para empresas |
US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas**. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||||||
| Embasamento com seus dados | US$ 2,50 por 1.000 solicitações. | ||||||
| Embasamento com o Google Maps | US$25 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz pelo menos uma consulta ao Google Maps. |
||||||
* Se um contexto de entrada de consulta for maior que 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
** O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.
*** Uma imagem de 1024 x 1024 consome 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
**** O faturamento do uso do computador usa a SKU do Gemini 2.5 Pro para separar os custos de uso do computador e aplicar tags de faturamento. Saiba
mais aqui.
- Explicação da cobrança da janela de contexto da sessão da LiveAPI: você recebe cobranças por turno por todos os tokens presentes na janela de contexto da sessão. A janela de contexto da sessão inclui novos tokens (turno atual) + todos os tokens acumulados de turnos anteriores. Isso significa que os tokens de turnos anteriores são reprocessados e considerados em cada novo turno, até o tamanho da janela de contexto configurada. Um "turno" é uma entrada do usuário e a resposta do modelo.
- Modo de áudio proativo: quando ativado, os tokens de entrada são cobrados enquanto a LiveAPI está ouvindo. Os tokens de saída só são cobrados quando a API responde.
- Quando a transcrição de áudio para texto está ativada, todos os tokens de texto gerados para transcrição são cobrados na taxa de saída de tokens de texto.
Gemini 2.0
O Gemini 2.0 é cobrado com base em tokens. Para calcular o número de tokens de entrada na solicitação antes de enviá-la, use o SDK tokenizer ou a API countTokens. Se a solicitação falhar com um erro 400 ou 500, você não vai receber cobranças pelos tokens usados.
Use a opção na tabela de preços para comparar os preços baseados em tokens e os preços baseados em modalidade.
Preços baseados em token
| Modelo | Tipo | Preço | Preço com a API Batch | ||
|---|---|---|---|---|---|
Gemini 2.0 Flash |
|||||
| 1 milhão de tokens de entrada | US$ 0,15 | US$ 0,075 | |||
| 1 milhão de tokens de áudio de entrada | US$ 1,00 | US$ 0,50 | |||
| 1 milhão de tokens de texto de saída | US$ 0,60 | US$ 0,30 | |||
| Ajuste para 1 milhão de tokens de treinamento | US$ 3,00 | ||||
Geração de imagens do Gemini 2.0 Flash |
|||||
| 1 milhão de tokens de entrada | US$ 0,15 | ||||
| 1 milhão de tokens de áudio de entrada | US$ 1,00 | ||||
| 1 milhão de tokens de vídeo de entrada | US$ 3 | ||||
| 1 milhão de tokens de texto de saída | US$ 0,60 | ||||
| 1 milhão de tokens de imagem de saída | US$ 30,00 | ||||
API Gemini 2.0 Flash Live |
|||||
| 1 milhão de tokens de texto de entrada | US$ 0,5 | ||||
| 1 milhão de tokens de áudio de entrada | US$ 3 | ||||
| 1 milhão de tokens de entrada de vídeo/imagem | US$ 3 | ||||
| 1 milhão de tokens de texto de saída | US$ 2 | ||||
| 1 milhão de tokens de áudio de saída | US$ 12 | ||||
Gemini 2.0 Flash Lite |
|||||
| 1 milhão de tokens de entrada | US$ 0,075 | US$ 0,0375 | |||
| 1 milhão de tokens de áudio de entrada | US$ 0,075 | US$ 0,0375 | |||
| 1 milhão de tokens de texto de saída | US$ 0,30 | US$ 0,15 | |||
| Ajuste para 1 milhão de tokens de treinamento | US$ 1,00 | ||||
Embasamento com a Pesquisa Google |
O Gemini 2.0 Flash e o 2.5 Flash incluem um total de 1.500 comandos fundamentados por dia sem custo adicional. Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados. Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||||
Embasamento na Web para empresas |
US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||||
| Embasamento com seus dados | US$ 2,50 por 1.000 solicitações a partir de 16 de junho de 2025. | ||||
Embasamento com o Google Maps |
Os modelos do Gemini incluem vários comandos fundamentados diários sem custo extra: Comandos fundamentados que excedem esses limites são cobrados a US$25 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz pelo menos uma consulta ao Google Maps. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||||
Preços com base na modalidade
Os preços de modalidade abaixo são baseados em casos de uso médios apenas para referência. O faturamento real será baseado apenas em tokens:
- 4 caracteres resultam em aproximadamente 1 token de texto, incluindo espaços em branco.
- Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
- A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. O vídeo com áudio é cobrado pelos tokens de vídeo e de áudio.
- A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.
| Modelo | Tipo | Preço | Preço com a API Batch |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| Texto de entrada (US$/M de caracteres) | US$ 0,0375 | US$ 0,01875 | |
| Imagem de entrada (US$/imagem) | US$ 0,0001935 | US$ 0,00009675 | |
| Vídeo de entrada (US$/segundo) | US$ 0,0000387 | US$ 0,00001935 | |
| Áudio de entrada (US$/segundo) | US$ 0,000025 | US$ 0,0000125 | |
| Texto de saída (US$/M de caracteres) | US$ 0,15 | US$ 0,075 | |
Geração de imagens do Gemini 2.0 Flash |
|||
| Texto de entrada (US$/M de caracteres) | US$ 0,0375 | ||
| Imagem de entrada (US$/imagem) | US$ 0,0001935 | ||
| Vídeo de entrada (US$/segundo) | US$ 0,0000387 | ||
| Áudio de entrada (US$/segundo) | US$ 0,000025 | ||
| Texto de saída (US$/M de caracteres) | US$ 0,15 | ||
| Imagem de saída ($/imagem) | US$ 0,04 | ||
Gemini 2.0 Flash Lite |
|||
| Texto de entrada (US$/M de caracteres) | US$ 0,01875 | US$ 0,009375 | |
| Imagem de entrada (US$/imagem) | US$ 0,00009675 | US$ 0,000048375 | |
| Vídeo de entrada (US$/segundo) | US$ 0,00001935 | US$ 0,000009675 | |
| Áudio de entrada (US$/segundo) | US$ 0,000001875 | US$ 0,000000938 | |
| Texto de saída (US$/M de caracteres) | US$ 0,075 | US$ 0,0375 | |
Embasamento com a Pesquisa Google |
O Gemini 2.0 Flash e o 2.5 Flash incluem um total de 1.500 comandos fundamentados por dia sem custo adicional. Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados. Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||
Embasamento na Web para empresas |
US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||
* Os preços estão em dólares americanos (USD).
Se você não paga em dólar americano, valem os preços na sua moeda local listados na página
SKUs do Cloud Platform.
* Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de períodos.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
* O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.
* API Gemini 2.0 Flash Live: 25 tokens por segundo de áudio (entrada/saída), 258 tokens por segundo de vídeo (entrada). O embasamento com a Pesquisa Google continua sem custo financeiro enquanto a API Gemini 2.0 Flash Live estiver em pré-lançamento.
- Explicação da cobrança da janela de contexto da sessão da LiveAPI: você recebe cobranças por turno por todos os tokens presentes na janela de contexto da sessão. A janela de contexto da sessão inclui novos tokens (turno atual) + todos os tokens acumulados dos turnos anteriores. Isso significa que os tokens de turnos anteriores são reprocessados e contabilizados em cada novo turno, até o tamanho da janela de contexto configurada. Um "turno" é uma entrada do usuário e a resposta do modelo.
- Quando a transcrição de áudio para texto está ativada, todos os tokens de texto gerados para transcrição são cobrados na taxa de saída de tokens de texto.
Preços do otimizador de modelos da Vertex AI (experimental)*
O Vertex AI Model Optimizer simplifica o uso do Gemini para clientes corporativos, fornecendo um único metaendpoint para solicitações de modelo do Gemini. Os clientes que usam esse serviço não precisam especificar se vão usar o Flash, o Pro ou uma versão específica. Em vez disso, eles simplesmente fornecem uma configuração ajustável (custo, qualidade ou equilíbrio) para indicar suas preferências, e o Model Optimizer aplica o nível certo de inteligência apropriado para a tarefa enviando cada consulta ao modelo mais adequado.
O otimizador de modelos da Vertex AI aplica preços dinâmicos. Isso significa que o preço médio por token depende do nível de inteligência do modelo aplicado para concluir a tarefa. Por esse motivo, exemplos de preços são fornecidos abaixo para ilustrar cenários prováveis com base na sua configuração (consulte as tabelas abaixo). As SKUs do Model Optimizer são SKUs de US $1 que funcionam como uma unidade de compra para aplicar ao seu faturamento. Você ainda será cobrado com base no consumo depois de usar os modelos.
| Proporção de E/S de 5:1 | Exemplo 1: chatbot |
OBSERVAÇÃO: esses intervalos não são garantias, e os resultados individuais dos clientes podem variar | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Preferência do cliente | Tokens de entrada do cliente enviados para o MO | Tokens de saída do cliente enviados para o MO | Preço médio de entrada por milhão de tokens (faixa alta) | Preço médio de saída por milhão de tokens (faixa alta) | Preço médio de entrada por milhão de tokens (faixa baixa) | Preço médio de saída por milhão de tokens (faixa baixa) | |||||
| Custo | 10.000.000 | 2.000.000 | US$ 0,63 | US$ 2,50 | US$ 0,16 | US$ 0,63 | |||||
| Equilibrada | 10.000.000 | 2.000.000 | US$ 1,26 | US$ 5,00 | US$ 0,63 | US$ 2,50 | |||||
| Qualidade | 10.000.000 | 2.000.000 | US$ 1,89 | US$ 7,50 | US$ 1,26 | US$ 5,00 | |||||
| Proporção de E/S de 1:20 | Exemplo 2: Geração de conteúdo | ||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
| Preferência do cliente | Tokens de entrada do cliente enviados para o MO | Tokens de saída do cliente enviados para o MO | Preço médio de entrada por milhão de tokens (faixa alta) | Preço médio de saída por milhão de tokens (faixa alta) | Preço médio de entrada por milhão de tokens (faixa baixa) | Preço médio de saída por milhão de tokens (faixa baixa) | |||||
| Custo | 1.000.000 | 20.000.000 | US$ 0,63 | US$ 2,50 | US$ 0,16 | US$ 0,63 | |||||
| Equilibrada | 1.000.000 | 20.000.000 | US$ 1,26 | US$ 5,00 | US$ 0,63 | US$ 2,50 | |||||
| Qualidade | 1.000.000 | 20.000.000 | US$ 1,89 | US$ 7,50 | US$ 1,26 | US$ 5,00 | |||||
Outros modelos do Gemini
Todos os modelos do Gemini, exceto o Gemini 2.0 ou o Gemini 2.5, são cobrados com base em modalidades como caracteres, imagens, segundos de vídeo/áudio. A entrada de texto é cobrada a cada 1.000 caracteres de entrada (comando) e a cada 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem, resultando em aproximadamente 4 caracteres por token. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo. A entrada de mídia é cobrada por imagem ou por segundo (vídeo). Se a solicitação falhar com um erro 400 ou 500, você não vai receber cobranças pelos tokens usados.
| Modelo | Recurso | Tipo | Preço ( =< 128 mil tokens de entrada) |
Preço ( > 128 mil tokens de entrada) |
||
|---|---|---|---|---|---|---|
| Gemini 1.5 Flash | Multimodal | Entrada de imagem Entrada de vídeo Entrada de texto Entrada de áudio |
US$ 0,00002 / imagem US$0,00002 / segundo US$0,00001875 / 1 mil caracteres US$0,000002 / segundo |
US$ 0,00004 / imagem US$0,00004 / segundo US$0,0000375 / 1 mil caracteres US$0,000004 / segundo |
||
| Saída de texto | US$ 0,000075 / 1 mil caracteres | US$ 0,00015 / 1 mil caracteres | ||||
| Ajuste* | Token de treinamento | US$ 8 / M de tokens | ||||
| Gemini 1.5 Pro | Multimodal | Entrada de imagem Entrada de vídeo Entrada de texto Entrada de áudio |
US$ 0,00032875 / imagem US$0,00032875 / segundo US$0,0003125 / 1 mil caracteres US$0,00003125 / segundo |
US$ 0,0006575 / imagem US$0,0006575 / segundo US$0,000625 / 1 mil caracteres US$0,0000625 / segundo |
||
| Saída de texto | US$ 0,00125 / 1 mil caracteres | US$ 0,0025 / 1 mil caracteres | ||||
| Ajuste* | Token de treinamento | US$ 80 / M de tokens | ||||
| Gemini 1.0 Pro | Multimodal | Entrada de imagem Entrada de vídeo Entrada de texto |
US$ 0,0025 / imagem US$ 0,002 / segundo US$0,000125 / 1 mil caracteres |
|||
| Saída de texto | US$ 0,000375 / 1 mil characters | |||||
| Embasamento com a Pesquisa Google | Texto | US$35 por 1.000 comandos fundamentados. Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||||
| Embasamento na Web para empresas | Texto | US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia. |
||||
| Embasamento com seus dados | Texto | US$ 2,50 por 1.000 solicitações a partir de 16 de junho de 2025. |
||||
* Os preços estão em dólares americanos (USD).
Se você não paga em dólar americano, valem os preços na sua moeda local listados na página
SKUs do Cloud Platform.
* Se um contexto de consulta for maior que 128 mil, todos os tokens serão cobrados com as taxas de contexto longo.
* Os modelos do Gemini estão disponíveis no modo em lote com 50% de desconto.
* O Gemini 1.0 Pro só oferece suporte a uma janela de contexto de até 32 mil tokens.
* PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
* O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.
Imagen
Com o Imagen na Vertex AI, é possível gerar imagens novas e editar com base nas solicitações de texto fornecidas, ou editar apenas partes de imagens usando uma área de máscara definida por você, além de vários outros recursos.
| Modelo | Recurso | Descrição | Entrada | Saída | Preço |
|---|---|---|---|---|---|
| Imagen 4 Ultra | Geração de imagens | Gerar uma imagem | Comando de texto | Imagem | US$ 0,06 por imagem |
| Imagen 4 | Upscaling | Aumenta a resolução de uma imagem gerada para 2K, 3K e 4K | Imagem | Imagem | US$ 0,06 por imagem |
| Imagen 4 | Geração de imagens | Gerar uma imagem | Comando de texto | Imagem | US$ 0,04 por imagem |
| Imagen 4 Fast | Geração de imagens | Gerar uma imagem | Comando de texto | Imagem | US$ 0,02 por imagem |
| Imagen 3 | Geração de imagens | Gerar uma imagem Editar uma imagem Personalizar uma imagem |
Comando de texto | Imagem | US$ 0,04 por imagem |
| Imagen 3 Fast | Geração de imagens | Gerar uma imagem | Comando de texto | Imagem | US$ 0,02 por imagem |
| Imagen 2, Imagen 1 | Geração de imagens | Gerar uma imagem | Comando de texto | Imagem | $0,020 por imagem |
| Imagen 2, Imagen 1 | Edição de imagens | Editar uma imagem usando a abordagem sem máscara ou com máscara | Solicitação de imagem/texto | Imagem | $0,020 por imagem |
| Imagen 1 | Upscaling | Aumenta a resolução de uma imagem gerada para 2K e 4K | Imagem | Imagem | $0,003 por imagem |
| Imagen 1 | Ajuste de detalhes | Ativa um "assunto" fornecido pelo usuário para ser usado nos comandos do Imagen (treinamento de poucas imagens) | Assunto(s) com identificador de texto e de 4 a 8 imagens por assunto | Modelo ajustado (após o treinamento com assuntos fornecidos pelo usuário) | US$ por hora de uso do nó (preços do treinamento personalizado da Vertex AI) |
| Imagen | Legendas visuais | Gerar uma legenda de texto curta ou longa para uma imagem | Imagem | Legenda de texto | $0,0015/imagem |
| Imagen | Perguntas e respostas visuais | Fornecer uma resposta com base em uma pergunta relacionada a uma imagem | Solicitação de imagem/texto | Resposta em texto | $0,0015/imagem |
| Imagen | Recontextualização de produtos | Reimagine produtos em uma nova cena | 1 a 3 imagens do mesmo produto e um comando de texto descrevendo a cena desejada | Imagem | US$ 0,12 por imagem |
| Simulador virtual da Vertex | Crie imagens de pessoas usando roupas diferentes | 1 imagem de uma pessoa e 1 imagem de uma roupa | Imagem | US$ 0,06 por imagem |
Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
Veo
O Veo cria vídeos de alta qualidade em uma ampla variedade de assuntos e estilos, com uma compreensão aprimorada da física do mundo real e das nuances do movimento e da expressão humana.
| Modelo | Recurso | Descrição | Entrada | Saída | Resolução de saída | Preço |
|---|---|---|---|---|---|---|
| Veo 3.1 | Geração de vídeo + áudio | Gere vídeos de alta qualidade com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência | Comando de texto/imagem | Vídeo + áudio | 720p, 1080p | US$ 0,40/segundo |
| Veo 3.1 | Geração de vídeo | Gere vídeos de alta qualidade com base em um comando de texto ou imagem de referência | Comando de texto/imagem | Vídeo | 720p, 1080p | US$ 0,20/segundo |
| Veo 3.1 Fast | Geração de vídeo + áudio | Gere vídeos com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência com mais rapidez | Comando de texto/imagem | Vídeo + áudio | 720p, 1080p | US$ 0,15/segundo |
| Veo 3.1 Fast | Geração de vídeo | Gere vídeos com base em um comando de texto ou imagem de referência com mais rapidez | Comando de texto/imagem | Vídeo | 720p, 1080p | US$ 0,10/segundo |
| Veo 3 | Geração de vídeo + áudio | Gere vídeos de alta qualidade com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência | Comando de texto/imagem | Vídeo + áudio | 720p, 1080p | US$ 0,40/segundo |
| Veo 3 | Geração de vídeo | Gere vídeos de alta qualidade com base em um comando de texto ou imagem de referência | Comando de texto/imagem | Vídeo | 720p, 1080p | US$ 0,20/segundo |
| Veo 3 Fast | Geração de vídeo + áudio | Gere vídeos com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência com mais rapidez | Comando de texto/imagem | Vídeo + áudio | 720p, 1080p | US$ 0,15/segundo |
| Veo 3 Fast | Geração de vídeo | Gere vídeos com base em um comando de texto ou imagem de referência com mais rapidez | Comando de texto/imagem | Vídeo | 720p, 1080p | US$ 0,10/segundo |
| Veo 2 | Geração de vídeo | Gere vídeos com base em um comando de texto ou imagem de referência | Comando de texto/imagem | Vídeo | 720p | US$ 0,50/segundo |
| Veo 2 | Controles avançados | Gere vídeos por meio da interpolação de frames inicial e final, estenda os vídeos gerados e aplique controles de câmera | Comando de texto/imagem/vídeo | Vídeo | 720p | US$ 0,50/segundo |
Lyria
O Lyria 2 oferece geração de música instrumental de alta qualidade, ideal para composições sofisticadas e exploração criativa detalhada em que a saída sutil é fundamental.
| Modelo | Recurso | Descrição | Entrada | Saída | Preço |
|---|---|---|---|---|---|
| Lyria 2 | Geração de música | Gerar música com base em um comando de texto | Comando de texto | Música | US$ 0,06 por 30 segundos |
Entenda os custos de embeddings para seus aplicativos de IA
| Modelo | Tipo | Região | Preço por 1.000 tokens de entrada |
|---|---|---|---|
| Incorporação do Gemini | Entrada | Global |
|
| Saída | Global |
|
| Modelo | Tipo | Região | Preço por 1.000 caracteres |
|---|---|---|---|
| Embeddings para texto (exceto o embedding do Gemini) |
Entrada | Global |
|
| Saída | Global |
|
| Modelo | Recurso | Descrição | Entrada | Saída | Preço |
|---|---|---|---|---|---|
| multimodalembedding | Embeddings para multimodal: texto | Gerar embeddings usando texto como entrada | Texto | Embeddings | US$ 0,0002/1.000 caracteres de entrada |
| Embeddings para multimodal: imagem | Gerar embeddings usando imagem como entrada | Imagem | Embeddings | $0,0001/entrada de imagem | |
| Embeddings para multimodal: vídeo Plus | Vídeo Plus | Vídeo | Embeddings (até 15 embeddings por minuto de vídeo) | US$ 0,0020 por segundo de vídeo | |
| Embeddings para multimodal: vídeo padrão | Vídeo Standard | Vídeo | Embeddings (até 8 embeddings por minuto de vídeo) | US$ 0,0010 por segundo de vídeo | |
| Embeddings para multimodal: vídeo essencial | Vídeo Essential | Vídeo | Embeddings (até 4 embeddings por minuto de vídeo) | US$ 0,0005 por segundo de vídeo |
| Modelo de código aberto | Tipo | Preço por 1.000 tokens de entrada |
|---|---|---|
| multilingual-e5-small | Entrada: Saída: Entrada em lote: Saída em lote: |
Solicitações on-line: US$ 0,000015 Solicitações on-line: sem custo financeiro Solicitações em lote: US$ 0,0000075 Solicitações em lote: sem custo financeiro |
| multilingual-e5-large | Entrada: Saída: Entrada em lote: Saída em lote: |
Solicitações on-line: US$ 0,000025 Solicitações on-line: sem custo financeiro Solicitações em lote: US$ 0,0000125 Solicitações em lote: sem custo financeiro |
Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
Preços do preenchimento de código da Vertex AI
A IA generativa na Vertex AI cobra por 1.000 caracteres de entrada (prompt) e por 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem. Durante o estágio de visualização, as cobranças são 100% descontadas. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo.
| Modelo | Tipo | Região | Preço por 1.000 caracteres |
|---|---|---|---|
| Codey para preenchimento de código | Entrada | Global |
|
| Saída | Global |
|
Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
Tradução (texto)
Usar a API Vertex AI e o LLM de tradução para traduzir textos. As traduções de LLM tendem a ser mais fluentes e naturais do que os modelos de tradução clássicos, mas têm suporte a idiomas mais limitado (Saiba mais).
| Modelo | Método | Uso | Preço por milhão de caracteres |
|---|---|---|---|
| LLM | Tradução de texto* | O número de caracteres de entrada por mês |
US$ 10 por milhão de caracteres* |
| O número de caracteres de saída por mês |
US$ 10 por milhão de caracteres* |
Os preços são indicados em dólares americanos (USD).
Se você não paga em dólar americano, valem os preços na sua moeda local listados na página
SKUs do Cloud Platform.
*O preço é por caractere processado pelo modelo. Para mais informações sobre a contagem de caracteres cobrados, consulte este link
Preço do armazenamento em cache de contexto para o cache explícito
| Modelo | Recurso | Tipo | Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada |
Preço (por 1 milhão de tokens) > 200 mil tokens de entrada |
|---|---|---|---|---|
| Gemini 3 Pro | Armazenamento em cache de contexto | Entrada (texto, imagem, vídeo, áudio) | US$ 4,50 (por mil tokens/hora) | US$ 4,50 (por mil tokens/hora) |
| Gemini 2.5 Pro | Armazenamento em cache de contexto | Entrada (texto, imagem, vídeo, áudio) | US$ 4,50 (por mil tokens/hora) | US$ 4,50 (por mil tokens/hora) |
| Gemini 2.5 Flash | Armazenamento em cache de contexto | Entrada (texto, imagem, vídeo, áudio) | US$ 1 (/M de tokens/hora) | US$ 1 (/M de tokens/hora) |
| Gemini 2.5 Flash Lite | Armazenamento em cache de contexto | Entrada (texto, imagem, vídeo, áudio) | US$ 1 (/M de tokens/hora) | US$ 1 (/M de tokens/hora) |
Modelos do Gemini 2.0
Preços baseados em token
Modelo |
Tipo |
Armazenamento (M tok-hora) |
Preço |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| 1 milhão de tokens de entrada | US$ 1,00 | US$ 0,0375 | |
| 1 milhão de tokens de áudio de entrada | US$ 1,00 | US$ 0,25 | |
| 1 milhão de tokens de texto de saída | NA | NA | |
Gemini 2.0 Flash Lite |
|||
| 1 milhão de tokens de entrada | US$ 1,00 | US$ 0,01875 | |
| 1 milhão de tokens de áudio de entrada | US$ 1,00 | US$ 0,01875 | |
| 1 milhão de tokens de texto de saída | NA | NA |
Preços com base na modalidade
Os preços de modalidade abaixo são baseados em casos de uso médios apenas para referência. O faturamento real será baseado apenas em tokens:
- 4 caracteres resultam em aproximadamente 1 token de texto, incluindo espaços em branco.
- Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
- A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. O vídeo com áudio é cobrado pelos tokens de vídeo e de áudio.
- A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.
Modelo |
Tipo |
Armazenamento (hora/modalidade) |
Preço |
|---|---|---|---|
Gemini 2.0 Flash |
|||
| Texto de entrada (US$/M de caracteres) | US$ 0,25 | US$ 0,009375 | |
| Imagem de entrada (US$/imagem) | US$ 0,00129 | US$ 0,000048375 | |
| Vídeo de entrada (US$/segundo) | US$ 0,000258 | US$ 0,000009675 | |
| Áudio de entrada (US$/segundo) | US$ 0,000025 | US$ 0,00000625 | |
| Texto de saída (US$/M de caracteres) | NA | NA | |
Gemini 2.0 Flash Lite |
|||
| Texto de entrada (US$/M de caracteres) | US$ 0,25 | US$ 0,0046875 | |
| Imagem de entrada (US$/imagem) | US$ 0,00129 | US$ 0,0000241875 | |
| Vídeo de entrada (US$/segundo) | US$ 0,000258 | US$ 0,000009675 | |
| Áudio de entrada (US$/segundo) | US$ 0,000258 | US$ 0,0000048375 | |
| Texto de saída (US$/M de caracteres) | NA | NA | |
Embasamento com a Pesquisa Google |
O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. Solicitações fundamentadas que excedam 1.500 por dia serão cobradas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia). Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
||
Embasamento na Web para empresas |
US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de solicitações por dia. |
||
* Os preços estão em dólares americanos (USD).
Se você não paga em dólar americano, valem os preços na sua moeda local listados na página
SKUs do Cloud Platform.
* PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
* O embasamento com a Pesquisa Google é cobrado apenas para solicitações que retornam resultados com pelo menos um URL de suporte de embasamento da Web. Também são aplicadas as taxas de uso do modelo Gemini padrão.
Capacidade de processamento provisionada
A capacidade de processamento provisionada garante a capacidade de processamento para suas necessidades de IA generativa e é negociada por meio de unidades de escalonamento de IA generativa, ou GSUs. Saiba mais sobre a quantidade de capacidade de processamento que cada GSU oferece aqui e use nosso estimador on-line aqui.
| Duração | Preço por GSU | Por |
|---|---|---|
| Compromisso de 1 semana | US$ 1.200 | Semana |
| Compromisso de 1 mês | US$ 2.700 | Mês |
| Compromisso de 3 meses | US$ 2.400 | Mês |
| Compromisso de 1 ano | US$ 2.000 | Mês |
Exemplo de cálculo de custo
Um usuário precisa garantir que possa oferecer suporte a 10 consultas por segundo (QPS) de uma consulta com entrada de 1.000 tokens de texto e 500 tokens de áudio e receber uma saída de 300 tokens de texto usando o gemini-2.0-flash.
Usando a tabela de taxa de transferência e burndown, para o gemini-2.0-flash, sabemos que a taxa de burndown de um token de texto de entrada é de 1 token, a taxa de burndown de um token de áudio de entrada é de 7 tokens e a taxa de burndown de um token de texto de saída é de 4 tokens.
O total de tokens de entrada do usuário é 1.000* (1 token por token de texto de entrada) + 500* (7 tokens por token de áudio de entrada) = 4.500 tokens de entrada ajustados para redução. O total de tokens de saída do usuário é 300* (4 tokens por token de texto de saída) = 1.200 tokens de saída ajustados para redução. Somando os dois, temos 4.500 tokens de entrada ajustados para redução + 1.200 tokens de saída ajustados para redução = 5.700 tokens no total por consulta.
Multiplicando o total de tokens por consulta por QPS, temos 5.700 tokens totais por consulta * 10 QPS = 57.000 tokens totais por segundo.
Dividindo isso pela capacidade de processamento total por segundo por GSU,temos 57.000 tokens totais por segundo ÷ 3.360 de capacidade de processamento por segundo por GSU = 16,96 GSUs. O incremento mínimo de compra de GSU para esse modelo é 1, então o usuário precisaria de 17 GSUs.
Se o usuário quisesse manter essa capacidade de processamento por uma semana, o custo seria de US $1.200 * 17 GSUs = US $20.400 por semana. Se eles quisessem manter essa capacidade de processamento por um mês, o custo seria de US $2.700 * 17 GSUs = US $45.900 por mês. Se eles quisessem manter essa capacidade de processamento por 3 meses, isso custaria US $2.400 * 17 GSUs = US $40.800 por mês. Por fim, se eles quisessem manter essa capacidade de processamento por um ano, o custo seria de US $2.000 * 17 GSUs = US $34.000 por mês.
Ajuste de modelos
O ajuste de modelos é uma maneira eficaz de personalizar modelos grandes para suas tarefas. Essa é uma etapa fundamental para melhorar a qualidade e a eficiência do modelo. O ajuste de modelos oferece os seguintes benefícios:
- Qualidade mais alta para suas tarefas específicas
- Maior robustez do modelo
- Menor latência e custo de inferência devido a comandos mais curtos
O ajuste é cobrado por milhão de tokens de treinamento. Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de períodos. Para inferência de modelo, o endpoint do modelo ajustado do Gemini tem o mesmo preço de previsão do modelo de base.
| Modelo | Tipo | Preço (por 1 milhão de tokens de treinamento) |
|---|---|---|
| Gemini 2.5 Pro | Ajuste supervisionado | US$ 25 |
| Gemini 2.5 Flash | Ajuste supervisionado Ajuste de preferências |
US$ 5 |
| Gemini 2.5 Flash Lite | Ajuste supervisionado Ajuste de preferências |
US$ 1,5 |
| Gemma 3 27B IT | Ajuste supervisionado | US$ 6,83 |
| Llama 3.1 8B | Ajuste supervisionado | US$ 0,67 |
| Llama 3.2 1B | Ajuste supervisionado | US$ 0,28 |
| Llama 3.2 3B | Ajuste supervisionado | US$ 0,61 |
| Llama 3.3 70B | Ajuste supervisionado | US$ 6,72 |
| Llama 4 Scout 17B 16E | Ajuste supervisionado | US$ 5,77 |
| Qwen 3 32B | Ajuste supervisionado | US$ 6,57 |
* Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de épocas.
* O endpoint de um modelo ajustado do Gemini tem o mesmo preço de previsão do modelo de base.
Comparar os preços dos modelos de parceiros na Vertex AI
Os modelos de parceiros são uma lista selecionada de modelos de IA generativa desenvolvidos por parceiros do Google. Os modelos de parceiros são oferecidos como APIs gerenciadas. Para mais informações, consulte Visão geral dos modelos de parceiros. As seções a seguir listam os detalhes de preços dos modelos de parceiros do Google.
Modelos da AI21 Labs
| Modelo | Preços |
|---|---|
| Jamba 1.5 Large (obsoleto) | Entrada: US$ 2 / milhão de tokens Saída: US$ 8 / milhão de tokens |
| Jamba 1.5 Mini (descontinuado) | Entrada: US$ 0,20 / milhão de tokens Saída: US$ 0,40 / milhão de tokens |
Modelos Claude da Anthropic
Modelos com preços regionais
Global
| Modelo | Preço (por 1 milhão de tokens) < 200 mil tokens de entrada | Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada |
|---|---|---|
| Claude Opus 4.5 | Entrada: US$ 5,00 Saída: US$ 25,00 Entrada em lote: US$ 2,50 Saída em lote: US$ 12,50 Gravação em cache de 5 min: US$ 6,25 Gravação em cache de 1 h: US$ 10,00 Acerto de cache: US$ 0,50 Gravação em cache em lote de 5 min: US$ 3,125 Gravação em cache em lote de 1 h: US$ 5,00 Acerto de cache em lote: US$ 0,25 |
|
| Claude Sonnet 4.5 | Entrada: US$ 3,00 Saída: US$ 15,00 Entrada em lote: US$ 1,50 Saída em lote: US$ 7,50 Gravação em cache de 5 min: US$ 3,75 Gravação em cache de 1 h: US$ 6,00 Acerto de cache: US$ 0,30 Gravação em cache em lote: US$ 1,88 Acerto de cache em lote: US$ 0,15 |
Entrada: US$ 6,00 Saída: US$ 22,50 Entrada em lote: US$ 3,00 Saída em lote: US$ 11,25 Gravação em cache de 5 minutos: US$ 7,50 Gravação em cache de 1 hora: US$ 12,00 Acerto de cache: US$ 0,60 Gravação em cache em lote: US$ 3,75 Acerto de cache em lote: US$ 0,30 |
| Claude Haiku 4.5 | Entrada: US$ 1,00 Saída: US$ 5,00 Entrada em lote: US$ 0,50 Saída em lote: US$ 2,50 Gravação em cache de 5 minutos: US$ 1,25 Gravação em cache de 1 hora: US$ 2,00 Acerto de cache: US$ 0,10 Gravação em cache em lote: US$ 0,625 Acerto de cache em lote: US$ 0,05 |
us-east5
| Modelo | Preço (por 1 milhão de tokens) < 200 mil tokens de entrada | Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada |
|---|---|---|
| Claude Opus 4.5 | Entrada: US$ 5,50 Saída: US$ 27,50 Entrada em lote: US$ 2,75 Saída em lote: US$ 13,75 Gravação em cache de 5 minutos: US$ 6,875 Gravação em cache de 1 hora: US$ 11,00 Acerto de cache: US$ 0,55 Gravação em cache em lote de 5 minutos: US$ 3,438 Gravação em cache em lote de 1 hora: US$ 5,50 Acerto de cache em lote: US$ 0,275 |
|
| Claude Sonnet 4.5 | Entrada: US$ 3,30 Saída: US$ 16,50 Entrada em lote: US$ 1,65 Saída em lote: US$ 8,25 Gravação em cache de 5 min: US$ 4,13 Gravação em cache de 1 h: US$ 6,60 Acerto de cache: US$ 0,33 Gravação em cache em lote: US$ 2,06 Acerto de cache em lote: US$ 0,17 |
Entrada: US$ 6,60 Saída: US$ 24,75 Entrada em lote: US$ 3,30 Saída em lote: US$ 12,38 Gravação em cache de 5 minutos: US$ 8,25 Gravação em cache de 1 hora: US$ 13,20 Acerto de cache: US$ 0,66 Gravação em cache em lote: US$ 4,13 Acerto de cache em lote: US$ 0,33 |
| Claude Haiku 4.5 | Entrada: US$ 1,10 Saída: US$ 5,50 Entrada em lote: US$ 0,55 Saída em lote: US$ 2,75 Gravação em cache de 5 minutos: US$ 1,375 Gravação em cache de 1 hora: US$ 2,20 Gravação em cache: US$ 1,375 Acesso ao cache: US$ 0,11 Gravação em cache em lote: US$ 0,688 Acesso ao cache em lote: US$ 0,055 |
europe-west1
| Modelo | Preço (por 1 milhão de tokens) < 200 mil tokens de entrada | Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada |
|---|---|---|
| Claude Opus 4.5 | Entrada: US$ 5,50 Saída: US$ 27,50 Entrada em lote: US$ 2,75 Saída em lote: US$ 13,75 Gravação em cache de 5 minutos: US$ 6,875 Gravação em cache de 1 hora: US$ 11,00 Acerto de cache: US$ 0,55 Gravação em cache em lote de 5 minutos: US$ 3,438 Gravação em cache em lote de 1 hora: US$ 5,50 Acerto de cache em lote: US$ 0,275 |
|
| Claude Sonnet 4.5 | Entrada: US$ 3,30 Saída: US$ 16,50 Entrada em lote: US$ 1,65 Saída em lote: US$ 8,25 Gravação em cache de 5 min: US$ 4,13 Gravação em cache de 1 h: US$ 6,60 Acerto de cache: US$ 0,33 Gravação em cache em lote: US$ 2,06 Acerto de cache em lote: US$ 0,17 |
Entrada: US$ 6,60 Saída: US$ 24,75 Entrada em lote: US$ 3,30 Saída em lote: US$ 12,38 Gravação em cache de 5 minutos: US$ 8,25 Gravação em cache de 1 hora: US$ 13,20 Acerto de cache: US$ 0,66 Gravação em cache em lote: US$ 4,13 Acerto de cache em lote: US$ 0,33 |
| Claude Haiku 4.5 | Entrada: US$ 1,10 Saída: US$ 5,50 Entrada em lote: US$ 0,55 Saída em lote: US$ 2,75 Gravação em cache de 5 minutos: US$ 1,375 Gravação em cache de 1 hora: US$ 2,20 Acesso ao cache: US$ 0,11 Gravação em cache em lote: US$ 0,688 Acesso ao cache em lote: US$ 0,055 |
asia-southeast1
| Modelo | Preço (por 1 milhão de tokens) < 200 mil tokens de entrada | Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada |
|---|---|---|
| Claude Opus 4.5 | Entrada: US$ 5,50 Saída: US$ 27,50 Entrada em lote: US$ 2,75 Saída em lote: US$ 13,75 Gravação em cache de 5 minutos: US$ 6,875 Gravação em cache de 1 hora: US$ 11,00 Acerto de cache: US$ 0,55 Gravação em cache em lote de 5 minutos: US$ 3,438 Gravação em cache em lote de 1 hora: US$ 5,50 Acerto de cache em lote: US$ 0,275 |
|
| Claude Sonnet 4.5 | Entrada: US$ 3,30 Saída: US$ 16,50 Entrada em lote: US$ 1,65 Saída em lote: US$ 8,25 Gravação em cache de 5 min: US$ 4,13 Gravação em cache de 1 h: US$ 6,60 Acerto de cache: US$ 0,33 Gravação em cache em lote: US$ 2,06 Acerto de cache em lote: US$ 0,17 |
Entrada: US$ 6,60 Saída: US$ 24,75 Entrada em lote: US$ 3,30 Saída em lote: US$ 12,38 Gravação em cache de 5 minutos: US$ 8,25 Gravação em cache de 1 hora: US$ 13,20 Acerto de cache: US$ 0,66 Gravação em cache em lote: US$ 4,13 Acerto de cache em lote: US$ 0,33 |
asia-east1
| Modelo | Preço (por 1 milhão de tokens) < 200 mil tokens de entrada | Preço (/1 milhão de tokens) >= 200 mil tokens de entrada |
|---|---|---|
| Claude Haiku 4.5 | Entrada: US$ 1,10 Saída: US$ 5,50 Entrada em lote: US$ 0,55 Saída em lote: US$ 2,75 Gravação em cache de 5 minutos: US$ 1,375 Gravação em cache de 1 hora: US$ 2,20 Gravação em cache: US$ 1,375 Acesso ao cache: US$ 0,11 Gravação em cache em lote: US$ 0,688 Acesso ao cache em lote: US$ 0,055 |
* Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
Modelos com preços uniformes em todas as regiões
| Modelo | Preço (por 1 milhão de tokens) < 200 mil tokens de entrada | Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada |
|---|---|---|
| Claude Opus 4.1 | Entrada: US$ 15 Saída: US$ 75 Entrada em lote: US$ 7,50 Saída em lote: US$ 37,50 Gravação em cache de 5 min: US$ 18,75 Gravação em cache de 1 h: US$ 30 Acerto de cache: US$ 1,50 Gravação em cache em lote: US$ 9,375 Acerto de cache em lote: US$ 0,75 |
N/A |
| Claude Opus 4 | Entrada: US$ 15 Saída: US$ 75 Entrada em lote: US$ 7,50 Saída em lote: US$ 37,50 Gravação em cache de 5 min: US$ 18,75 Gravação em cache de 1 h: US$ 30 Acerto de cache: US$ 1,50 Gravação em cache em lote: US$ 9,375 Acerto de cache em lote: US$ 0,75 |
N/A |
| Claude Sonnet 4 | Entrada: US$ 3 Saída: US$ 15 Entrada em lote: US$ 1,50 Saída em lote: US$ 7,50 Gravação em cache de 5 min: US$ 3,75 Gravação em cache de 1 h: US$ 6,00 Acesso ao cache: US$ 0,30 Gravação em cache em lote: US$ 1,875 Acesso ao cache em lote: US$ 0,15 |
Entrada: US$ 6 Saída: US$ 22,50 Entrada em lote: US$ 3 Saída em lote: US$ 11,25 Gravação em cache de 5 minutos: US$ 7,50 Gravação em cache de 1 hora: US$ 12,00 Acerto de cache: US$ 0,60 Gravação em cache em lote: US$ 3,75 Acerto de cache em lote: US$ 0,30 |
| Claude 3.5 Haiku | Entrada: US$ 0,80 Saída: US$ 4 Entrada em lote: US$ 0,40 Saída em lote: US$ 2 Gravação em cache de 5 minutos: US$ 1 Gravação em cache de 1 hora: US$ 1,60 Acerto de cache: US$ 0,08 Gravação em cache em lote: US$ 0,50 Acerto de cache em lote: US$ 0,04 |
N/A |
| Claude 3 Haiku | Entrada: US$ 0,25 Saída: US$ 1,25 Gravação em cache de 5 minutos: US$ 0,30 Gravação em cache de 1 hora: US$ 0,50 Acesso ao cache: US$ 0,03 | N/A |
| Claude 3.7 Sonnet (descontinuado) | Entrada: US$ 3 Saída: US$ 15 Entrada em lote: US$ 1,50 Saída em lote: US$ 7,50 Gravação em cache: US$ 3,75 Acerto de cache: US$ 0,30 Gravação em cache em lote: US$ 1,875 Acerto de cache em lote: US$ 0,15 |
N/A |
| Claude 3.5 Sonnet v2 (descontinuado) | Entrada: US$ 3 Saída: US$ 15 Entrada em lote: US$ 1,50 Saída em lote: US$ 7,50 Gravação em cache: US$ 3,75 Acerto de cache: US$ 0,30 Gravação em cache em lote: US$ 1,875 Acerto de cache em lote: US$ 0,15 |
N/A |
| Claude 3.5 Sonnet (descontinuado) | Entrada: US$ 3 Saída: US$ 15 Gravação no cache: US$ 3,75 Acerto no cache: US$ 0,30 |
N/A |
| Claude 3 Opus (descontinuado) | Entrada: US$ 15 Saída: US$ 75 Gravação no cache: US$ 18,75 Acerto de cache: US$ 1,50 |
N/A |
* Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
Preços das ferramentas
| Ferramenta | Preço |
|---|---|
| Solicitação de pesquisa na Web | US$10 por 1.000 pesquisas
Modelos compatíveis: Claude Haiku 4.5, Claude Sonnet 4.5, Claude Sonnet 4, Claude Opus 4.1 e Claude Opus 4. |
* Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
Modelos do Deepseek
| Modelo | Preços |
|---|---|
| DeepSeek-V3.1 | Entrada: US$ 0,60 / milhão de tokens Saída: US$ 1,70 / milhão de tokens Entrada em lote: US$ 0,30 / milhão de tokens Saída em lote: US$ 0,85 / milhão de tokens |
| DeepSeek-R1 (0528) | Entrada: US$ 1,35 / milhão de tokens Saída: US$ 5,40 / milhão de tokens Entrada em lote: US$ 0,675 / milhão de tokens Saída em lote: US$ 2,70 / milhão de tokens |
| DeepSeek-OCR * | Entrada: US$ 0,30 / milhão de tokens (ou US $0,0003/página) Saída: US$ 1,20 / milhão de tokens (ou US $0,00012/página) |
- Disponível sem custos financeiros até 10 de novembro de 2025.
Modelos da MiniMax
| Modelo | Preços |
|---|---|
| MiniMax-M2 * | Entrada: US$ 0,30 / milhão de tokens Saída: US$ 1,20 / milhão de tokens |
- Disponível sem custos financeiros até 10 de novembro de 2025.
Modelos da Moonshot
| Modelo | Preços |
|---|---|
| Kimi-K2-Thinking * | Entrada: US$ 0,60 / milhão de tokens Saída: US$ 2,50 / milhão de tokens |
- Disponível sem custos financeiros até 17 de novembro de 2025.
Modelos da Qwen
| Modelo | Preços |
|---|---|
| Qwen3-Next-80B-Thinking | Entrada: US$ 0,15 / milhão de tokens Saída: US$ 1,20 / milhão de tokens |
| Qwen3-Next-80B-Instruct | Entrada: US$ 0,15 / milhão de tokens Saída: US$ 1,20 / milhão de tokens |
| Qwen3-Coder-480B-A35B-Instruct | Entrada: US$ 1,00 / milhão de tokens Saída: US$ 4,00 / milhão de tokens Entrada em lote: US$ 0,50 / milhão de tokens Saída em lote: US$ 2,00 / milhão de tokens |
| Qwen3-235B-A22B-Instruct-2507 | Entrada: US$ 0,25 / milhão de tokens Saída: US$ 1,00 / milhão de tokens Entrada em lote: US$ 0,125 / milhão de tokens Saída em lote: US$ 0,50 / milhão de tokens |
Modelos da OpenAI
| Modelo | Preços |
|---|---|
| gpt-oss-120b | Entrada: US$ 0,09 / milhão de tokens Saída: US$ 0,36 / milhão de tokens Entrada em lote: US$ 0,045 / milhão de tokens Saída em lote: US$ 0,18 / milhão de tokens |
| gpt-oss-20b | Entrada: US$ 0,07 / milhão de tokens Saída: US$ 0,25 / milhão de tokens Entrada em lote: US$ 0,035 / milhão de tokens Saída em lote: US$ 0,125 / milhão de tokens |
Modelos Llama da Meta
| Modelo | Preços |
|---|---|
| Llama 3.1 405B | Entrada: US$ 5,00 / milhão de tokens Saída: US$ 16,00 / milhão de tokens |
| Llama 3.3 70B | Entrada: US$ 0,72 / milhão de tokens Saída: US$ 0,72 / milhão de tokens Entrada em lote: US$ 0,36 / milhão de tokens Saída em lote: US$ 0,36 / milhão de tokens |
| Llama 4 Scout | Entrada: US$ 0,25 / milhão de tokens Saída: US$ 0,70 / milhão de tokens Entrada em lote: US$ 0,125 / milhão de tokens Saída em lote: US$ 0,35 / milhão de tokens |
| Llama 4 Maverick | Entrada: US$ 0,35 / milhão de tokens Saída: US$ 1,15 / milhão de tokens Entrada em lote: US$ 0,175 / milhão de tokens Saída em lote: US$ 0,575 / milhão de tokens |
Modelos da Mistral AI
| Modelo | Preços |
|---|---|
| OCR do Mistral (25/05) | Entrada: US$ 0,0005 / milhão de tokens (ou US $0,0005/página) Saída: US$ 0,0005 / milhão de tokens (ou US $0,0005/página) |
| Mistral Medium 3 | Entrada: US$ 0,40 / milhão de tokens Saída: US$ 2,00 / milhão de tokens |
| Mistral Small 3.1 (25.03) | Entrada: US$ 0,10 / milhão de tokens Saída: US$ 0,30 / milhão de tokens |
| Mistral Large (24.11) (descontinuado) | Entrada: US$ 2,00 / milhão de tokens Saída: US$ 6,00 / milhão de tokens |
| Codestral 2 | Entrada: US$ 0,30 / milhão de tokens Saída: US$ 0,90 / milhão de tokens |
| Codestral (25.01) (descontinuado) | Entrada: US$ 0,30 / milhão de tokens Saída: US$ 0,90 / milhão de tokens |