Custo de criação e implantação de modelos de IA na Vertex AI

Os preços são indicados em dólares americanos (US$). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.

Você só paga pelas solicitações que retornam um código de resposta 200. As solicitações que retornam outros códigos de resposta, como códigos 4xx e 5xx, não são cobradas pela entrada ou saída.

Nesta página, você encontra informações sobre os preços da IA generativa na Vertex AI. Para todos os outros preços da Vertex AI, incluindo os serviços ML Platform e MLOps, consulte a página de preços da Vertex AI.

Modelos do Google

Gemini 3

Modelo	Tipo	Preço (/1 milhão de tokens) <= 200 mil tokens de entrada	Preço (por 1 milhão de tokens) > 200 mil tokens de entrada	Preço (/1M de tokens) <= 200 mil tokens de entrada em cache	Preço (por 1 milhão de tokens) > 200 mil tokens de entrada em cache	Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada com API em lote	Preço (por 1 milhão de tokens) > 200 mil tokens de entrada com API em lote
Pré-lançamento do Gemini 3 Pro
	Entrada (texto, imagem, vídeo, áudio)	US$ 2	US$ 4	US$ 0,20	US$ 0,40	US$ 1	US$ 2
	Saída de texto (resposta e raciocínio)	US$ 12	US$ 18	N/A	N/A	US$ 6	US$ 9
	Saída de imagem**	US$ 120	N/A	N/A	N/A	US$ 60	N/A
Pré-lançamento do Gemini 3 Flash
	Entrada (texto, imagem, vídeo)	US$ 0,5	US$ 0,5	US$ 0,05	US$ 0,05	US$ 0,25	US$ 0,25
	Entrada (áudio)	US$ 1	US$ 1	US$ 0,10	US$ 0,10	US$ 0,5	US$ 0,5
	Saída de texto (resposta e raciocínio)	US$ 3	US$ 3	N/A	N/A	US$ 1,5	US$ 1,5
Embasamento com a Pesquisa Google e embasamento na Web para empresas	Inclui 5.000 consultas de pesquisa por mês sem custos financeiros, agregadas em todos os modelos do Gemini 3. As consultas de pesquisa que excederem esses limites serão cobradas a US$14 por 1.000 consultas de pesquisa. Uma solicitação enviada por um cliente ao Gemini pode resultar em uma ou mais consultas à Pesquisa Google (ou Web Grounding para Enterprise). Você vai pagar por cada consulta de pesquisa individual realizada. O faturamento vai começar em 5 de janeiro de 2026. Os tokens de entrada fornecidos pelo Grounding com a Pesquisa Google ou pelo Web Grounding para empresas não são cobrados. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com o Google Maps	Inclui 5.000 consultas de pesquisa por mês sem custos financeiros, agregadas em todos os modelos do Gemini 3. Consultas do Maps que excederem esses limites serão cobradas a US$14 por 1.000 consultas. Uma solicitação enviada por um cliente ao Gemini pode resultar em uma ou mais consultas ao Google Maps. Você vai receber uma cobrança por cada consulta individual realizada. O faturamento vai começar em 5 de janeiro de 2026 Os tokens de entrada fornecidos pelo Google Maps não são cobrados.
Embasamento com seus dados	US$ 2,50 por 1.000 comandos.

* Se um contexto de entrada de consulta for maior que 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
** Uma imagem de saída de 1K (1024 x 1024) e 2K (2048 x 2048) consome 1.120 tokens de saída de imagem, o que equivale a US $0,134/imagem gerada. Uma imagem 4K (4096 x 4096) consome 2.000 tokens de saída de imagem, o que equivale a US $0,24 por imagem gerada.

Gemini 2.5

Modelo	Tipo	Preço (/1 milhão de tokens) <= 200 mil tokens de entrada	Preço (por 1 milhão de tokens) > 200 mil tokens de entrada	Preço (/1M de tokens) <= 200 mil tokens de entrada em cache	Preço (por 1 milhão de tokens) > 200 mil tokens de entrada em cache	Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada com API em lote	Preço (por 1 milhão de tokens) > 200 mil tokens de entrada com API em lote
Gemini 2.5 Pro
	Entrada (texto, imagem, vídeo, áudio)	US$ 1,25	US$ 2,5	US$ 0,125	US$ 0,250	US$ 0,625	US$ 1,25
	Saída de texto (resposta e raciocínio)	US$ 10	US$ 15	N/A	N/A	US$ 5	US$ 7,5
Gemini 2.5 Pro Uso em computador – pré-lançamento
	Entrada (texto, imagem, vídeo, áudio)	US$ 1,25	US$ 2,5	N/A	N/A	N/A	N/A
	Saída de texto (resposta e raciocínio)	US$ 10,00	US$ 15,00	N/A	N/A	N/A	N/A
Gemini 2.5 Flash
	Entrada (texto, imagem, vídeo)	US$ 0,30	US$ 0,30	US$ 0,030	US$ 0,030	US$ 0,15	US$ 0,15
	Entrada de áudio	US$ 1	US$ 1	US$ 0,100	US$ 0,100	US$ 0,5	US$ 0,5
	Saída de texto (resposta e raciocínio)	US$ 2,50	US$ 2,50	N/A	N/A	US$ 1,25	US$ 1,25
	Saída de imagem***	US$ 30	US$ 30	N/A	N/A	US$ 15	US$ 15
API Gemini 2.5 Flash Live
	1 milhão de tokens de texto de entrada	US$ 0,5	US$ 0,5	N/A	N/A	N/A	N/A
	1 milhão de tokens de áudio de entrada	US$ 3	US$ 3	N/A	N/A	N/A	N/A
	1 milhão de tokens de entrada de vídeo/imagem	US$ 3	US$ 3	N/A	N/A	N/A	N/A
	1 milhão de tokens de texto de saída	US$ 2	US$ 2	N/A	N/A	N/A	N/A
	1 milhão de tokens de áudio de saída	US$ 12	US$ 12	N/A	N/A	N/A	N/A
Gemini 2.5 Flash Lite
	Entrada (texto, imagem, vídeo)	US$ 0,10	US$ 0,10	US$ 0,010	US$ 0,010	US$ 0,05	US$ 0,05
	Entrada de áudio	US$ 0,3	US$ 0,3	US$ 0,030	US$ 0,030	US$ 0,15	US$ 0,15
	Saída de texto (resposta e raciocínio)	US$ 0,40	US$ 0,40	N/A	N/A	US$ 0,20	US$ 0,20
Embasamento com a Pesquisa Google	O Gemini 2.0 Flash, o 2.5 Flash e o 2.5 Flash-Lite incluem um total de 1.500 comandos fundamentados por dia sem custo financeiro adicional. O Gemini 2.5 Pro inclui 10 mil comandos fundamentados por dia sem custo adicional. Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados. Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google&ast;&ast;. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento na Web para empresas	US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas**. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com seus dados	US$ 2,50 por 1.000 solicitações.
Embasamento com o Google Maps	US$25 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz pelo menos uma consulta ao Google Maps.

* Se um contexto de entrada de consulta for maior que 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
** O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.
*** Uma imagem de 1024 x 1024 consome 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
**** O faturamento do Computer Use usa a SKU do Gemini 2.5 Pro para separar os custos do Computer Use e aplicar tags de faturamento. Saiba mais aqui.

Explicação da cobrança da janela de contexto da sessão da LiveAPI: você recebe cobranças por turno por todos os tokens presentes na janela de contexto da sessão. A janela de contexto da sessão inclui novos tokens (turno atual) + todos os tokens acumulados dos turnos anteriores. Isso significa que os tokens de turnos anteriores são reprocessados e contabilizados em cada novo turno, até o tamanho da janela de contexto configurada. Um "turno" é uma entrada do usuário e a resposta do modelo.
Modo de áudio proativo: quando ativado, os tokens de entrada são cobrados enquanto a LiveAPI está ouvindo. Os tokens de saída só são cobrados quando a API responde.
Quando a transcrição de áudio para texto está ativada, todos os tokens de texto gerados para transcrição são cobrados na taxa de saída de tokens de texto.

Gemini 2.0

O Gemini 2.0 é cobrado com base em tokens. Para calcular o número de tokens de entrada na solicitação antes de enviá-la, use o SDK tokenizer ou a API countTokens. Se a solicitação falhar com um erro 400 ou 500, você não vai receber cobranças pelos tokens usados.

Use a opção na tabela de preços para comparar os preços baseados em tokens e os preços baseados em modalidade.

Preços baseados em token

Modelo	Tipo	Preço	Preço com a API Batch
Gemini 2.0 Flash
	1 milhão de tokens de entrada	US$ 0,15	US$ 0,075
	1 milhão de tokens de áudio de entrada	US$ 1,00	US$ 0,50
	1 milhão de tokens de texto de saída	US$ 0,60	US$ 0,30
	Ajuste para 1 milhão de tokens de treinamento	US$ 3,00
Geração de imagens do Gemini 2.0 Flash
	1 milhão de tokens de entrada	US$ 0,15
	1 milhão de tokens de áudio de entrada	US$ 1,00
	1 milhão de tokens de vídeo de entrada	US$ 3
	1 milhão de tokens de texto de saída	US$ 0,60
	1 milhão de tokens de imagem de saída	US$ 30,00
API Gemini 2.0 Flash Live
	1 milhão de tokens de texto de entrada	US$ 0,5
	1 milhão de tokens de áudio de entrada	US$ 3
	1 milhão de tokens de entrada de vídeo/imagem	US$ 3
	1 milhão de tokens de texto de saída	US$ 2
	1 milhão de tokens de áudio de saída	US$ 12
Gemini 2.0 Flash Lite
	1 milhão de tokens de entrada	US$ 0,075	US$ 0,0375
	1 milhão de tokens de áudio de entrada	US$ 0,075	US$ 0,0375
	1 milhão de tokens de texto de saída	US$ 0,30	US$ 0,15
	Ajuste para 1 milhão de tokens de treinamento	US$ 1,00
Embasamento com a Pesquisa Google	O Gemini 2.0 Flash e o 2.5 Flash incluem um total de 1.500 comandos fundamentados por dia sem custo adicional. Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados. Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento na Web para empresas	US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com seus dados	US$ 2,50 por 1.000 solicitações a partir de 16 de junho de 2025.
Embasamento com o Google Maps	Os modelos do Gemini incluem vários comandos fundamentados diários sem custo extra: Gemini Flash e Flash-Lite: 1.500 comandos fundamentados combinados por dia. Gemini Pro: 10 mil comandos fundamentados por dia. Comandos fundamentados que excedem esses limites são cobrados a US$25 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz pelo menos uma consulta ao Google Maps. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.

Preços com base na modalidade

Os preços de modalidade abaixo são baseados em casos de uso médios apenas para referência. O faturamento real será baseado apenas em tokens:

4 caracteres resultam em aproximadamente 1 token de texto, incluindo espaços em branco.

Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.

A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. O vídeo com áudio é cobrado pelos tokens de vídeo e de áudio.

A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.

Modelo	Tipo	Preço	Preço com a API Batch
Gemini 2.0 Flash
	Texto de entrada (US$/M de caracteres)	US$ 0,0375	US$ 0,01875
	Imagem de entrada (US$/imagem)	US$ 0,0001935	US$ 0,00009675
	Vídeo de entrada (US$/segundo)	US$ 0,0000387	US$ 0,00001935
	Áudio de entrada (US$/segundo)	US$ 0,000025	US$ 0,0000125
	Texto de saída (US$/M de caracteres)	US$ 0,15	US$ 0,075
Geração de imagens do Gemini 2.0 Flash
	Texto de entrada (US$/M de caracteres)	US$ 0,0375
	Imagem de entrada (US$/imagem)	US$ 0,0001935
	Vídeo de entrada (US$/segundo)	US$ 0,0000387
	Áudio de entrada (US$/segundo)	US$ 0,000025
	Texto de saída (US$/M de caracteres)	US$ 0,15
	Imagem de saída ($/imagem)	US$ 0,04
Gemini 2.0 Flash Lite
	Texto de entrada (US$/M de caracteres)	US$ 0,01875	US$ 0,009375
	Imagem de entrada (US$/imagem)	US$ 0,00009675	US$ 0,000048375
	Vídeo de entrada (US$/segundo)	US$ 0,00001935	US$ 0,000009675
	Áudio de entrada (US$/segundo)	US$ 0,000001875	US$ 0,000000938
	Texto de saída (US$/M de caracteres)	US$ 0,075	US$ 0,0375
Embasamento com a Pesquisa Google	O Gemini 2.0 Flash e o 2.5 Flash incluem um total de 1.500 comandos fundamentados por dia sem custo adicional. Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados. Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento na Web para empresas	US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.

* Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de períodos.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
* O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.
* API Gemini 2.0 Flash Live: 25 tokens por segundo de áudio (entrada/saída), 258 tokens por segundo de vídeo (entrada). O embasamento com a Pesquisa Google continua sem custo financeiro enquanto a API Gemini 2.0 Flash Live estiver em pré-lançamento.

Explicação da cobrança da janela de contexto da sessão da LiveAPI: você recebe cobranças por turno por todos os tokens presentes na janela de contexto da sessão. A janela de contexto da sessão inclui novos tokens (turno atual) + todos os tokens acumulados dos turnos anteriores. Isso significa que os tokens de turnos anteriores são reprocessados e contabilizados em cada novo turno, até o tamanho da janela de contexto configurada. Um "turno" é uma entrada do usuário e a resposta do modelo.
Quando a transcrição de áudio para texto está ativada, todos os tokens de texto gerados para transcrição são cobrados na taxa de saída de tokens de texto.

Preços do otimizador de modelos da Vertex AI (experimental)*

O Vertex AI Model Optimizer simplifica o uso do Gemini para clientes corporativos, fornecendo um único metaendpoint para solicitações de modelo do Gemini. Os clientes que usam esse serviço não precisam especificar se vão usar o Flash, o Pro ou uma versão específica. Em vez disso, eles simplesmente fornecem uma configuração ajustável (custo, qualidade ou equilíbrio) para indicar suas preferências, e o Model Optimizer aplica o nível certo de inteligência apropriado para a tarefa enviando cada consulta ao modelo mais adequado.

O otimizador de modelos da Vertex AI aplica preços dinâmicos. Isso significa que o preço médio por token depende do nível de inteligência do modelo aplicado para concluir a tarefa. Por esse motivo, os exemplos de preços são fornecidos abaixo para ilustrar cenários prováveis com base na sua configuração (consulte as tabelas abaixo). As SKUs do Model Optimizer são SKUs de US $1 que funcionam como uma unidade de compra para aplicar ao seu faturamento. Você ainda será cobrado com base no consumo depois de usar os modelos.

Proporção de E/S de 5:1	Exemplo 1: chatbot	OBSERVAÇÃO: esses intervalos não são garantias, e os resultados de cada cliente podem variar
Preferência do cliente	Tokens de entrada do cliente enviados ao MO	Tokens de saída do cliente enviados para o MO	Preço médio de entrada por milhão de tokens (faixa alta)	Preço médio de saída por milhão de tokens (faixa alta)	Preço médio de entrada por milhão de tokens (faixa baixa)	Preço médio de saída por milhão de tokens (faixa baixa)
Custo	10.000.000	2.000.000	US$ 0,63	US$ 2,50	US$ 0,16	US$ 0,63
Equilibrada	10.000.000	2.000.000	US$ 1,26	US$ 5,00	US$ 0,63	US$ 2,50
Qualidade	10.000.000	2.000.000	US$ 1,89	US$ 7,50	US$ 1,26	US$ 5,00

Proporção de E/S de 1:20	Exemplo 2: Geração de conteúdo
Preferência do cliente	Tokens de entrada do cliente enviados ao MO	Tokens de saída do cliente enviados para o MO	Preço médio de entrada por milhão de tokens (faixa alta)	Preço médio de saída por milhão de tokens (faixa alta)	Preço médio de entrada por milhão de tokens (faixa baixa)	Preço médio de saída por milhão de tokens (faixa baixa)
Custo	1.000.000	20.000.000	US$ 0,63	US$ 2,50	US$ 0,16	US$ 0,63
Equilibrada	1.000.000	20.000.000	US$ 1,26	US$ 5,00	US$ 0,63	US$ 2,50
Qualidade	1.000.000	20.000.000	US$ 1,89	US$ 7,50	US$ 1,26	US$ 5,00

* O Model Optimizer é uma oferta experimental paga e pode encaminhar solicitações para versões experimentais do Gemini na Vertex.

Outros modelos do Gemini

Todos os modelos do Gemini, exceto o Gemini 2.0 ou o Gemini 2.5, são cobrados com base em modalidades como caracteres, imagens e segundos de vídeo/áudio. A entrada de texto é cobrada a cada 1.000 caracteres de entrada (comando) e a cada 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem, resultando em aproximadamente 4 caracteres por token. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo. A entrada de mídia é cobrada por imagem ou por segundo (vídeo). Se a solicitação falhar com um erro 400 ou 500, você não vai receber cobranças pelos tokens usados.

Modelo	Recurso	Tipo	Preço ( =< 128 mil tokens de entrada)	Preço ( > 128 mil tokens de entrada)
Gemini 1.5 Flash	Multimodal	Entrada de imagem Entrada de vídeo Entrada de texto Entrada de áudio	US$ 0,00002 / imagem US$0,00002 / segundo US$0,00001875 / 1 mil caracteres US$0,000002 / segundo	US$ 0,00004 / imagem US$0,00004 / segundo US$0,0000375 / 1 mil caracteres US$0,000004 / segundo
		Saída de texto	US$ 0,000075 / 1 mil caracteres	US$ 0,00015 / 1 mil caracteres
	Ajuste*	Token de treinamento	US$ 8 / M de tokens
Gemini 1.5 Pro	Multimodal	Entrada de imagem Entrada de vídeo Entrada de texto Entrada de áudio	US$ 0,00032875 / imagem US$0,00032875 / segundo US$0,0003125 / 1 mil caracteres US$0,00003125 / segundo	US$ 0,0006575 / imagem US$0,0006575 / segundo US$0,000625 / 1 mil caracteres US$0,0000625 / segundo
		Saída de texto	US$ 0,00125 / 1 mil caracteres	US$ 0,0025 / 1 mil caracteres
	Ajuste*	Token de treinamento	US$ 80 / M de tokens
Gemini 1.0 Pro	Multimodal	Entrada de imagem Entrada de vídeo Entrada de texto	US$ 0,0025 / imagem US$ 0,002 / segundo US$0,000125 / 1 mil caracteres
Gemini 1.0 Pro		Saída de texto	US$ 0,000375 / 1 mil characters
Embasamento com a Pesquisa Google	Texto	US$35 por 1.000 comandos fundamentados. Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento na Web para empresas	Texto	US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com seus dados	Texto	US$ 2,50 por 1.000 solicitações a partir de 16 de junho de 2025.

* Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Se um contexto de consulta for maior que 128 mil, todos os tokens serão cobrados com as taxas de contexto longo.
* Os modelos do Gemini estão disponíveis no modo em lote com 50% de desconto.
* O Gemini 1.0 Pro só oferece suporte a uma janela de contexto de até 32 mil tokens.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
* O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.

Imagen

Com o Imagen na Vertex AI, é possível gerar imagens novas e editar com base nas solicitações de texto fornecidas, ou editar apenas partes de imagens usando uma área de máscara definida por você, além de vários outros recursos.

Modelo	Recurso	Descrição	Entrada	Saída	Preço
Imagen 4 Ultra	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	US$ 0,06 por imagem
Imagen 4	Upscaling	Aumenta a resolução de uma imagem gerada para 2K, 3K e 4K	Imagem	Imagem	US$ 0,06 por imagem
Imagen 4	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	US$ 0,04 por imagem
Imagen 4 Fast	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	US$ 0,02 por imagem
Imagen 3	Geração de imagens	Gerar uma imagem Editar uma imagem Personalizar uma imagem	Comando de texto	Imagem	US$ 0,04 por imagem
Imagen 3 Fast	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	US$ 0,02 por imagem
Imagen 2, Imagen 1	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	$0,020 por imagem
Imagen 2, Imagen 1	Edição de imagens	Editar uma imagem usando a abordagem sem máscara ou com máscara	Solicitação de imagem/texto	Imagem	$0,020 por imagem
Imagen 1	Upscaling	Aumenta a resolução de uma imagem gerada para 2K e 4K	Imagem	Imagem	$0,003 por imagem
Imagen 1	Ajuste de detalhes	Ativa um "assunto" fornecido pelo usuário para ser usado nos comandos do Imagen (treinamento de poucas imagens)	Assunto(s) com identificador de texto e de 4 a 8 imagens por assunto	Modelo ajustado (após o treinamento com assuntos fornecidos pelo usuário)	US$ por hora de uso do nó (preços do treinamento personalizado da Vertex AI)
Imagen	Legendas visuais	Gerar uma legenda de texto curta ou longa para uma imagem	Imagem	Legenda de texto	$0,0015/imagem
Imagen	Perguntas e respostas visuais	Fornecer uma resposta com base em uma pergunta relacionada a uma imagem	Solicitação de imagem/texto	Resposta em texto	$0,0015/imagem
Imagen	Recontextualização de produtos	Reimagine produtos em uma nova cena	1 a 3 imagens do mesmo produto e um comando de texto descrevendo a cena desejada	Imagem	US$ 0,12 por imagem
	Simulador virtual da Vertex	Crie imagens de pessoas usando roupas diferentes	1 imagem de uma pessoa e 1 imagem de uma roupa	Imagem	US$ 0,06 por imagem

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Veo

O Veo cria vídeos de alta qualidade em uma ampla variedade de assuntos e estilos, com uma compreensão aprimorada da física do mundo real e das nuances do movimento e da expressão humana.

Modelo	Recurso	Descrição	Entrada	Saída	Resolução de saída	Preço
Veo 3.1	Geração de vídeo + áudio	Gere vídeos de alta qualidade com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência	Comando de texto/imagem	Vídeo + áudio	720p, 1080p	US$ 0,40/segundo
	Geração de vídeo + áudio	Gere vídeos de alta qualidade com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência	Comando de texto/imagem	Vídeo + áudio	4.000	US$ 0,60/segundo
	Geração de vídeo	Gere vídeos de alta qualidade com base em um comando de texto ou imagem de referência	Comando de texto/imagem	Vídeo	720p, 1080p	US$ 0,20/segundo
	Geração de vídeo	Gere vídeos de alta qualidade com base em um comando de texto ou imagem de referência	Comando de texto/imagem	Vídeo	4.000	US$ 0,40/segundo
Veo 3.1 Fast	Geração de vídeo + áudio	Gere vídeos com efeitos sonoros/de fala sincronizados a partir de um comando de texto ou imagem de referência com mais rapidez	Comando de texto/imagem	Vídeo + áudio	720p, 1080p	US$ 0,15/segundo
	Geração de vídeo + áudio	Gere vídeos com efeitos sonoros/de fala sincronizados a partir de um comando de texto ou imagem de referência com mais rapidez	Comando de texto/imagem	Vídeo + áudio	4.000	US$ 0,35/segundo
	Geração de vídeo	Gere vídeos com base em um comando de texto ou imagem de referência com mais rapidez	Comando de texto/imagem	Vídeo	720p, 1080p	US$ 0,10/segundo
	Geração de vídeo	Gere vídeos com base em um comando de texto ou imagem de referência com mais rapidez	Comando de texto/imagem	Vídeo	4.000	US$ 0,30/segundo
Veo 3	Geração de vídeo + áudio	Gere vídeos de alta qualidade com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência	Comando de texto/imagem	Vídeo + áudio	720p, 1080p	US$ 0,40/segundo
Veo 3	Geração de vídeo	Gere vídeos de alta qualidade com base em um comando de texto ou imagem de referência	Comando de texto/imagem	Vídeo	720p, 1080p	US$ 0,20/segundo
Veo 3 Fast	Geração de vídeo + áudio	Gere vídeos com efeitos sonoros/de fala sincronizados a partir de um comando de texto ou imagem de referência com mais rapidez	Comando de texto/imagem	Vídeo + áudio	720p, 1080p	US$ 0,15/segundo
Veo 3 Fast	Geração de vídeo	Gere vídeos com base em um comando de texto ou imagem de referência com mais rapidez	Comando de texto/imagem	Vídeo	720p, 1080p	US$ 0,10/segundo
Veo 2	Geração de vídeo	Gere vídeos com base em um comando de texto ou imagem de referência	Comando de texto/imagem	Vídeo	720p	US$ 0,50/segundo
Veo 2	Controles avançados	Gere vídeos por meio da interpolação de frames inicial e final, estenda os vídeos gerados e aplique controles de câmera	Comando de texto/imagem/vídeo	Vídeo	720p	US$ 0,50/segundo

Lyria

O Lyria 2 oferece geração de música instrumental de alta qualidade, ideal para composições sofisticadas e exploração criativa detalhada em que a saída sutil é fundamental.

Modelo	Recurso	Descrição	Entrada	Saída	Preço
Lyria 2	Geração de música	Gerar música com base em um comando de texto	Comando de texto	Música	US$ 0,06 por 30 segundos

Entenda os custos de embeddings para seus aplicativos de IA

Modelo	Tipo	Região	Preço por 1.000 tokens de entrada
Incorporação do Gemini	Entrada	Global	Solicitações on-line: US$ 0,00015 Solicitações em lote: US$ 0,00012
Incorporação do Gemini	Saída	Global	Solicitações on-line: sem custo financeiro Solicitações em lote: sem cobrança

Modelo	Tipo	Região	Preço por 1.000 caracteres
Embeddings para texto (exceto o embedding do Gemini)	Entrada	Global	Solicitações on-line: US$ 0,000025 Solicitações em lote: US$ 0,00002
Embeddings para texto (exceto o embedding do Gemini)	Saída	Global	Solicitações on-line: sem custo financeiro Solicitações em lote: sem cobrança

Modelo	Recurso	Descrição	Entrada	Saída	Preço
multimodalembedding	Embeddings para multimodal: texto	Gerar embeddings usando texto como entrada	Texto	Embeddings	US$ 0,0002/1.000 caracteres de entrada
	Embeddings para multimodal: imagem	Gerar embeddings usando imagem como entrada	Imagem	Embeddings	$0,0001/entrada de imagem
	Embeddings para multimodal: vídeo Plus	Vídeo Plus	Vídeo	Embeddings (até 15 embeddings por minuto de vídeo)	US$ 0,0020 por segundo de vídeo
	Embeddings para multimodal: vídeo padrão	Vídeo Standard	Vídeo	Embeddings (até 8 embeddings por minuto de vídeo)	US$ 0,0010 por segundo de vídeo
	Embeddings para multimodal: vídeo essencial	Vídeo Essential	Vídeo	Embeddings (até 4 embeddings por minuto de vídeo)	US$ 0,0005 por segundo de vídeo

Modelo de código aberto	Tipo	Preço por 1.000 tokens de entrada
multilingual-e5-small	Entrada: Saída: Entrada em lote: Saída em lote:	Solicitações on-line: US$ 0,000015 Solicitações on-line: sem custo financeiro Solicitações em lote: US$ 0,0000075 Solicitações em lote: sem custo financeiro
multilingual-e5-large	Entrada: Saída: Entrada em lote: Saída em lote:	Solicitações on-line: US$ 0,000025 Solicitações on-line: sem custo financeiro Solicitações em lote: US$ 0,0000125 Solicitações em lote: sem custo financeiro

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Preços do preenchimento de código da Vertex AI

A IA generativa na Vertex AI cobra por 1.000 caracteres de entrada (prompt) e por 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem. Durante o estágio de visualização, as cobranças são 100% descontadas. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo.

Modelo	Tipo	Região	Preço por 1.000 caracteres
Codey para preenchimento de código	Entrada	Global	Solicitações on-line: US$ 0,00025
Codey para preenchimento de código	Saída	Global	Solicitações on-line: US$ 0,0005

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Tradução (texto)

Usar a API Vertex AI e o LLM de tradução para traduzir textos. As traduções de LLM tendem a ser mais fluentes e naturais do que os modelos de tradução clássicos, mas têm suporte a idiomas mais limitado (Saiba mais).

Modelo	Método	Uso	Preço por milhão de caracteres
LLM	Tradução de texto^*	O número de caracteres de entrada por mês	US$ 10 por milhão de caracteres^*
	Tradução de texto^*	O número de caracteres de saída por mês	US$ 10 por milhão de caracteres^*

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
^*O preço é por caractere processado pelo modelo. Para mais informações sobre a contagem de caracteres cobrados, consulte este link

Preço do armazenamento em cache de contexto para o cache explícito

Modelo	Recurso	Tipo	Preço (/1M de tokens) <= 200 mil tokens de entrada	Preço (/1M de tokens) > 200 mil tokens de entrada
Gemini 3 Pro	Armazenamento em cache de contexto	Entrada (texto, imagem, vídeo, áudio)	US$ 4,50 (por mil tokens/hora)	US$ 4,50 (por mil tokens/hora)
Gemini 2.5 Pro	Armazenamento em cache de contexto	Entrada (texto, imagem, vídeo, áudio)	US$ 4,50 (por mil tokens/hora)	US$ 4,50 (por mil tokens/hora)
Gemini 2.5 Flash	Armazenamento em cache de contexto	Entrada (texto, imagem, vídeo, áudio)	US$ 1 (/M de tokens/hora)	US$ 1 (/M de tokens/hora)
Gemini 2.5 Flash Lite	Armazenamento em cache de contexto	Entrada (texto, imagem, vídeo, áudio)	US$ 1 (/M de tokens/hora)	US$ 1 (/M de tokens/hora)

Modelos do Gemini 2.0

Preços baseados em token

Modelo	Tipo	Armazenamento (M tok-hora)	Preço
Gemini 2.0 Flash
	1 milhão de tokens de entrada	US$ 1,00	US$ 0,0375
	1 milhão de tokens de áudio de entrada	US$ 1,00	US$ 0,25
	1 milhão de tokens de texto de saída	NA	NA
Gemini 2.0 Flash Lite
	1 milhão de tokens de entrada	US$ 1,00	US$ 0,01875
	1 milhão de tokens de áudio de entrada	US$ 1,00	US$ 0,01875
	1 milhão de tokens de texto de saída	NA	NA

Preços com base na modalidade

Os preços de modalidade abaixo são baseados em casos de uso médios apenas para referência. O faturamento real será baseado apenas em tokens:

4 caracteres resultam em aproximadamente 1 token de texto, incluindo espaços em branco.

A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. O vídeo com áudio é cobrado pelos tokens de vídeo e de áudio.

A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.

Modelo	Tipo	Armazenamento (hora/modalidade)	Preço
Gemini 2.0 Flash
	Texto de entrada (US$/M de caracteres)	US$ 0,25	US$ 0,009375
	Imagem de entrada (US$/imagem)	US$ 0,00129	US$ 0,000048375
	Vídeo de entrada (US$/segundo)	US$ 0,000258	US$ 0,000009675
	Áudio de entrada (US$/segundo)	US$ 0,000025	US$ 0,00000625
	Texto de saída (US$/M de caracteres)	NA	NA
Gemini 2.0 Flash Lite
	Texto de entrada (US$/M de caracteres)	US$ 0,25	US$ 0,0046875
	Imagem de entrada (US$/imagem)	US$ 0,00129	US$ 0,0000241875
	Vídeo de entrada (US$/segundo)	US$ 0,000258	US$ 0,000009675
	Áudio de entrada (US$/segundo)	US$ 0,000258	US$ 0,0000048375
	Texto de saída (US$/M de caracteres)	NA	NA
Embasamento com a Pesquisa Google	O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. Solicitações fundamentadas que excedam 1.500 por dia serão cobradas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia). Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de solicitações por dia.
Embasamento na Web para empresas	US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025. Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

* Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
* O embasamento com a Pesquisa Google é cobrado apenas para solicitações que retornam resultados com pelo menos um URL de suporte de embasamento da Web. Também são aplicadas as taxas de uso do modelo Gemini padrão.

Capacidade de processamento provisionada

A capacidade de processamento provisionada garante a capacidade de processamento para suas necessidades de IA generativa e é negociada por meio de unidades de escalonamento de IA generativa, ou GSUs. Saiba mais sobre a quantidade de capacidade de processamento que cada GSU oferece aqui e use nosso estimador on-line aqui.

Duração	Preço por GSU	Por
Compromisso de 1 semana	US$ 1.200	Semana
Compromisso de 1 mês	US$ 2.700	Mês
Compromisso de 3 meses	US$ 2.400	Mês
Compromisso de 1 ano	US$ 2.000	Mês

Exemplo de cálculo de custo

Um usuário precisa garantir que possa oferecer suporte a 10 consultas por segundo (QPS) de uma consulta com entrada de 1.000 tokens de texto e 500 tokens de áudio e receber uma saída de 300 tokens de texto usando o gemini-2.0-flash.

Usando a tabela de taxa de transferência e burndown, para o gemini-2.0-flash, sabemos que a taxa de burndown de um token de texto de entrada é de 1 token, a taxa de burndown de um token de áudio de entrada é de 7 tokens e a taxa de burndown de um token de texto de saída é de 4 tokens.

O total de tokens de entrada do usuário é 1.000* (1 token por token de texto de entrada) + 500* (7 tokens por token de áudio de entrada) = 4.500 tokens de entrada ajustados para redução. O total de tokens de saída do usuário é 300* (4 tokens por token de texto de saída) = 1.200 tokens de saída ajustados para redução. Somando tudo, temos 4.500 tokens de entrada ajustados por redução + 1.200 tokens de saída ajustados por redução = 5.700 tokens no total por consulta.

Multiplicando o total de tokens por consulta por QPS, temos 5.700 tokens totais por consulta * 10 QPS = 57.000 tokens totais por segundo.

Dividindo isso pela capacidade de processamento total por segundo por GSU,temos 57.000 tokens totais por segundo ÷ 3.360 de capacidade de processamento por segundo por GSU = 16,96 GSUs. O incremento mínimo de compra de GSU para esse modelo é 1, então o usuário precisaria de 17 GSUs.

Se o usuário quisesse manter essa capacidade de processamento por uma semana, o custo seria de US $1.200 * 17 GSUs = US $20.400 por semana. Se eles quisessem manter essa capacidade de processamento por um mês, o custo seria de US $2.700 * 17 GSUs = US $45.900 por mês. Se eles quisessem manter essa capacidade de processamento por 3 meses, isso custaria US $2.400 * 17 GSUs = US $40.800 por mês. Por fim, se eles quisessem manter essa capacidade de processamento por um ano, o custo seria de US $2.000 * 17 GSUs = US $34.000 por mês.

Ajuste de modelos

O ajuste de modelos é uma maneira eficaz de personalizar modelos grandes para suas tarefas. Essa é uma etapa fundamental para melhorar a qualidade e a eficiência do modelo. O ajuste de modelos oferece os seguintes benefícios:

Qualidade mais alta para suas tarefas específicas
Maior robustez do modelo
Menor latência e custo de inferência devido a comandos mais curtos

O ajuste é cobrado por milhão de tokens de treinamento. Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de períodos. Para inferência de modelo, o endpoint do modelo ajustado do Gemini tem o mesmo preço de previsão do modelo de base.

Modelo	Tipo	Preço (por 1 milhão de tokens de treinamento)
Gemini 2.5 Pro	Ajuste supervisionado	US$ 25
Gemini 2.5 Flash	Ajuste supervisionado Ajuste de preferências	US$ 5
Gemini 2.5 Flash Lite	Ajuste supervisionado Ajuste de preferências	US$ 1,5
Gemma 3 27B IT	Ajuste supervisionado	US$ 6,83
Llama 3.1 8B	Ajuste supervisionado	US$ 0,67
Llama 3.2 1B	Ajuste supervisionado	US$ 0,28
Llama 3.2 3B	Ajuste supervisionado	US$ 0,61
Llama 3.3 70B	Ajuste supervisionado	US$ 6,72
Llama 4 Scout 17B 16E	Ajuste supervisionado	US$ 5,77
Qwen 3 32B	Ajuste supervisionado	US$ 6,57

* Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de períodos.
* O endpoint de um modelo ajustado do Gemini tem o mesmo preço de previsão do modelo de base.

Comparar os preços dos modelos de parceiros na Vertex AI

Os modelos de parceiros são uma lista selecionada de modelos de IA generativa desenvolvidos por parceiros do Google. Os modelos de parceiros são oferecidos como APIs gerenciadas. Para mais informações, consulte Visão geral dos modelos de parceiros. As seções a seguir listam os detalhes de preços dos modelos de parceiros do Google.

Modelos da AI21 Labs

Modelo	Preços
Jamba 1.5 Large (obsoleto)	Entrada: US$ 2 / milhão de tokens Saída: US$ 8 / milhão de tokens
Jamba 1.5 Mini (descontinuado)	Entrada: US$ 0,20 / milhão de tokens Saída: US$ 0,40 / milhão de tokens

Modelos Claude da Anthropic

Modelos com preços regionais

Global

Modelo	Preço (por 1 milhão de tokens) < 200 mil tokens de entrada	Preço (/1M de tokens) >= 200 mil tokens de entrada
Claude Opus 4.5	Entrada: US$ 5,00 Saída: US$ 25,00 Entrada em lote: US$ 2,50 Saída em lote: US$ 12,50 Gravação em cache de 5 minutos: US$ 6,25 Gravação em cache de 1 hora: US$ 10,00 Acerto de cache: US$ 0,50 Gravação em cache em lote de 5 minutos: US$ 3,125 Gravação em cache em lote de 1 hora: US$ 5,00 Acerto de cache em lote: US$ 0,25
Claude Sonnet 4.5	Entrada: US$ 3,00 Saída: US$ 15,00 Entrada em lote: US$ 1,50 Saída em lote: US$ 7,50 Gravação em cache de 5 min: US$ 3,75 Gravação em cache de 1 h: US$ 6,00 Acerto de cache: US$ 0,30 Gravação em cache em lote de 5 min: US$ 1,88 Gravação em cache em lote de 1 h: US$ 3,00 Acerto de cache em lote: US$ 0,15	Entrada: US$ 6,00 Saída: US$ 22,50 Gravação em cache de 5 minutos: US$ 7,50 Gravação em cache de 1 hora: US$ 12,00 Acerto de cache: US$ 0,60
Claude Haiku 4.5	Entrada: US$ 1,00 Saída: US$ 5,00 Entrada em lote: US$ 0,50 Saída em lote: US$ 2,50 Gravação em cache de 5 minutos: US$ 1,25 Gravação em cache de 1 hora: US$ 2,00 Acerto de cache: US$ 0,10 Gravação em cache em lote de 5 minutos: US$ 0,625 Gravação em cache em lote de 1 hora: US$ 1,00 Acerto de cache em lote: US$ 0,05

us-east5

Modelo	Preço (por 1 milhão de tokens) < 200 mil tokens de entrada	Preço (/1M de tokens) >= 200 mil tokens de entrada
Claude Opus 4.5	Entrada: US$ 5,50 Saída: US$ 27,50 Entrada em lote: US$ 2,75 Saída em lote: US$ 13,75 Gravação em cache de 5 minutos: US$ 6,875 Gravação em cache de 1 hora: US$ 11,00 Acerto de cache: US$ 0,55 Gravação em cache em lote de 5 minutos: US$ 3,438 Gravação em cache em lote de 1 hora: US$ 5,50 Acerto de cache em lote: US$ 0,275
Claude Sonnet 4.5	Entrada: US$ 3,30 Saída: US$ 16,50 Entrada em lote: US$ 1,65 Saída em lote: US$ 8,25 Gravação em cache de 5 min: US$ 4,13 Gravação em cache de 1 h: US$ 6,60 Acerto de cache: US$ 0,33 Gravação em cache em lote de 5 min: US$ 2,06 Gravação em cache em lote de 1 h: US$ 3,30 Acerto de cache em lote: US$ 0,17	Entrada: US$ 6,60 Saída: US$ 24,75 Gravação em cache de 5 minutos: US$ 8,25 Gravação em cache de 1 hora: US$ 13,20 Acerto de cache: US$ 0,66
Claude Haiku 4.5	Entrada: US$ 1,10 Saída: US$ 5,50 Entrada em lote: US$ 0,55 Saída em lote: US$ 2,75 Gravação em cache de 5 min: US$ 1,375 Gravação em cache de 1 h: US$ 2,20 Gravação em cache: US$ 1,375 Acerto de cache: US$ 0,11 Gravação em cache em lote de 5 min: US$ 0,688 Gravação em cache em lote de 1 h: US$ 1,10 Acerto de cache em lote: US$ 0,055

europe-west1

Modelo	Preço (por 1 milhão de tokens) < 200 mil tokens de entrada	Preço (/1M de tokens) >= 200 mil tokens de entrada
Claude Opus 4.5	Entrada: US$ 5,50 Saída: US$ 27,50 Entrada em lote: US$ 2,75 Saída em lote: US$ 13,75 Gravação em cache de 5 minutos: US$ 6,875 Gravação em cache de 1 hora: US$ 11,00 Acerto de cache: US$ 0,55 Gravação em cache em lote de 5 minutos: US$ 3,438 Gravação em cache em lote de 1 hora: US$ 5,50 Acerto de cache em lote: US$ 0,275
Claude Sonnet 4.5	Entrada: US$ 3,30 Saída: US$ 16,50 Entrada em lote: US$ 1,65 Saída em lote: US$ 8,25 Gravação em cache de 5 min: US$ 4,13 Gravação em cache de 1 h: US$ 6,60 Acerto de cache: US$ 0,33 Gravação em cache em lote de 5 min: US$ 2,06 Gravação em cache em lote de 1 h: US$ 3,30 Acerto de cache em lote: US$ 0,17	Entrada: US$ 6,60 Saída: US$ 24,75 Gravação em cache de 5 minutos: US$ 8,25 Gravação em cache de 1 hora: US$ 13,20 Acerto de cache: US$ 0,66
Claude Haiku 4.5	Entrada: US$ 1,10 Saída: US$ 5,50 Entrada em lote: US$ 0,55 Saída em lote: US$ 2,75 Gravação em cache de 5 minutos: US$ 1,375 Gravação em cache de 1 hora: US$ 2,20 Acerto de cache: US$ 0,11 Gravação em cache em lote de 5 minutos: US$ 0,688 Gravação em cache em lote de 1 hora: US$ 1,10 Acerto de cache em lote: US$ 0,055

asia-southeast1

Modelo	Preço (por 1 milhão de tokens) < 200 mil tokens de entrada	Preço (/1M de tokens) >= 200 mil tokens de entrada
Claude Opus 4.5	Entrada: US$ 5,50 Saída: US$ 27,50 Entrada em lote: US$ 2,75 Saída em lote: US$ 13,75 Gravação em cache de 5 minutos: US$ 6,875 Gravação em cache de 1 hora: US$ 11,00 Acerto de cache: US$ 0,55 Gravação em cache em lote de 5 minutos: US$ 3,438 Gravação em cache em lote de 1 hora: US$ 5,50 Acerto de cache em lote: US$ 0,275
Claude Sonnet 4.5	Entrada: US$ 3,30 Saída: US$ 16,50 Entrada em lote: US$ 1,65 Saída em lote: US$ 8,25 Gravação em cache de 5 min: US$ 4,13 Gravação em cache de 1 h: US$ 6,60 Acerto de cache: US$ 0,33 Gravação em cache em lote de 5 min: US$ 2,06 Gravação em cache em lote de 1 h: US$ 3,30 Acerto de cache em lote: US$ 0,17	Entrada: US$ 6,60 Saída: US$ 24,75 Gravação em cache de 5 minutos: US$ 8,25 Gravação em cache de 1 hora: US$ 13,20 Acerto de cache: US$ 0,66

asia-east1

Modelo	Preço (por 1 milhão de tokens) < 200 mil tokens de entrada	Preço (/1M de tokens) >= 200 mil tokens de entrada
Claude Haiku 4.5	Entrada: US$ 1,10 Saída: US$ 5,50 Entrada em lote: US$ 0,55 Saída em lote: US$ 2,75 Gravação em cache de 5 minutos: US$ 1,375 Gravação em cache de 1 hora: US$ 2,20 Acerto de cache: US$ 0,11 Gravação em cache em lote de 5 minutos: US$ 0,688 Gravação em cache em lote de 1 hora: US$ 1,10 Acerto de cache em lote: US$ 0,055

* Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.

Modelos com preços uniformes em todas as regiões

Modelo	Preço (por 1 milhão de tokens) < 200 mil tokens de entrada	Preço (/1M de tokens) >= 200 mil tokens de entrada
Claude Opus 4.1	Entrada: US$ 15 Saída: US$ 75 Entrada em lote: US$ 7,50 Saída em lote: US$ 37,50 Gravação em cache de 5 min: US$ 18,75 Gravação em cache de 1 h: US$ 30 Acerto de cache: US$ 1,50 Gravação em cache em lote de 5 min: US$ 9,375 Gravação em cache em lote de 1 h: US$ 15,00 Acerto de cache em lote: US$ 0,75	N/A
Claude Opus 4	Entrada: US$ 15 Saída: US$ 75 Entrada em lote: US$ 7,50 Saída em lote: US$ 37,50 Gravação em cache de 5 min: US$ 18,75 Gravação em cache de 1 h: US$ 30 Acerto de cache: US$ 1,50 Gravação em cache em lote de 5 min: US$ 9,375 Gravação em cache em lote de 1 h: US$ 15,00 Acerto de cache em lote: US$ 0,75	N/A
Claude Sonnet 4	Entrada: US$ 3 Saída: US$ 15 Entrada em lote: US$ 1,50 Saída em lote: US$ 7,50 Gravação em cache de 5 min: US$ 3,75 Gravação em cache de 1 h: US$ 6,00 Acesso ao cache: US$ 0,30 Gravação em cache em lote de 5 min: US$ 1,875 Gravação em cache em lote de 1 h: US$ 3,00 Acesso ao cache em lote: US$ 0,15
Claude 3 Haiku	Entrada: US$ 0,25 Saída: US$ 1,25 Gravação em cache de 5 minutos: US$ 0,30 Gravação em cache de 1 hora: US$ 0,50 Acerto de cache: US$ 0,03	N/A
Claude 3.5 Haiku (descontinuado)	Entrada: US$ 0,80 Saída: US$ 4 Entrada em lote: US$ 0,40 Saída em lote: US$ 2 Gravação em cache de 5 minutos: US$ 1 Gravação em cache de 1 hora: US$ 1,60 Acerto de cache: US$ 0,08 Gravação em cache em lote: US$ 0,50 Acerto de cache em lote: US$ 0,04	N/A
Claude 3.7 Sonnet (descontinuado)	Entrada: US$ 3 Saída: US$ 15 Entrada em lote: US$ 1,50 Saída em lote: US$ 7,50 Gravação em cache: US$ 3,75 Acerto de cache: US$ 0,30 Gravação em cache em lote: US$ 1,875 Acerto de cache em lote: US$ 0,15	N/A
Claude 3.5 Sonnet v2 (descontinuado)	Entrada: US$ 3 Saída: US$ 15 Entrada em lote: US$ 1,50 Saída em lote: US$ 7,50 Gravação em cache: US$ 3,75 Acerto de cache: US$ 0,30 Gravação em cache em lote: US$ 1,875 Acerto de cache em lote: US$ 0,15	N/A
Claude 3.5 Sonnet (descontinuado)	Entrada: US$ 3 Saída: US$ 15 Gravação no cache: US$ 3,75 Acerto no cache: US$ 0,30	N/A
Claude 3 Opus (descontinuado)	Entrada: US$ 15 Saída: US$ 75 Gravação no cache: US$ 18,75 Acerto de cache: US$ 1,50	N/A

* Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.

Preços das ferramentas

Ferramenta	Preço
Solicitação de pesquisa na Web	US$10 por 1.000 pesquisas Modelos compatíveis: Claude Haiku 4.5, Claude Sonnet 4.5, Claude Sonnet 4, Claude Opus 4.1 e Claude Opus 4.

* Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.

Modelos da Deepseek

Modelo	Preços
DeepSeek-V3.1	Entrada: US$ 0,60 / milhão de tokens Saída: US$ 1,70 / milhão de tokens Entrada em lote: US$ 0,30 / milhão de tokens Saída em lote: US$ 0,85 / milhão de tokens
DeepSeek-V3.2	Entrada: US$ 0,56 / milhão de tokens Saída: US$ 1,68 / milhão de tokens Entrada em lote: US$ 0,28 / milhão de tokens Saída em lote: US$ 0,84 / milhão de tokens
DeepSeek-R1 (0528)	Entrada: US$ 1,35 / milhão de tokens Saída: US$ 5,40 / milhão de tokens Entrada em lote: US$ 0,675 / milhão de tokens Saída em lote: US$ 2,70 / milhão de tokens
DeepSeek-OCR	Entrada: US$ 0,30 / milhão de tokens (ou US $0,0003/página) Saída: US$ 1,20 / milhão de tokens (ou US $0,00012/página)

Modelos da MiniMax

Modelo	Preços
MiniMax-M2	Entrada: US$ 0,30 / milhão de tokens Saída: US$ 1,20 / milhão de tokens

Modelos da Moonshot

Modelo	Preços
Kimi-K2-Thinking	Entrada: US$ 0,60 / milhão de tokens Saída: US$ 2,50 / milhão de tokens

Modelos da Qwen

Modelo	Preços
Qwen3-Next-80B-Thinking	Entrada: US$ 0,15 / milhão de tokens Saída: US$ 1,20 / milhão de tokens
Qwen3-Next-80B-Instruct	Entrada: US$ 0,15 / milhão de tokens Saída: US$ 1,20 / milhão de tokens
Qwen3-Coder-480B-A35B-Instruct	Entrada: US$ 0,22 / milhão de tokens Saída: US$ 1,80 / milhão de tokens Acerto de cache: US$ 0,022 / milhão de tokens Entrada em lote: US$ 0,11 / milhão de tokens Saída em lote: US$ 0,90 / milhão de tokens
Qwen3-235B-A22B-Instruct-2507	Entrada: US$ 0,22 / milhão de tokens Saída: US$ 0,88 / milhão de tokens Entrada em lote: US$ 0,11 / milhão de tokens Saída em lote: US$ 0,44 / milhão de tokens

Modelos do GLM

Modelo	Preços
GLM-4.7 *	Entrada: US$ 0,60 / milhão de tokens Saída: US$ 2,20 / milhão de tokens

* Disponível sem custos financeiros até 28 de janeiro de 2026.

Modelos da OpenAI

Modelo	Preços
gpt-oss-120b	Entrada: US$ 0,09 / milhão de tokens Saída: US$ 0,36 / milhão de tokens Entrada em lote: US$ 0,045 / milhão de tokens Saída em lote: US$ 0,18 / milhão de tokens
gpt-oss-20b	Entrada: US$ 0,07 / milhão de tokens Saída: US$ 0,25 / milhão de tokens Entrada em lote: US$ 0,035 / milhão de tokens Saída em lote: US$ 0,125 / milhão de tokens

Modelos Llama da Meta

Modelo	Preços
Llama 3.1 405B	Entrada: US$ 5,00 / milhão de tokens Saída: US$ 16,00 / milhão de tokens
Llama 3.3 70B	Entrada: US$ 0,72 / milhão de tokens Saída: US$ 0,72 / milhão de tokens Entrada em lote: US$ 0,36 / milhão de tokens Saída em lote: US$ 0,36 / milhão de tokens
Llama 4 Scout	Entrada: US$ 0,25 / milhão de tokens Saída: US$ 0,70 / milhão de tokens Entrada em lote: US$ 0,125 / milhão de tokens Saída em lote: US$ 0,35 / milhão de tokens
Llama 4 Maverick	Entrada: US$ 0,35 / milhão de tokens Saída: US$ 1,15 / milhão de tokens Entrada em lote: US$ 0,175 / milhão de tokens Saída em lote: US$ 0,575 / milhão de tokens

Modelos da Mistral AI

Modelo	Preços
OCR do Mistral (25/05)	Entrada: US$ 0,0005 / milhão de tokens (ou US $0,0005/página) Saída: US$ 0,0005 / milhão de tokens (ou US $0,0005/página)
Mistral Medium 3	Entrada: US$ 0,40 / milhão de tokens Saída: US$ 2,00 / milhão de tokens
Mistral Small 3.1 (25.03)	Entrada: US$ 0,10 / milhão de tokens Saída: US$ 0,30 / milhão de tokens
Mistral Large (24.11) (descontinuado)	Entrada: US$ 2,00 / milhão de tokens Saída: US$ 6,00 / milhão de tokens
Codestral 2	Entrada: US$ 0,30 / milhão de tokens Saída: US$ 0,90 / milhão de tokens
Codestral (25.01) (descontinuado)	Entrada: US$ 0,30 / milhão de tokens Saída: US$ 0,90 / milhão de tokens

Solicite uma cotação personalizada

Com o sistema de pagamento por uso do Google Cloud, você paga apenas pelos serviços que usa. Entre em contato com nossa equipe de vendas e receba uma cotação personalizada para sua organização.

Entre em contato