A partir de 29 de abril de 2025, os modelos Gemini 1.5 Pro e Gemini 1.5 Flash não estarão disponíveis em projetos que não os usaram antes, incluindo novos projetos. Para mais detalhes, consulte Versões e ciclo de vida do modelo.

Esta página foi traduzida pela API Cloud Translation.

Custo de criação e implantação de modelos de IA na Vertex AI

Os preços são indicados em dólares americanos (US$). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.

Você só vai pagar pelas solicitações que retornarem um código de resposta 200. As solicitações que retornam outros códigos de resposta, como 4xx e 5xx, não são cobradas pela entrada ou saída.

Nesta página, você encontra informações sobre os preços da IA generativa na Vertex AI. Para todos os outros preços da Vertex AI, incluindo os serviços ML Platform e MLOps, consulte a página de preços da Vertex AI.

Modelos do Google

Gemini 2.5

Modelo	Tipo	Preço (/1M tokens) <= 200 mil tokens de entrada	Preço (/1M tokens) > 200 mil tokens de entrada	Preço (/1 milhão de tokens) <= 200 mil tokens de entrada com a API em lote	Preço (/1M tokens) > 200 mil tokens de entrada com a API de lote
Gemini 2.5 Pro
	Entrada (texto, imagem, vídeo, áudio)	US$ 1,25	US$ 2,50	US$ 0,625	US$ 1,25
	Saída de texto (resposta e raciocínio)	US$ 10	US$ 15	US$ 5	US$ 7,5
Gemini 2.5 Flash GA
	Entrada (texto, imagem, vídeo)	US$ 0,30	US$ 0,30	US$ 0,15	US$ 0,15
	Entrada de áudio	US$ 1	US$ 1	US$ 0,5	US$ 0,5
	Saída de texto	US$ 2,50	US$ 2,50	US$ 1,25	US$ 1,25
	Ajuste para 1 milhão de tokens de treinamento	US$ 5,00	N/A	N/A	N/A
Pré-lançamento do Gemini 2.5 Flash (Endpoints desativados em 15/07/2025)
	Entrada (texto, imagem, vídeo)	US$ 0,15	US$ 0,15	US$ 0,075	US$ 0,075
	Entrada de áudio	US$ 1	US$ 1	US$ 0,5	US$ 0,5
	Saída de texto (sem pensamento)	US$ 0,60	US$ 0,60	US$ 0,30	US$ 0,30
	Saída de texto (pensamento, resposta e raciocínio)	US$ 3,50	US$ 3,50	US$ 1,75	US$ 1,75
API Gemini 2.5 Flash Live
	1 milhão de tokens de texto de entrada	US$ 0,5	US$ 0,5	N/A	N/A
	1 milhão de tokens de áudio de entrada	US$ 3	US$ 3	N/A	N/A
	1 milhão de tokens de vídeo de entrada	US$ 3	US$ 3	N/A	N/A
	1 milhão de tokens de texto de saída	US$ 2	US$ 2	N/A	N/A
	1 milhão de tokens de áudio de saída	US$ 12	US$ 12	N/A	N/A
Gemini 2.5 Flash Lite
	Entrada (texto, imagem, vídeo)	US$ 0,10	US$ 0,10	N/A	N/A
	Entrada de áudio	US$ 0,5	US$ 0,5	N/A	N/A
	Saída de texto (resposta e raciocínio)	US$ 0,4	US$ 0,4	N/A	N/A
Embasamento com a Pesquisa Google	O Gemini 2.0 Flash, o 2.5 Flash e o 2.5 Flash-Lite incluem um total de 1.500 comandos fundamentados por dia sem custo adicional. O Gemini 2.5 Pro inclui 10.000 comandos fundamentados por dia sem custo adicional. Comandos fundamentados que excederem esses limites serão cobrados a US$35 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google&ast;&ast;. Mesmo que várias consultas de pesquisa sejam enviadas à Pesquisa Google, apenas um comando fundamentado é cobrado. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Web Grounding para empresas	US$45 por 1.000 comandos fundamentados. Um comando com fundamentação é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas**. Mesmo que várias consultas de pesquisa sejam enviadas à Pesquisa Google, apenas um comando fundamentado é cobrado. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com seus dados	US$ 2,5 por 1.000 solicitações a partir de 16 de junho de 2025.

* Se o contexto de entrada de uma consulta tiver mais de 200 mil tokens, todos os tokens (de entrada e saída) serão cobrados com as taxas de contexto longo.
** A fundamentação com a Pesquisa Google e a Web Grounding para empresas é cobrada apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de fundamentação da Web). As taxas de uso do modelo do Gemini são aplicadas separadamente.

Gemini 2.0

O Gemini 2.0 é cobrado com base em tokens. Para calcular o número de tokens de entrada na sua solicitação antes de enviá-la, use o tokenizer do SDK ou a API countTokens. Se sua solicitação falhar com um erro 400 ou 500, você não será cobrado pelos tokens usados.

Use a alternância na tabela de preços para comparar os preços baseados em tokens e em modalidades.

Preços baseados em token

Modelo	Tipo	Preço	Preço com a API Batch
Gemini 2.0 Flash
	1 milhão de tokens de entrada	US$ 0,15	US$ 0,075
	1 milhão de tokens de áudio de entrada	US$ 1,00	US$ 0,50
	1 milhão de tokens de texto de saída	US$ 0,60	US$ 0,30
	Ajuste para 1 milhão de tokens de treinamento	US$ 3,00
Geração de imagens do Gemini 2.0 Flash
	1 milhão de tokens de entrada	US$ 0,15
	1 milhão de tokens de áudio de entrada	US$ 1,00
	1 milhão de tokens de vídeo de entrada	US$ 3
	1 milhão de tokens de texto de saída	US$ 0,60
	1 milhão de tokens de imagem de saída	US$ 30,00
API Gemini 2.0 Flash Live
	1 milhão de tokens de texto de entrada	US$ 0,5
	1 milhão de tokens de áudio de entrada	US$ 3
	1 milhão de tokens de vídeo de entrada	US$ 3
	1 milhão de tokens de texto de saída	US$ 2
	1 milhão de tokens de áudio de saída	US$ 12
Gemini 2.0 Flash Lite
	1 milhão de tokens de entrada	US$ 0,075	US$ 0,0375
	1 milhão de tokens de áudio de entrada	US$ 0,075	US$ 0,0375
	1 milhão de tokens de texto de saída	US$ 0,30	US$ 0,15
	Ajuste para 1 milhão de tokens de treinamento	US$ 1,00
Embasamento com a Pesquisa Google	O Gemini 2.0 Flash e o 2.5 Flash incluem um total de 1.500 comandos fundamentados por dia sem custo adicional. Os comandos fundamentados que excederem esses limites serão cobrados a US$35 por 1.000 comandos. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas à Pesquisa Google, apenas um comando fundamentado é cobrado. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Web Grounding para empresas	US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas à Pesquisa Google, há apenas uma cobrança por comando fundamentado. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com seus dados	US$ 2,5 por 1.000 solicitações a partir de 16 de junho de 2025.

Preços com base na modalidade

Os preços das modalidades abaixo são baseados em casos de uso médios, apenas para referência. O faturamento real será baseado apenas em tokens:

Quatro caracteres resultam em aproximadamente um token de texto, incluindo o espaço em branco.

Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.

A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. Vídeo com áudio gera cobranças para tokens de vídeo e áudio.

A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.

Modelo	Tipo	Preço	Preço com a API Batch
Gemini 2.0 Flash
	Entrada de texto (US$/m caractere)	US$ 0,0375	US$ 0,01875
	Imagem de entrada ($/imagem)	US$ 0,0001935	US$ 0,00009675
	Vídeo de entrada ($/s)	US$ 0,0000387	US$ 0,00001935
	Áudio de entrada (US$/s)	US$ 0,000025	US$ 0,0000125
	Texto de saída (US$/mês por caractere)	US$ 0,15	US$ 0,075
Geração de imagens do Gemini 2.0 Flash
	Entrada de texto (US$/mês por caractere)	US$ 0,0375
	Imagem de entrada ($/imagem)	US$ 0,0001935
	Vídeo de entrada ($/s)	US$ 0,0000387
	Áudio de entrada ($/s)	US$ 0,000025
	Texto de saída (US$/mês)	US$ 0,15
	Imagem de saída ($/imagem)	US$ 0,04
Gemini 2.0 Flash Lite
	Entrada de texto (US$/m caractere)	US$ 0,01875	US$ 0,009375
	Imagem de entrada ($/imagem)	US$ 0,00009675	US$ 0,000048375
	Vídeo de entrada ($/s)	US$ 0,00001935	US$ 0,000009675
	Áudio de entrada (US$/s)	US$ 0,000001875	US$ 0,000000938
	Texto de saída (US$/mês por caractere)	US$ 0,075	US$ 0,0375
Embasamento com a Pesquisa Google	O Gemini 2.0 Flash e o 2.5 Flash incluem um total de 1.500 comandos fundamentados por dia sem custo adicional. Os comandos fundamentados que excederem esses limites serão cobrados a US$35 por 1.000 comandos. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas à Pesquisa Google, apenas um comando fundamentado é cobrado. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Web Grounding para empresas	US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas à Pesquisa Google, apenas um comando fundamentado é cobrado. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.

* Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de períodos.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* A fundamentação com a Pesquisa Google e a Web Grounding para empresas é cobrada apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de fundamentação da Web). As taxas de uso do modelo do Gemini são aplicadas separadamente.
* API Gemini 2.0 Flash Live: 25 tokens por segundo de áudio (entrada/saída), 258 tokens por segundo de vídeo (entrada). O embasamento com a Pesquisa Google continua sem custo financeiro enquanto a API Gemini 2.0 Flash Live estiver em pré-lançamento.

Preços do Vertex AI Model Optimizer (experimental)*

O Model Optimizer da Vertex AI simplifica o uso do Gemini para clientes corporativos, fornecendo um meta-endpoint único para solicitações de modelos do Gemini. Os clientes que usam esse serviço não precisam especificar se vão usar Flash, Pro ou uma versão específica. Em vez disso, eles apenas fornecem uma configuração configurável (custo, qualidade ou equilíbrio) para indicar as preferências, e o Model Optimizer aplica o nível certo de inteligência para a tarefa, enviando cada consulta para o modelo mais adequado.

O Model Optimizer da Vertex AI aplica preços dinâmicos. Isso significa que o preço médio por token depende do nível de inteligência do modelo aplicado para concluir a tarefa. Por isso, fornecemos exemplos de preços abaixo para ilustrar os cenários prováveis com base na configuração (confira as tabelas abaixo). As SKUs do Model Optimizer são SKUs de US $1 que funcionam como uma unidade de compra para aplicar ao seu faturamento. Você ainda será cobrado com base no consumo depois de usar os modelos.

Proporção de E/S 5:1	Exemplo 1 chatbot	OBSERVAÇÃO: esses intervalos não são garantias, os resultados de cada cliente podem variar
Preferência do cliente	Tokens de entrada do cliente enviados para o MO	Os tokens de saída do cliente são enviados ao MO	Preço médio de entrada por milhão de tokens (faixa alta)	Preço médio de saída por milhão de tokens (intervalo alto)	Preço médio de entrada por milhão de tokens (intervalo baixo)	Preço médio de saída por milhão de tokens (intervalo baixo)
Custo	10.000.000	2.000.000	US$ 0,63	US$ 2,50	US$ 0,16	US$ 0,63
Equilibrada	10.000.000	2.000.000	US$ 1,26	US$ 5,00	US$ 0,63	US$ 2,50
Qualidade	10.000.000	2.000.000	US$ 1,89	US$ 7,50	US$ 1,26	US$ 5,00

Proporção de E/S de 1:20	Exemplo 2: Geração de conteúdo
Preferência do cliente	Tokens de entrada do cliente enviados para o MO	Os tokens de saída do cliente são enviados ao MO	Preço médio de entrada por milhão de tokens (faixa alta)	Preço médio de saída por milhão de tokens (intervalo alto)	Preço médio de entrada por milhão de tokens (intervalo baixo)	Preço médio de saída por milhão de tokens (intervalo baixo)
Custo	1.000.000	20.000.000	US$ 0,63	US$ 2,50	US$ 0,16	US$ 0,63
Equilibrada	1.000.000	20.000.000	US$ 1,26	US$ 5,00	US$ 0,63	US$ 2,50
Qualidade	1.000.000	20.000.000	US$ 1,89	US$ 7,50	US$ 1,26	US$ 5,00

* O Model Optimizer é uma oferta experimental paga e pode encaminhar solicitações para versões experimentais do Gemini na Vertex.

Outros modelos do Gemini

Todos os modelos do Gemini, exceto o Gemini 2.0, são cobrados com base em modalidades como caracteres, imagens, segundos de vídeo/áudio. A entrada de texto é cobrada a cada 1.000 caracteres de entrada (prompt) e a cada 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem, resultando em aproximadamente quatro caracteres por token. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo. A entrada de mídia é cobrada por imagem ou por segundo (vídeo). Se sua solicitação falhar com um erro 400 ou 500, você não será cobrado pelos tokens usados.

Modelo	Recurso	Tipo	Preço ( =< 128K tokens de entrada)	Preço ( > 128 mil tokens de entrada)
Gemini 1.5 Flash	Multimodal	Entrada de imagem Entrada de vídeo Entrada de texto Entrada de áudio	US$ 0,00002 / imagem US$0,00002 / segundo US$0,00001875 / 1 mil caracteres US$0,000002 / segundo	US$ 0,00004 / imagem US$0,00004 / segundo US$0,0000375 / 1 mil caracteres US$0,000004 / segundo
		Saída de texto	US$ 0,000075 / 1 mil caracteres	US$ 0,00015 / 1.000 caracteres
	Ajuste*	Token de treinamento	US$ 8 / M tokens
Gemini 1.5 Pro	Multimodal	Entrada de imagem Entrada de vídeo Entrada de texto Entrada de áudio	US$ 0,00032875 / imagem US$0,00032875 / segundo US$0,0003125 / 1 mil caracteres US$0,00003125 / segundo	US$ 0,0006575 / imagem US$0,0006575 / segundo US$0,000625 / 1 mil caracteres US$0,0000625 / segundo
		Saída de texto	US$ 0,00125 / 1.000 caracteres	US$ 0,0025 / 1 mil caracteres
	Ajuste*	Token de treinamento	US$ 80 / M tokens
Gemini 1.0 Pro	Multimodal	Entrada de imagem Entrada de vídeo Entrada de texto	US$ 0,0025 / imagem US$ 0,002 / segundo US$0,000125 / 1 mil caracteres
Gemini 1.0 Pro		Saída de texto	US$ 0,000375 / 1 mil characters
Embasamento com a Pesquisa Google	Texto	US$35 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas à Pesquisa Google, apenas um comando fundamentado é cobrado. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Web Grounding para empresas	Texto	US$45 por 1.000 comandos fundamentados. Um comando com fundamentação é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas à Pesquisa Google, apenas um comando fundamentado é cobrado. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com seus dados	Texto	US$ 2,5 por 1.000 solicitações a partir de 16 de junho de 2025.

* Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Se o contexto da consulta for maior que 128 mil, todos os tokens serão cobrados com as taxas de contexto longo.
* Os modelos do Gemini estão disponíveis no modo em lote com 50% de desconto.
* O Gemini 1.0 Pro só oferece suporte a uma janela de contexto de até 32 KB.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* A fundamentação com a Pesquisa Google e a Web Grounding para empresas é cobrada apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de fundamentação da Web). As taxas de uso do modelo do Gemini são aplicadas separadamente.

Imagen

Com o Imagen na Vertex AI, é possível gerar imagens novas e editar com base nas solicitações de texto fornecidas, ou editar apenas partes de imagens usando uma área de máscara definida por você, além de vários outros recursos.

Modelo	Recurso	Descrição	Entrada	Saída	Preço
Imagen 4 Ultra	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	US$ 0,06 por imagem
Imagem 4	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	US$ 0,04 por imagem
Imagem 4 Fast	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	US$ 0,02 por imagem
Imagem 3	Geração de imagens	Gerar uma imagem Editar uma imagem Personalizar uma imagem	Comando de texto	Imagem	US$ 0,04 por imagem
Imagem 3 Fast	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	US$ 0,02 por imagem
Imagem 2, Imagem	Geração de imagens	Gerar uma imagem	Comando de texto	Imagem	$0,020 por imagem
	Edição de imagens	Editar uma imagem usando a abordagem sem máscara ou com máscara	Solicitação de imagem/texto	Imagem	$0,020 por imagem
	Upscaling	Aumenta a resolução de uma imagem gerada para 2K e 4K	Imagem	Imagem	$0,003 por imagem
	Ajuste de detalhes	Ativa um "assunto" fornecido pelo usuário para ser usado nos comandos do Imagen (treinamento de poucas imagens)	Assunto(s) com identificador de texto e de 4 a 8 imagens por assunto	Modelo ajustado (após o treinamento com assuntos fornecidos pelo usuário)	US$ por hora de uso do nó (preços do treinamento personalizado da Vertex AI)
	Legendas visuais	Gerar uma legenda de texto curta ou longa para uma imagem	Imagem	Legenda de texto	$0,0015/imagem
	Perguntas e respostas visuais	Fornecer uma resposta com base em uma pergunta relacionada a uma imagem	Solicitação de imagem/texto	Resposta em texto	$0,0015/imagem

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Veo

O Veo 2 cria vídeos de alta qualidade sobre vários temas e estilos, melhorando o entendimento da física do mundo real e as nuances dos movimentos e expressões humanas.

Modelo	Recurso	Descrição	Entrada	Saída	Preço
Veo 3	Geração de vídeo	Gere vídeos com base em um comando de texto ou uma imagem de referência	Comando de texto/imagem	Vídeo	US$ 0,50/segundo
Veo 3	Geração de vídeo + áudio	Gere um vídeo com efeitos de fala/som sincronizados a partir de um comando de texto ou uma imagem de referência	Comando de texto/imagem	Vídeo + áudio	US$ 0,75/segundo
Veo 2	Geração de vídeo	Gere vídeos com base em um comando de texto ou uma imagem de referência	Comando de texto/imagem	Vídeo	US$ 0,50/segundo
Veo 2	Controles avançados	Gere vídeos com interpolação de quadros inicial e final, estenda os vídeos gerados e aplique controles de câmera	Comando de texto/imagem/vídeo	Vídeo	US$ 0,50/segundo

Lyria

O Lyria 2 oferece geração de música instrumental de alta qualidade, ideal para composições sofisticadas e exploração criativa detalhada, em que a nuance é fundamental.

Modelo	Recurso	Descrição	Entrada	Saída	Preço
Lyria 2	Geração de música	Gerar música com um comando de texto	Comando de texto	Música	US$ 0,06 por 30 segundos

Entenda os custos de embedding para seus aplicativos de IA

Modelo	Tipo	Região	Preço por 1.000 tokens de entrada
Incorporação do Gemini	Entrada	Global	Solicitações on-line: US$ 0,00015 Solicitações em lote: US$ 0,00012
Incorporação do Gemini	Saída	Global	Solicitações on-line: sem custo financeiro Solicitações em lote: sem cobrança

Modelo	Tipo	Região	Preço por 1.000 caracteres
Embeddings para texto (excluindo o embedding do Gemini)	Entrada	Global	Solicitações on-line: US$ 0,000025 Solicitações em lote: US$ 0,00002
Embeddings para texto (excluindo o embedding do Gemini)	Saída	Global	Solicitações on-line: sem custo financeiro Solicitações em lote: sem cobrança

Modelo	Recurso	Descrição	Entrada	Saída	Preço
multimodalembedding	Embeddings para multimodal: texto	Gerar embeddings usando texto como entrada	Texto	Embeddings	US$ 0,0002/1.000 caracteres de entrada
	Embeddings para multimodal: imagem	Gerar embeddings usando imagem como entrada	Imagem	Embeddings	$0,0001/entrada de imagem
	Embeddings para multimodal: vídeo Plus	Vídeo Plus	Vídeo	Embeddings (até 15 embeddings por minuto de vídeo)	US$ 0,0020 por segundo de vídeo
	Embeddings para multimodal: padrão de vídeo	Vídeo Standard	Vídeo	Embeddings (até 8 embeddings por minuto de vídeo)	US$ 0,0010 por segundo de vídeo
	Embeddings para multimodal: vídeo essencial	Vídeo Essential	Vídeo	Embeddings (até 4 embeddings por minuto de vídeo)	US$ 0,0005 por segundo de vídeo

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Preços do preenchimento de código da Vertex AI

A IA generativa na Vertex AI cobra por 1.000 caracteres de entrada (prompt) e por 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem. Durante o estágio de visualização, as cobranças são 100% descontadas. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo.

Modelo	Tipo	Região	Preço por 1.000 caracteres
Codey para preenchimento de código	Entrada	Global	Solicitações on-line: US$ 0,00025
Codey para preenchimento de código	Saída	Global	Solicitações on-line: US$ 0,0005

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

Tradução (texto)

Use a API Vertex AI e o LLM de tradução para traduzir textos. As traduções de LLM tendem a ser mais fluentes e com um tom mais humano do que os modelos de tradução clássicos, mas têm suporte a idiomas mais limitado (Saiba mais).

Modelo	Método	Uso	Preço por milhão de caracteres
LLM	Tradução de texto^*	O número de caracteres de entrada por mês	US$ 10 por milhão de caracteres^*
	Tradução de texto^*	O número de caracteres de saída por mês	US$ 10 por milhão de caracteres^*

Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
^*O preço é calculado por caractere processado pelo modelo. Para mais informações sobre a contagem de caracteres, consulte Caracteres cobrados

Otimize custos com o armazenamento em cache de contexto da Vertex AI

Com o armazenamento em cache de contexto, é possível reduzir o custo do processamento de tokens de entrada do Gemini em 75% e a latência da geração de conteúdo armazenando em cache a parte de contexto do seu texto de entrada ou mídia nos modelos do Gemini. A quantidade de tempo que os dados ficam armazenados no cache, que pode ser controlada pelo usuário, determina as cobranças de "Armazenamento de cache de contexto". Ao criar um contexto em cache, os usuários serão cobrados pelo custo padrão do token de entrada. As ocorrências de cache nos dados de entrada são cobradas a uma taxa reduzida, "Entrada em cache", em vez do custo normal de entrada. O tamanho dos dados para armazenamento e entrada é calculado da mesma forma que os preços de entrada do Gemini.

Modelos do Gemini 2.5

Modelo	Recurso	Tipo	Preço (/1M tokens) <= 200 mil tokens de entrada	Preço (/1M tokens) > 200 mil tokens de entrada
Gemini 2.5 Pro	Entrada em cache	Entrada (texto, imagem, vídeo, áudio)	US$ 0,31 (/1 milhão de tokens)	US$ 0,625 (/1 milhão de tokens)
		Saída	N/A	N/A
	Armazenamento de cache de contexto	Entrada (texto, imagem, vídeo, áudio)	US$ 4,50 (/M Tok/h)	US$ 4,50 (/M Tok/h)
Gemini 2.5 Flash	Entrada em cache	Entrada (texto, imagem, vídeo, áudio)	US$ 0,0375 (/1 milhão de tokens)	US$ 0,0375 (/1 milhão de tokens)
		Saída	N/A	N/A
	Armazenamento de cache de contexto	Entrada (texto, imagem, vídeo, áudio)	US$ 1 (/M Tok/h)	US$ 1 (/M Tok/h)

Modelos do Gemini 2.0

Preços baseados em token

Modelo	Tipo	Armazenamento (M tok-hora)	Preço
Gemini 2.0 Flash
	1 milhão de tokens de entrada	US$ 1,00	US$ 0,0375
	1 milhão de tokens de áudio de entrada	US$ 1,00	US$ 0,25
	1 milhão de tokens de texto de saída	NA	NA
Gemini 2.0 Flash Lite
	1 milhão de tokens de entrada	US$ 1,00	US$ 0,01875
	1 milhão de tokens de áudio de entrada	US$ 1,00	US$ 0,01875
	1 milhão de tokens de texto de saída	NA	NA

Preços com base na modalidade

Os preços das modalidades abaixo são baseados em casos de uso médios, apenas para referência. O faturamento real será baseado apenas em tokens:

Quatro caracteres resultam em aproximadamente um token de texto, incluindo o espaço em branco.

A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. Vídeo com áudio gera cobranças para tokens de vídeo e áudio.

A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.

Modelo	Tipo	Armazenamento (modalidade-hora)	Preço
Gemini 2.0 Flash
	Entrada de texto (US$/mês por caractere)	US$ 0,25	US$ 0,009375
	Imagem de entrada ($/imagem)	US$ 0,00129	US$ 0,000048375
	Vídeo de entrada ($/s)	US$ 0,000258	US$ 0,000009675
	Áudio de entrada (US$/s)	US$ 0,000025	US$ 0,00000625
	Texto de saída (US$/mês por caractere)	NA	NA
Gemini 2.0 Flash Lite
	Entrada de texto (US$/m caractere)	US$ 0,25	US$ 0,0046875
	Imagem de entrada ($/imagem)	US$ 0,00129	US$ 0,0000241875
	Vídeo de entrada ($/s)	US$ 0,000258	US$ 0,000009675
	Áudio de entrada (US$/s)	US$ 0,000258	US$ 0,0000048375
	Texto de saída (US$/mês por caractere)	NA	NA
Embasamento com a Pesquisa Google	O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. As solicitações com base no local que excederem 1.500 por dia serão faturadas em US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia). Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.
Web Grounding para empresas	US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025. Entre em contato com a equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

* Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.
* Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
* O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo base.
* A fundamentação com a Pesquisa Google é cobrada apenas para solicitações que retornam resultados contendo pelo menos um URL de suporte à fundamentação da Web. As taxas padrão de uso do modelo do Gemini também se aplicam.

Capacidade de processamento provisionada

A capacidade de processamento provisionada garante a capacidade de processamento para suas necessidades de IA generativa e é realizada por meio de unidades de escalonamento de IA generativa, ou GSUs. Saiba mais sobre a capacidade de processamento de cada GSU aqui e use nosso estimador on-line aqui.

Duração	Preço por GSU	Por
1 semana de compromisso	US$ 1.200	Semana
Compromisso de 1 mês	US$ 2.700	Mês
Compromisso de 3 meses	US$ 2.400	Mês
Compromisso de 1 ano	US$ 2.000	Mês

Exemplo de cálculo de custo

Um usuário precisa garantir que pode oferecer suporte a 10 consultas por segundo (QPS) de uma consulta com entrada de 1.000 tokens de texto e 500 tokens de áudio e receber uma saída de 300 tokens de texto usando a API gemini-2.0-flash.

Usando a tabela de capacidade de processamento e taxa de burndown, sabemos que, para gemini-2.0-flash, a taxa de burndown de um token de texto de entrada é de 1 token, a taxa de burndown de um token de áudio de entrada é de 7 tokens e a taxa de burndown de um token de texto de saída é de 4 tokens.

O total de tokens de entrada do usuário é 1.000* (1 token por token de texto de entrada) + 500* (7 tokens por token de áudio de entrada) = 4.500 tokens de entrada ajustados por burndown. O total de tokens de saída do usuário é 300* (4 tokens por token de texto de saída) = 1.200 tokens de saída ajustados por burndown. Ao somarmos, temos 4.500 tokens de entrada ajustados pelo burndown + 1.200 tokens de saída ajustados pelo burndown = 5.700 tokens no total por consulta.

Ao multiplicar o total de tokens por consulta pelo QPS, temos 5.700 tokens no total por consulta * 10 QPS = 57.000 tokens no total por segundo.

Dividindo isso pela capacidade de processamento total por segundo por GSU,temos 57.000 tokens por segundo ÷ 3.360 capacidade de processamento por segundo por GSU = 16,96 GSUs. O incremento mínimo de compra de GSU para esse modelo é 1, então o usuário precisa de 17 GSUs.

Se o usuário quisesse manter essa capacidade por uma semana, o custo seria de US $1.200 * 17 GSUs = US $20.400 por semana. Se eles quisessem manter essa capacidade por um mês, o custo seria de US $2.700 * 17 GSUs = US $45.900 por mês. Se eles quisessem manter essa capacidade por três meses, o custo seria de US $2.400 * 17 GSUs = US $40.800 por mês. Por fim, se quisessem manter essa capacidade por um ano, o custo seria de US $2.000 * 17 GSUs = US $34.000 por mês.

Compare os preços dos modelos de parceiros na Vertex AI

Os modelos de parceiros são uma lista selecionada de modelos de IA generativa desenvolvidos por parceiros do Google. Os modelos de parceiros são oferecidos como APIs gerenciadas. Para mais informações, consulte Visão geral dos modelos de parceiros. As seções a seguir listam os detalhes de preços dos modelos de parceiros do Google.

Modelos da AI21 Labs

Modelo	Preços
Jamba 1.5 Large	Entrada: US$ 2 / milhão de tokens Saída: US$ 8 / milhão de tokens
Jamba 1.5 Mini	Entrada: US$ 0,20 / milhão de tokens Saída: US$ 0,40 / milhão de tokens

Modelos Claude da Anthropic

Modelo	Preços
Claude Opus 4	Entrada: US$ 15 / milhão de tokens Saída: US$ 75 / milhão de tokens Entrada em lote: US$ 7,50 / milhão de tokens Saída em lote: US$ 37,50 / milhão de tokens Gravação em cache: US$ 18,75 / milhão de tokens Cache encontrado: US$ 1,50 / milhão de tokens Gravação em cache em lote: US$ 9,375 / milhão de tokens Cache encontrado em lote: US$ 0,75 / milhão de tokens
Claude Sonnet 4	Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens Entrada em lote: US$ 1,50 / milhão de tokens Saída em lote: US$ 7,50 / milhão de tokens Gravação em cache: US$ 3,75 / milhão de tokens Cache encontrado: US$ 0,30 / milhão de tokens Gravação em cache em lote: US$ 1,875 / milhão de tokens Cache encontrado em lote: US$ 0,15 / milhão de tokens
Claude 3.7 Sonnet	Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens Entrada em lote: US$ 1,50 / milhão de tokens Saída em lote: US$ 7,50 / milhão de tokens Gravação em cache: US$ 3,75 / milhão de tokens Cache encontrado: US$ 0,30 / milhão de tokens Gravação em cache em lote: US$ 1,875 / milhão de tokens Cache encontrado em lote: US$ 0,15 / milhão de tokens
Claude 3.5 Haiku	Entrada: US$ 0,80 / milhão de tokens Saída: US$ 4 / milhão de tokens Entrada em lote: US$ 0,40 / milhão de tokens Saída em lote: US$ 2 / milhão de tokens Gravação em cache: US$ 1 / milhão de tokens Cache atingido: US$ 0,08 / milhão de tokens Gravação em cache em lote: US$ 0,50 / milhão de tokens Cache atingido em lote: US$ 0,04 / milhão de tokens
Claude 3.5 Sonnet v2	Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens Entrada em lote: US$ 1,50 / milhão de tokens Saída em lote: US$ 7,50 / milhão de tokens Gravação em cache: US$ 3,75 / milhão de tokens Cache encontrado: US$ 0,30 / milhão de tokens Gravação em cache em lote: US$ 1,875 / milhão de tokens Cache encontrado em lote: US$ 0,15 / milhão de tokens
Claude 3.5 Sonnet	Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens Gravação no cache: US$ 3,75 / milhão de tokens Cache hit: US$ 0,30 / milhão de tokens
Claude 3 Haiku	Entrada: US$ 0,25 / milhão de tokens Saída: US$ 1,25 / milhão de tokens Gravação no cache: US$ 0,30 / milhão de tokens Cache hit: US$ 0,03 / milhão de tokens
Claude 3 Sonnet (deprecated)	Entrada: US$ 3 / milhão de tokens Saída: US$ 15 / milhão de tokens
Claude 3 Opus	Entrada: US$ 15 / milhão de tokens Saída: US$ 75 / milhão de tokens Gravação em cache: US$ 18,75 / milhão de tokens Cache acessado: US$ 1,50 / milhão de tokens

Modelos Llama da Meta

Modelo	Preços
Llama 3.1 405B	Entrada: US$ 5,00 / milhão de tokens Saída: US$ 16,00 / milhão de tokens
Llama 3.3 70B *	Entrada: US$ 0,72 / milhão de tokens Saída: US$ 0,72 / milhão de tokens
Llama 4 Scout *	Entrada: US$ 0,25 / milhão de tokens Saída: US$ 0,70 / milhão de tokens
Mack de 4 Llamas *	Entrada: US$ 0,35 / milhão de tokens Saída: US$ 1,15 / milhão de tokens

Disponível sem custos financeiros até 1º de maio de 2025.

Modelos da Mistral AI

Modelo	Preços
OCR Mistral (25.05)	Entrada: US$ 0,0005 / milhão de tokens (ou US $0,0005/página) Saída: US$ 0,0005 / milhão de tokens (ou US $0,0005/página)
Mistral Small 3.1 (25.03)	Entrada: US$ 0,10 / milhão de tokens Saída: US$ 0,30 / milhão de tokens
Mistral Large (24.11)	Entrada: US$ 2,00 / milhão de tokens Saída: US$ 6,00 / milhão de tokens
Mistral Nemo	Entrada: US$ 0,15 / milhão de tokens Saída: US$ 0,15 / milhão de tokens
Codestral (25.01)	Entrada: US$ 0,30 / milhão de tokens Saída: US$ 0,90 / milhão de tokens

Solicite uma cotação personalizada

Com o sistema de pagamento por uso do Google Cloud, você paga apenas pelos serviços que usa. Entre em contato com nossa equipe de vendas e receba uma cotação personalizada para sua organização.

Entre em contato