Custo de criação e implantação de modelos de IA na Vertex AI

Os preços são indicados em dólares americanos (US$). Se você não paga em dólar americano, são aplicados os preços na sua moeda local listados na página SKUs do Cloud Platform.

Você só paga pelas solicitações que retornam um código de resposta 200. As solicitações que retornam outros códigos de resposta, como códigos 4xx e 5xx, não são cobradas pela entrada ou saída.

Nesta página, você encontra informações sobre os preços da IA generativa na Vertex AI. Para todos os outros preços da Vertex AI, incluindo os serviços ML Platform e MLOps, consulte a página de preços da Vertex AI.

Modelos do Google

Gemini 3

Modelo Tipo Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada Preço (por 1 milhão de tokens) > 200 mil tokens de entrada Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada em cache Preço (por 1 milhão de tokens) > 200 mil tokens de entrada em cache Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada com API em lote Preço (por 1 milhão de tokens) > 200 mil tokens de entrada com API em lote
Pré-lançamento do Gemini 3 Pro
Entrada (texto, imagem, vídeo, áudio) US$ 2 US$ 4 US$ 0,20 US$ 0,40 US$ 1 US$ 2
Saída de texto (resposta e raciocínio) US$ 12 US$ 18 N/A N/A US$ 6 US$ 9
Saída de imagem** US$ 120 N/A N/A N/A US$ 60 N/A
Embasamento com a Pesquisa Google e embasamento na Web para empresas O Gemini 3 Pro inclui 5.000 consultas de pesquisa por mês sem custo financeiro adicional.

As consultas de pesquisa que excederem esses limites serão cobradas a US$14 por 1.000 consultas de pesquisa. Uma solicitação enviada por um cliente ao Gemini pode resultar em uma ou mais consultas à Pesquisa Google (ou Web Grounding para Enterprise). Você vai pagar por cada consulta de pesquisa individual realizada. O faturamento vai começar em 5 de janeiro de 2026.

Os tokens de entrada fornecidos pelo Grounding com a Pesquisa Google ou pelo Web Grounding para empresas não são cobrados.

Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com o Google Maps O Gemini 3 Pro inclui 5.000 consultas de pesquisa por mês sem custo financeiro adicional.

Consultas do Maps que excederem esses limites serão cobradas a US$14 por 1.000 consultas. Uma solicitação enviada por um cliente ao Gemini pode resultar em uma ou mais consultas ao Google Maps. Você vai receber uma cobrança por cada consulta individual realizada. O faturamento vai começar em 5 de janeiro de 2026
Embasamento com seus dados US$ 2,50 por 1.000 solicitações.

* Se um contexto de entrada de consulta for maior que 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
** Uma imagem de saída de 1K (1024 x 1024) e 2K (2048 x 2048) consome 1.120 tokens de saída de imagem, o que equivale a US $0,134/imagem gerada. Uma imagem 4K (4096 x 4096) consome 2.000 tokens de saída de imagem, o que equivale a US $0,24 por imagem gerada.

Gemini 2.5

Modelo Tipo Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada Preço (por 1 milhão de tokens) > 200 mil tokens de entrada Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada em cache Preço (por 1 milhão de tokens) > 200 mil tokens de entrada em cache Preço (por 1 milhão de tokens) <= 200 mil tokens de entrada com API em lote Preço (por 1 milhão de tokens) > 200 mil tokens de entrada com API em lote
Gemini 2.5 Pro
Entrada (texto, imagem, vídeo, áudio) US$ 1,25 US$ 2,5 US$ 0,125 US$ 0,250 US$ 0,625 US$ 1,25
Saída de texto (resposta e raciocínio) US$ 10 US$ 15 N/A N/A US$ 5 US$ 7,50
Gemini 2.5 Pro
Uso em computadores – pré-lançamento
Entrada (texto, imagem, vídeo, áudio) US$ 1,25 US$ 2,5 N/A N/A N/A N/A
Saída de texto (resposta e raciocínio) US$ 10,00 US$ 15,00 N/A N/A N/A N/A


Gemini 2.5
Flash
Entrada (texto, imagem, vídeo) US$ 0,30 US$ 0,30 US$ 0,030 US$ 0,030 US$ 0,15 US$ 0,15
Entrada de áudio US$ 1 US$ 1 US$ 0,100 US$ 0,100 US$ 0,5 US$ 0,5
Saída de texto (resposta e raciocínio) US$ 2,50 US$ 2,50 N/A N/A US$ 1,25 US$ 1,25
Saída de imagem*** US$ 30 US$ 30 N/A N/A US$ 15 US$ 15




API Gemini 2.5 Flash Live
1 milhão de tokens de texto de entrada US$ 0,5 US$ 0,5 N/A N/A N/A N/A
1 milhão de tokens de áudio de entrada US$ 3 US$ 3 N/A N/A N/A N/A
1 milhão de tokens de entrada de vídeo/imagem US$ 3 US$ 3 N/A N/A N/A N/A
1 milhão de tokens de texto de saída US$ 2 US$ 2 N/A N/A N/A N/A
1 milhão de tokens de áudio de saída US$ 12 US$ 12 N/A N/A N/A N/A



Gemini 2.5 Flash Lite
Entrada (texto, imagem, vídeo) US$ 0,10 US$ 0,10 US$ 0,010 US$ 0,010 US$ 0,05 US$ 0,05
Entrada de áudio US$ 0,3 US$ 0,3 US$ 0,030 US$ 0,030 US$ 0,15 US$ 0,15
Saída de texto (resposta e raciocínio) US$ 0,40 US$ 0,40 N/A N/A US$ 0,20 US$ 0,20


Embasamento com a Pesquisa Google
O Gemini 2.0 Flash, 2.5 Flash e 2.5 Flash-Lite incluem um total de 1.500 comandos fundamentados por dia sem custo financeiro adicional. O Gemini 2.5 Pro inclui 10 mil comandos fundamentados por dia sem custo adicional.

Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados.

Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google&ast;&ast;. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado.

Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.

Embasamento na Web para empresas
US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas**. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado.

Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com seus dados US$ 2,50 por 1.000 solicitações.
Embasamento com o Google Maps US$25 por 1.000 comandos fundamentados.

Um comando fundamentado é uma solicitação enviada ao Gemini que faz pelo menos uma consulta ao Google Maps.

* Se um contexto de entrada de consulta for maior que 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.
** O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.
*** Uma imagem de 1024 x 1024 consome 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
**** O faturamento do uso do computador usa a SKU do Gemini 2.5 Pro para separar os custos de uso do computador e aplicar tags de faturamento. Saiba mais aqui.

  • Explicação da cobrança da janela de contexto da sessão da LiveAPI: você recebe cobranças por turno por todos os tokens presentes na janela de contexto da sessão. A janela de contexto da sessão inclui novos tokens (turno atual) + todos os tokens acumulados de turnos anteriores. Isso significa que os tokens de turnos anteriores são reprocessados e considerados em cada novo turno, até o tamanho da janela de contexto configurada. Um "turno" é uma entrada do usuário e a resposta do modelo.
  • Modo de áudio proativo: quando ativado, os tokens de entrada são cobrados enquanto a LiveAPI está ouvindo. Os tokens de saída só são cobrados quando a API responde.
  • Quando a transcrição de áudio para texto está ativada, todos os tokens de texto gerados para transcrição são cobrados na taxa de saída de tokens de texto.

Gemini 2.0

O Gemini 2.0 é cobrado com base em tokens. Para calcular o número de tokens de entrada na solicitação antes de enviá-la, use o SDK tokenizer ou a API countTokens. Se a solicitação falhar com um erro 400 ou 500, você não vai receber cobranças pelos tokens usados.

Use a opção na tabela de preços para comparar os preços baseados em tokens e os preços baseados em modalidade.

Preços baseados em token

Modelo Tipo Preço Preço com a API Batch




Gemini 2.0 Flash
1 milhão de tokens de entrada US$ 0,15 US$ 0,075
1 milhão de tokens de áudio de entrada US$ 1,00 US$ 0,50
1 milhão de tokens de texto de saída US$ 0,60 US$ 0,30
Ajuste para 1 milhão de tokens de treinamento US$ 3,00




Geração de imagens do Gemini 2.0 Flash
1 milhão de tokens de entrada US$ 0,15
1 milhão de tokens de áudio de entrada US$ 1,00
1 milhão de tokens de vídeo de entrada US$ 3
1 milhão de tokens de texto de saída US$ 0,60
1 milhão de tokens de imagem de saída US$ 30,00




API Gemini 2.0 Flash Live
1 milhão de tokens de texto de entrada US$ 0,5
1 milhão de tokens de áudio de entrada US$ 3
1 milhão de tokens de entrada de vídeo/imagem US$ 3
1 milhão de tokens de texto de saída US$ 2
1 milhão de tokens de áudio de saída US$ 12




Gemini 2.0 Flash Lite
1 milhão de tokens de entrada US$ 0,075 US$ 0,0375
1 milhão de tokens de áudio de entrada US$ 0,075 US$ 0,0375
1 milhão de tokens de texto de saída US$ 0,30 US$ 0,15
Ajuste para 1 milhão de tokens de treinamento US$ 1,00


Embasamento com a Pesquisa Google
O Gemini 2.0 Flash e o 2.5 Flash incluem um total de 1.500 comandos fundamentados por dia sem custo adicional.

Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados.

Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado.

Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.

Embasamento na Web para empresas
US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado.

Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
Embasamento com seus dados US$ 2,50 por 1.000 solicitações a partir de 16 de junho de 2025.


Embasamento com o Google Maps
Os modelos do Gemini incluem vários comandos fundamentados diários sem custo extra:
  • Gemini Flash e Flash-Lite: 1.500 comandos fundamentados combinados por dia.
  • Gemini Pro: 10.000 comandos fundamentados por dia.

  • Comandos fundamentados que excedem esses limites são cobrados a US$25 por 1.000 comandos fundamentados.

    Um comando fundamentado é uma solicitação enviada ao Gemini que faz pelo menos uma consulta ao Google Maps.

    Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.

    Preços com base na modalidade

    Os preços de modalidade abaixo são baseados em casos de uso médios apenas para referência. O faturamento real será baseado apenas em tokens:

    • 4 caracteres resultam em aproximadamente 1 token de texto, incluindo espaços em branco.
    • Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
    • A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. O vídeo com áudio é cobrado pelos tokens de vídeo e de áudio.
    • A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.
    Modelo Tipo Preço Preço com a API Batch




    Gemini 2.0 Flash
    Texto de entrada (US$/M de caracteres) US$ 0,0375 US$ 0,01875
    Imagem de entrada (US$/imagem) US$ 0,0001935 US$ 0,00009675
    Vídeo de entrada (US$/segundo) US$ 0,0000387 US$ 0,00001935
    Áudio de entrada (US$/segundo) US$ 0,000025 US$ 0,0000125
    Texto de saída (US$/M de caracteres) US$ 0,15 US$ 0,075




    Geração de imagens do Gemini 2.0 Flash
    Texto de entrada (US$/M de caracteres) US$ 0,0375
    Imagem de entrada (US$/imagem) US$ 0,0001935
    Vídeo de entrada (US$/segundo) US$ 0,0000387
    Áudio de entrada (US$/segundo) US$ 0,000025
    Texto de saída (US$/M de caracteres) US$ 0,15
    Imagem de saída ($/imagem) US$ 0,04





    Gemini 2.0 Flash Lite
    Texto de entrada (US$/M de caracteres) US$ 0,01875 US$ 0,009375
    Imagem de entrada (US$/imagem) US$ 0,00009675 US$ 0,000048375
    Vídeo de entrada (US$/segundo) US$ 0,00001935 US$ 0,000009675
    Áudio de entrada (US$/segundo) US$ 0,000001875 US$ 0,000000938
    Texto de saída (US$/M de caracteres) US$ 0,075 US$ 0,0375


    Embasamento com a Pesquisa Google
    O Gemini 2.0 Flash e o 2.5 Flash incluem um total de 1.500 comandos fundamentados por dia sem custo adicional.

    Comandos fundamentados que excedem esses limites são cobrados a US$35 por 1.000 comandos fundamentados.

    Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado.

    Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.

    Embasamento na Web para empresas
    US$45 por 1.000 comandos fundamentados. Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado.

    Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.

    * Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
    * Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de períodos.
    * Os PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
    * O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
    * O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.
    * API Gemini 2.0 Flash Live: 25 tokens por segundo de áudio (entrada/saída), 258 tokens por segundo de vídeo (entrada). O embasamento com a Pesquisa Google continua sem custo financeiro enquanto a API Gemini 2.0 Flash Live estiver em pré-lançamento.

    • Explicação da cobrança da janela de contexto da sessão da LiveAPI: você recebe cobranças por turno por todos os tokens presentes na janela de contexto da sessão. A janela de contexto da sessão inclui novos tokens (turno atual) + todos os tokens acumulados dos turnos anteriores. Isso significa que os tokens de turnos anteriores são reprocessados e contabilizados em cada novo turno, até o tamanho da janela de contexto configurada. Um "turno" é uma entrada do usuário e a resposta do modelo.
    • Quando a transcrição de áudio para texto está ativada, todos os tokens de texto gerados para transcrição são cobrados na taxa de saída de tokens de texto.

    Preços do otimizador de modelos da Vertex AI (experimental)*

    O Vertex AI Model Optimizer simplifica o uso do Gemini para clientes corporativos, fornecendo um único metaendpoint para solicitações de modelo do Gemini. Os clientes que usam esse serviço não precisam especificar se vão usar o Flash, o Pro ou uma versão específica. Em vez disso, eles simplesmente fornecem uma configuração ajustável (custo, qualidade ou equilíbrio) para indicar suas preferências, e o Model Optimizer aplica o nível certo de inteligência apropriado para a tarefa enviando cada consulta ao modelo mais adequado.

    O otimizador de modelos da Vertex AI aplica preços dinâmicos. Isso significa que o preço médio por token depende do nível de inteligência do modelo aplicado para concluir a tarefa. Por esse motivo, exemplos de preços são fornecidos abaixo para ilustrar cenários prováveis com base na sua configuração (consulte as tabelas abaixo). As SKUs do Model Optimizer são SKUs de US $1 que funcionam como uma unidade de compra para aplicar ao seu faturamento. Você ainda será cobrado com base no consumo depois de usar os modelos.

    Proporção de E/S de 5:1 Exemplo 1:
    chatbot
    OBSERVAÇÃO: esses intervalos não são garantias, e os resultados individuais dos clientes podem variar
    Preferência do cliente Tokens de entrada do cliente enviados para o MO Tokens de saída do cliente enviados para o MO Preço médio de entrada por milhão de tokens (faixa alta) Preço médio de saída por milhão de tokens (faixa alta) Preço médio de entrada por milhão de tokens (faixa baixa) Preço médio de saída por milhão de tokens (faixa baixa)
    Custo 10.000.000 2.000.000 US$ 0,63 US$ 2,50 US$ 0,16 US$ 0,63
    Equilibrada 10.000.000 2.000.000 US$ 1,26 US$ 5,00 US$ 0,63 US$ 2,50
    Qualidade 10.000.000 2.000.000 US$ 1,89 US$ 7,50 US$ 1,26 US$ 5,00
    Proporção de E/S de 1:20 Exemplo 2: Geração de conteúdo
    Preferência do cliente Tokens de entrada do cliente enviados para o MO Tokens de saída do cliente enviados para o MO Preço médio de entrada por milhão de tokens (faixa alta) Preço médio de saída por milhão de tokens (faixa alta) Preço médio de entrada por milhão de tokens (faixa baixa) Preço médio de saída por milhão de tokens (faixa baixa)
    Custo 1.000.000 20.000.000 US$ 0,63 US$ 2,50 US$ 0,16 US$ 0,63
    Equilibrada 1.000.000 20.000.000 US$ 1,26 US$ 5,00 US$ 0,63 US$ 2,50
    Qualidade 1.000.000 20.000.000 US$ 1,89 US$ 7,50 US$ 1,26 US$ 5,00

    * O Model Optimizer é uma oferta experimental paga e pode encaminhar solicitações para versões experimentais do Gemini na Vertex.

    Outros modelos do Gemini

    Todos os modelos do Gemini, exceto o Gemini 2.0 ou o Gemini 2.5, são cobrados com base em modalidades como caracteres, imagens, segundos de vídeo/áudio. A entrada de texto é cobrada a cada 1.000 caracteres de entrada (comando) e a cada 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem, resultando em aproximadamente 4 caracteres por token. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo. A entrada de mídia é cobrada por imagem ou por segundo (vídeo). Se a solicitação falhar com um erro 400 ou 500, você não vai receber cobranças pelos tokens usados.

    Modelo Recurso Tipo Preço
    ( =< 128 mil tokens de entrada)
    Preço
    ( > 128 mil tokens de entrada)
    Gemini 1.5 Flash Multimodal Entrada de imagem
    Entrada de vídeo
    Entrada de texto
    Entrada de áudio
    US$ 0,00002 / imagem
    US$0,00002 / segundo
    US$0,00001875 / 1 mil caracteres
    US$0,000002 / segundo
    US$ 0,00004 / imagem
    US$0,00004 / segundo
    US$0,0000375 / 1 mil caracteres
    US$0,000004 / segundo
    Saída de texto US$ 0,000075 / 1 mil caracteres US$ 0,00015 / 1 mil caracteres
    Ajuste* Token de treinamento US$ 8 / M de tokens
    Gemini 1.5 Pro Multimodal Entrada de imagem
    Entrada de vídeo
    Entrada de texto
    Entrada de áudio
    US$ 0,00032875 / imagem
    US$0,00032875 / segundo
    US$0,0003125 / 1 mil caracteres
    US$0,00003125 / segundo
    US$ 0,0006575 / imagem
    US$0,0006575 / segundo
    US$0,000625 / 1 mil caracteres
    US$0,0000625 / segundo
    Saída de texto US$ 0,00125 / 1 mil caracteres US$ 0,0025 / 1 mil caracteres
    Ajuste* Token de treinamento US$ 80 / M de tokens
    Gemini 1.0 Pro Multimodal Entrada de imagem
    Entrada de vídeo
    Entrada de texto
    US$ 0,0025 / imagem
    US$ 0,002 / segundo
    US$0,000125 / 1 mil caracteres
    Saída de texto US$ 0,000375 / 1 mil characters
    Embasamento com a Pesquisa Google Texto US$35 por 1.000 comandos fundamentados.

    Um comando embasado é uma solicitação enviada ao Gemini que faz uma ou mais consultas à Pesquisa Google*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado.

    Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
    Embasamento na Web para empresas Texto US$45 por 1.000 comandos fundamentados.

    Um comando fundamentado é uma solicitação enviada ao Gemini que faz uma ou mais consultas ao Web Grounding para empresas*. Mesmo que várias consultas de pesquisa sejam enviadas para a Pesquisa Google, só haverá uma cobrança por um comando fundamentado.

    Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de comandos fundamentados por dia.
    Embasamento com seus dados Texto US$ 2,50 por 1.000 solicitações a partir de 16 de junho de 2025.

    * Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
    * Se um contexto de consulta for maior que 128 mil, todos os tokens serão cobrados com as taxas de contexto longo.
    * Os modelos do Gemini estão disponíveis no modo em lote com 50% de desconto.
    * O Gemini 1.0 Pro só oferece suporte a uma janela de contexto de até 32 mil tokens.
    * PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
    * O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
    * O embasamento com a Pesquisa Google e o embasamento na Web para empresas são cobrados apenas quando um comando retorna resultados da Web (ou seja, resultados que contêm pelo menos um URL de suporte de embasamento da Web). As taxas de uso do modelo do Gemini são cobradas separadamente.

    Imagen

    Com o Imagen na Vertex AI, é possível gerar imagens novas e editar com base nas solicitações de texto fornecidas, ou editar apenas partes de imagens usando uma área de máscara definida por você, além de vários outros recursos.

    Modelo Recurso Descrição Entrada Saída Preço
    Imagen 4 Ultra Geração de imagens Gerar uma imagem Comando de texto Imagem US$ 0,06 por imagem
    Imagen 4 Upscaling Aumenta a resolução de uma imagem gerada para 2K, 3K e 4K Imagem Imagem US$ 0,06 por imagem
    Imagen 4 Geração de imagens Gerar uma imagem Comando de texto Imagem US$ 0,04 por imagem
    Imagen 4 Fast Geração de imagens Gerar uma imagem Comando de texto Imagem US$ 0,02 por imagem
    Imagen 3 Geração de imagens Gerar uma imagem
    Editar uma imagem
    Personalizar uma imagem
    Comando de texto Imagem US$ 0,04 por imagem
    Imagen 3 Fast Geração de imagens Gerar uma imagem Comando de texto Imagem US$ 0,02 por imagem
    Imagen 2, Imagen 1 Geração de imagens Gerar uma imagem Comando de texto Imagem $0,020 por imagem
    Imagen 2, Imagen 1 Edição de imagens Editar uma imagem usando a abordagem sem máscara ou com máscara Solicitação de imagem/texto Imagem $0,020 por imagem
    Imagen 1 Upscaling Aumenta a resolução de uma imagem gerada para 2K e 4K Imagem Imagem $0,003 por imagem
    Imagen 1 Ajuste de detalhes Ativa um "assunto" fornecido pelo usuário para ser usado nos comandos do Imagen (treinamento de poucas imagens) Assunto(s) com identificador de texto e de 4 a 8 imagens por assunto Modelo ajustado (após o treinamento com assuntos fornecidos pelo usuário) US$ por hora de uso do nó (preços do treinamento personalizado da Vertex AI)
    Imagen Legendas visuais Gerar uma legenda de texto curta ou longa para uma imagem Imagem Legenda de texto $0,0015/imagem
    Imagen Perguntas e respostas visuais Fornecer uma resposta com base em uma pergunta relacionada a uma imagem Solicitação de imagem/texto Resposta em texto $0,0015/imagem
    Imagen Recontextualização de produtos Reimagine produtos em uma nova cena 1 a 3 imagens do mesmo produto e um comando de texto descrevendo a cena desejada Imagem US$ 0,12 por imagem
    Simulador virtual da Vertex Crie imagens de pessoas usando roupas diferentes 1 imagem de uma pessoa e 1 imagem de uma roupa Imagem US$ 0,06 por imagem

    Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

    Veo

    O Veo cria vídeos de alta qualidade em uma ampla variedade de assuntos e estilos, com uma compreensão aprimorada da física do mundo real e das nuances do movimento e da expressão humana.

    Modelo Recurso Descrição Entrada Saída Resolução de saída Preço
    Veo 3.1 Geração de vídeo + áudio Gere vídeos de alta qualidade com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência Comando de texto/imagem Vídeo + áudio 720p, 1080p US$ 0,40/segundo
    Veo 3.1 Geração de vídeo Gere vídeos de alta qualidade com base em um comando de texto ou imagem de referência Comando de texto/imagem Vídeo 720p, 1080p US$ 0,20/segundo
    Veo 3.1 Fast Geração de vídeo + áudio Gere vídeos com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência com mais rapidez Comando de texto/imagem Vídeo + áudio 720p, 1080p US$ 0,15/segundo
    Veo 3.1 Fast Geração de vídeo Gere vídeos com base em um comando de texto ou imagem de referência com mais rapidez Comando de texto/imagem Vídeo 720p, 1080p US$ 0,10/segundo
    Veo 3 Geração de vídeo + áudio Gere vídeos de alta qualidade com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência Comando de texto/imagem Vídeo + áudio 720p, 1080p US$ 0,40/segundo
    Veo 3 Geração de vídeo Gere vídeos de alta qualidade com base em um comando de texto ou imagem de referência Comando de texto/imagem Vídeo 720p, 1080p US$ 0,20/segundo
    Veo 3 Fast Geração de vídeo + áudio Gere vídeos com fala/efeitos sonoros sincronizados a partir de um comando de texto ou imagem de referência com mais rapidez Comando de texto/imagem Vídeo + áudio 720p, 1080p US$ 0,15/segundo
    Veo 3 Fast Geração de vídeo Gere vídeos com base em um comando de texto ou imagem de referência com mais rapidez Comando de texto/imagem Vídeo 720p, 1080p US$ 0,10/segundo
    Veo 2 Geração de vídeo Gere vídeos com base em um comando de texto ou imagem de referência Comando de texto/imagem Vídeo 720p US$ 0,50/segundo
    Veo 2 Controles avançados Gere vídeos por meio da interpolação de frames inicial e final, estenda os vídeos gerados e aplique controles de câmera Comando de texto/imagem/vídeo Vídeo 720p US$ 0,50/segundo

    Lyria

    O Lyria 2 oferece geração de música instrumental de alta qualidade, ideal para composições sofisticadas e exploração criativa detalhada em que a saída sutil é fundamental.

    Modelo Recurso Descrição Entrada Saída Preço
    Lyria 2 Geração de música Gerar música com base em um comando de texto Comando de texto Música US$ 0,06 por 30 segundos

    Entenda os custos de embeddings para seus aplicativos de IA

    Modelo Tipo Região Preço por 1.000 tokens de entrada
    Incorporação do Gemini Entrada Global
    • Solicitações on-line: US$ 0,00015
    • Solicitações em lote: US$ 0,00012
    Saída Global
    • Solicitações on-line: sem custo financeiro
    • Solicitações em lote: sem cobrança
    Modelo Tipo Região Preço por 1.000 caracteres
    Embeddings para texto
    (exceto o embedding do Gemini)
    Entrada Global
    • Solicitações on-line: US$ 0,000025
    • Solicitações em lote: US$ 0,00002
    Saída Global
    • Solicitações on-line: sem custo financeiro
    • Solicitações em lote: sem cobrança
    Modelo Recurso Descrição Entrada Saída Preço
    multimodalembedding Embeddings para multimodal: texto Gerar embeddings usando texto como entrada Texto Embeddings US$ 0,0002/1.000 caracteres de entrada
    Embeddings para multimodal: imagem Gerar embeddings usando imagem como entrada Imagem Embeddings $0,0001/entrada de imagem
    Embeddings para multimodal: vídeo Plus Vídeo Plus Vídeo Embeddings (até 15 embeddings por minuto de vídeo) US$ 0,0020 por segundo de vídeo
    Embeddings para multimodal: vídeo padrão Vídeo Standard Vídeo Embeddings (até 8 embeddings por minuto de vídeo) US$ 0,0010 por segundo de vídeo
    Embeddings para multimodal: vídeo essencial Vídeo Essential Vídeo Embeddings (até 4 embeddings por minuto de vídeo) US$ 0,0005 por segundo de vídeo
    Modelo de código aberto Tipo Preço por 1.000 tokens de entrada
    multilingual-e5-small Entrada:
    Saída:

    Entrada em lote:
    Saída em lote:
    Solicitações on-line: US$ 0,000015
    Solicitações on-line: sem custo financeiro

    Solicitações em lote: US$ 0,0000075
    Solicitações em lote: sem custo financeiro
    multilingual-e5-large Entrada:
    Saída:

    Entrada em lote:
    Saída em lote:
    Solicitações on-line: US$ 0,000025
    Solicitações on-line: sem custo financeiro

    Solicitações em lote: US$ 0,0000125
    Solicitações em lote: sem custo financeiro

    Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

    Preços do preenchimento de código da Vertex AI

    A IA generativa na Vertex AI cobra por 1.000 caracteres de entrada (prompt) e por 1.000 caracteres de saída (resposta). Os caracteres são contados pelos pontos de código UTF-8, e o espaço em branco é excluído da contagem. Durante o estágio de visualização, as cobranças são 100% descontadas. As solicitações Prediction que levam a respostas filtradas são cobradas apenas pela entrada. No final de cada ciclo de faturamento, as frações de um centavo (US$ 0,01) são arredondadas para um centavo.

    Modelo Tipo Região Preço por 1.000 caracteres
    Codey para preenchimento de código Entrada Global
    • Solicitações on-line: US$ 0,00025
    Saída Global
    • Solicitações on-line: US$ 0,0005

    Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.

    Tradução (texto)

    Usar a API Vertex AI e o LLM de tradução para traduzir textos. As traduções de LLM tendem a ser mais fluentes e naturais do que os modelos de tradução clássicos, mas têm suporte a idiomas mais limitado (Saiba mais).

    Modelo Método Uso Preço por milhão de caracteres
    LLM Tradução de texto* O número de caracteres de entrada por mês

    US$ 10 por milhão de caracteres*

    O número de caracteres de saída por mês

    US$ 10 por milhão de caracteres*

    Os preços são indicados em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
    *O preço é por caractere processado pelo modelo. Para mais informações sobre a contagem de caracteres cobrados, consulte este link

    Preço do armazenamento em cache de contexto para o cache explícito

    Modelo Recurso Tipo Preço (por 1 milhão de tokens)
    <= 200 mil tokens de entrada
    Preço (por 1 milhão de tokens)
    > 200 mil tokens de entrada
    Gemini 3 Pro Armazenamento em cache de contexto Entrada (texto, imagem, vídeo, áudio) US$ 4,50 (por mil tokens/hora) US$ 4,50 (por mil tokens/hora)
    Gemini 2.5 Pro Armazenamento em cache de contexto Entrada (texto, imagem, vídeo, áudio) US$ 4,50 (por mil tokens/hora) US$ 4,50 (por mil tokens/hora)
    Gemini 2.5 Flash Armazenamento em cache de contexto Entrada (texto, imagem, vídeo, áudio) US$ 1 (/M de tokens/hora) US$ 1 (/M de tokens/hora)
    Gemini 2.5 Flash Lite Armazenamento em cache de contexto Entrada (texto, imagem, vídeo, áudio) US$ 1 (/M de tokens/hora) US$ 1 (/M de tokens/hora)

    Modelos do Gemini 2.0

    Preços baseados em token


    Modelo

    Tipo
    Armazenamento
    (M tok-hora)
    Preço




    Gemini 2.0 Flash
    1 milhão de tokens de entrada US$ 1,00 US$ 0,0375
    1 milhão de tokens de áudio de entrada US$ 1,00 US$ 0,25
    1 milhão de tokens de texto de saída NA NA


    Gemini 2.0 Flash Lite
    1 milhão de tokens de entrada US$ 1,00 US$ 0,01875
    1 milhão de tokens de áudio de entrada US$ 1,00 US$ 0,01875
    1 milhão de tokens de texto de saída NA NA

    Preços com base na modalidade

    Os preços de modalidade abaixo são baseados em casos de uso médios apenas para referência. O faturamento real será baseado apenas em tokens:

    • 4 caracteres resultam em aproximadamente 1 token de texto, incluindo espaços em branco.
    • Para uma imagem de 1024 x 1024, são consumidos 1.290 tokens. A contagem de tokens por imagem varia de acordo com a resolução da imagem. Para mais informações sobre como calcular tokens, consulte nossa documentação.
    • A entrada de vídeo consome 258 tokens por segundo na taxa de amostragem de um frame por segundo. O vídeo com áudio é cobrado pelos tokens de vídeo e de áudio.
    • A entrada de áudio consome 25 tokens por segundo sem carimbo de data/hora.

    Modelo

    Tipo
    Armazenamento
    (hora/modalidade)

    Preço




    Gemini 2.0 Flash
    Texto de entrada (US$/M de caracteres) US$ 0,25 US$ 0,009375
    Imagem de entrada (US$/imagem) US$ 0,00129 US$ 0,000048375
    Vídeo de entrada (US$/segundo) US$ 0,000258 US$ 0,000009675
    Áudio de entrada (US$/segundo) US$ 0,000025 US$ 0,00000625
    Texto de saída (US$/M de caracteres) NA NA




    Gemini 2.0 Flash Lite
    Texto de entrada (US$/M de caracteres) US$ 0,25 US$ 0,0046875
    Imagem de entrada (US$/imagem) US$ 0,00129 US$ 0,0000241875
    Vídeo de entrada (US$/segundo) US$ 0,000258 US$ 0,000009675
    Áudio de entrada (US$/segundo) US$ 0,000258 US$ 0,0000048375
    Texto de saída (US$/M de caracteres) NA NA


    Embasamento com a Pesquisa Google
    O Gemini 2.0 Flash inclui até 1.500 solicitações fundamentadas por dia sem custo adicional. Solicitações fundamentadas
    que excedam 1.500 por dia serão cobradas a US $35 por 1.000 solicitações (até 1 milhão de solicitações por dia).

    Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

    Embasamento na Web para empresas
    US$ 45 por 1.000 solicitações (até 1 milhão de solicitações por dia) a partir de 5 de maio de 2025.

    Entre em contato com sua equipe de conta se precisar de mais de 1 milhão de solicitações por dia.

    * Os preços estão em dólares americanos (USD). Se você não paga em dólar americano, valem os preços na sua moeda local listados na página SKUs do Cloud Platform.
    * PDFs são cobrados como entrada de imagem, com uma página de PDF equivalente a uma imagem.
    * O endpoint do modelo ajustado tem o mesmo preço de previsão do modelo de base.
    * O embasamento com a Pesquisa Google é cobrado apenas para solicitações que retornam resultados com pelo menos um URL de suporte de embasamento da Web. Também são aplicadas as taxas de uso do modelo Gemini padrão.

    Capacidade de processamento provisionada

    A capacidade de processamento provisionada garante a capacidade de processamento para suas necessidades de IA generativa e é negociada por meio de unidades de escalonamento de IA generativa, ou GSUs. Saiba mais sobre a quantidade de capacidade de processamento que cada GSU oferece aqui e use nosso estimador on-line aqui.

    Duração Preço por GSU Por
    Compromisso de 1 semana US$ 1.200 Semana
    Compromisso de 1 mês US$ 2.700 Mês
    Compromisso de 3 meses US$ 2.400 Mês
    Compromisso de 1 ano US$ 2.000 Mês

    Exemplo de cálculo de custo

    Um usuário precisa garantir que possa oferecer suporte a 10 consultas por segundo (QPS) de uma consulta com entrada de 1.000 tokens de texto e 500 tokens de áudio e receber uma saída de 300 tokens de texto usando o gemini-2.0-flash.

    Usando a tabela de taxa de transferência e burndown, para o gemini-2.0-flash, sabemos que a taxa de burndown de um token de texto de entrada é de 1 token, a taxa de burndown de um token de áudio de entrada é de 7 tokens e a taxa de burndown de um token de texto de saída é de 4 tokens.

    O total de tokens de entrada do usuário é 1.000* (1 token por token de texto de entrada) + 500* (7 tokens por token de áudio de entrada) = 4.500 tokens de entrada ajustados para redução. O total de tokens de saída do usuário é 300* (4 tokens por token de texto de saída) = 1.200 tokens de saída ajustados para redução. Somando os dois, temos 4.500 tokens de entrada ajustados para redução + 1.200 tokens de saída ajustados para redução = 5.700 tokens no total por consulta.

    Multiplicando o total de tokens por consulta por QPS, temos 5.700 tokens totais por consulta * 10 QPS = 57.000 tokens totais por segundo.

    Dividindo isso pela capacidade de processamento total por segundo por GSU,temos 57.000 tokens totais por segundo ÷ 3.360 de capacidade de processamento por segundo por GSU = 16,96 GSUs. O incremento mínimo de compra de GSU para esse modelo é 1, então o usuário precisaria de 17 GSUs.

    Se o usuário quisesse manter essa capacidade de processamento por uma semana, o custo seria de US $1.200 * 17 GSUs = US $20.400 por semana. Se eles quisessem manter essa capacidade de processamento por um mês, o custo seria de US $2.700 * 17 GSUs = US $45.900 por mês. Se eles quisessem manter essa capacidade de processamento por 3 meses, isso custaria US $2.400 * 17 GSUs = US $40.800 por mês. Por fim, se eles quisessem manter essa capacidade de processamento por um ano, o custo seria de US $2.000 * 17 GSUs = US $34.000 por mês.

    Ajuste de modelos

    O ajuste de modelos é uma maneira eficaz de personalizar modelos grandes para suas tarefas. Essa é uma etapa fundamental para melhorar a qualidade e a eficiência do modelo. O ajuste de modelos oferece os seguintes benefícios:

    • Qualidade mais alta para suas tarefas específicas
    • Maior robustez do modelo
    • Menor latência e custo de inferência devido a comandos mais curtos

    O ajuste é cobrado por milhão de tokens de treinamento. Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de períodos. Para inferência de modelo, o endpoint do modelo ajustado do Gemini tem o mesmo preço de previsão do modelo de base.

    Modelo Tipo Preço (por 1 milhão de tokens de treinamento)
    Gemini 2.5 Pro Ajuste supervisionado US$ 25
    Gemini 2.5 Flash Ajuste supervisionado
    Ajuste de preferências
    US$ 5
    Gemini 2.5 Flash Lite Ajuste supervisionado
    Ajuste de preferências
    US$ 1,5
    Gemma 3 27B IT Ajuste supervisionado US$ 6,83
    Llama 3.1 8B Ajuste supervisionado US$ 0,67
    Llama 3.2 1B Ajuste supervisionado US$ 0,28
    Llama 3.2 3B Ajuste supervisionado US$ 0,61
    Llama 3.3 70B Ajuste supervisionado US$ 6,72
    Llama 4 Scout 17B 16E Ajuste supervisionado US$ 5,77
    Qwen 3 32B Ajuste supervisionado US$ 6,57

    * Os tokens de treinamento são calculados pelo número total de tokens no conjunto de dados de treinamento, multiplicado pelo número de épocas.
    * O endpoint de um modelo ajustado do Gemini tem o mesmo preço de previsão do modelo de base.

    Comparar os preços dos modelos de parceiros na Vertex AI

    Os modelos de parceiros são uma lista selecionada de modelos de IA generativa desenvolvidos por parceiros do Google. Os modelos de parceiros são oferecidos como APIs gerenciadas. Para mais informações, consulte Visão geral dos modelos de parceiros. As seções a seguir listam os detalhes de preços dos modelos de parceiros do Google.

    Modelos da AI21 Labs

    Modelo Preços
    Jamba 1.5 Large (obsoleto) Entrada: US$ 2 / milhão de tokens
    Saída: US$ 8 / milhão de tokens
    Jamba 1.5 Mini (descontinuado) Entrada: US$ 0,20 / milhão de tokens
    Saída: US$ 0,40 / milhão de tokens

    Modelos Claude da Anthropic

    Modelos com preços regionais

    Global

    Modelo Preço (por 1 milhão de tokens) < 200 mil tokens de entrada Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada
    Claude Opus 4.5 Entrada: US$ 5,00
    Saída: US$ 25,00

    Entrada em lote: US$ 2,50
    Saída em lote: US$ 12,50

    Gravação em cache de 5 min: US$ 6,25
    Gravação em cache de 1 h: US$ 10,00

    Acerto de cache: US$ 0,50

    Gravação em cache em lote de 5 min: US$ 3,125
    Gravação em cache em lote de 1 h: US$ 5,00
    Acerto de cache em lote: US$ 0,25
    Claude Sonnet 4.5 Entrada: US$ 3,00
    Saída: US$ 15,00

    Entrada em lote: US$ 1,50
    Saída em lote: US$ 7,50

    Gravação em cache de 5 min: US$ 3,75
    Gravação em cache de 1 h: US$ 6,00

    Acerto de cache: US$ 0,30

    Gravação em cache em lote: US$ 1,88
    Acerto de cache em lote: US$ 0,15
    Entrada: US$ 6,00
    Saída: US$ 22,50

    Entrada em lote: US$ 3,00
    Saída em lote: US$ 11,25

    Gravação em cache de 5 minutos: US$ 7,50
    Gravação em cache de 1 hora: US$ 12,00

    Acerto de cache: US$ 0,60

    Gravação em cache em lote: US$ 3,75
    Acerto de cache em lote: US$ 0,30
    Claude Haiku 4.5 Entrada: US$ 1,00
    Saída: US$ 5,00

    Entrada em lote: US$ 0,50
    Saída em lote: US$ 2,50

    Gravação em cache de 5 minutos: US$ 1,25
    Gravação em cache de 1 hora: US$ 2,00

    Acerto de cache: US$ 0,10

    Gravação em cache em lote: US$ 0,625
    Acerto de cache em lote: US$ 0,05

    us-east5

    Modelo Preço (por 1 milhão de tokens) < 200 mil tokens de entrada Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada
    Claude Opus 4.5 Entrada: US$ 5,50
    Saída: US$ 27,50

    Entrada em lote: US$ 2,75
    Saída em lote: US$ 13,75

    Gravação em cache de 5 minutos: US$ 6,875
    Gravação em cache de 1 hora: US$ 11,00

    Acerto de cache: US$ 0,55

    Gravação em cache em lote de 5 minutos: US$ 3,438
    Gravação em cache em lote de 1 hora: US$ 5,50
    Acerto de cache em lote: US$ 0,275
    Claude Sonnet 4.5 Entrada: US$ 3,30
    Saída: US$ 16,50

    Entrada em lote: US$ 1,65
    Saída em lote: US$ 8,25

    Gravação em cache de 5 min: US$ 4,13
    Gravação em cache de 1 h: US$ 6,60

    Acerto de cache: US$ 0,33

    Gravação em cache em lote: US$ 2,06
    Acerto de cache em lote: US$ 0,17
    Entrada: US$ 6,60
    Saída: US$ 24,75

    Entrada em lote: US$ 3,30
    Saída em lote: US$ 12,38

    Gravação em cache de 5 minutos: US$ 8,25
    Gravação em cache de 1 hora: US$ 13,20

    Acerto de cache: US$ 0,66

    Gravação em cache em lote: US$ 4,13
    Acerto de cache em lote: US$ 0,33
    Claude Haiku 4.5 Entrada: US$ 1,10
    Saída: US$ 5,50

    Entrada em lote: US$ 0,55
    Saída em lote: US$ 2,75

    Gravação em cache de 5 minutos: US$ 1,375
    Gravação em cache de 1 hora: US$ 2,20

    Gravação em cache: US$ 1,375
    Acesso ao cache: US$ 0,11

    Gravação em cache em lote: US$ 0,688
    Acesso ao cache em lote: US$ 0,055

    europe-west1

    Modelo Preço (por 1 milhão de tokens) < 200 mil tokens de entrada Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada
    Claude Opus 4.5 Entrada: US$ 5,50
    Saída: US$ 27,50

    Entrada em lote: US$ 2,75
    Saída em lote: US$ 13,75

    Gravação em cache de 5 minutos: US$ 6,875
    Gravação em cache de 1 hora: US$ 11,00

    Acerto de cache: US$ 0,55

    Gravação em cache em lote de 5 minutos: US$ 3,438
    Gravação em cache em lote de 1 hora: US$ 5,50
    Acerto de cache em lote: US$ 0,275
    Claude Sonnet 4.5 Entrada: US$ 3,30
    Saída: US$ 16,50

    Entrada em lote: US$ 1,65
    Saída em lote: US$ 8,25

    Gravação em cache de 5 min: US$ 4,13
    Gravação em cache de 1 h: US$ 6,60

    Acerto de cache: US$ 0,33

    Gravação em cache em lote: US$ 2,06
    Acerto de cache em lote: US$ 0,17
    Entrada: US$ 6,60
    Saída: US$ 24,75

    Entrada em lote: US$ 3,30
    Saída em lote: US$ 12,38

    Gravação em cache de 5 minutos: US$ 8,25
    Gravação em cache de 1 hora: US$ 13,20

    Acerto de cache: US$ 0,66

    Gravação em cache em lote: US$ 4,13
    Acerto de cache em lote: US$ 0,33
    Claude Haiku 4.5 Entrada: US$ 1,10
    Saída: US$ 5,50

    Entrada em lote: US$ 0,55
    Saída em lote: US$ 2,75

    Gravação em cache de 5 minutos: US$ 1,375
    Gravação em cache de 1 hora: US$ 2,20

    Acesso ao cache: US$ 0,11

    Gravação em cache em lote: US$ 0,688
    Acesso ao cache em lote: US$ 0,055

    asia-southeast1

    Modelo Preço (por 1 milhão de tokens) < 200 mil tokens de entrada Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada
    Claude Opus 4.5 Entrada: US$ 5,50
    Saída: US$ 27,50

    Entrada em lote: US$ 2,75
    Saída em lote: US$ 13,75

    Gravação em cache de 5 minutos: US$ 6,875
    Gravação em cache de 1 hora: US$ 11,00

    Acerto de cache: US$ 0,55

    Gravação em cache em lote de 5 minutos: US$ 3,438
    Gravação em cache em lote de 1 hora: US$ 5,50
    Acerto de cache em lote: US$ 0,275
    Claude Sonnet 4.5 Entrada: US$ 3,30
    Saída: US$ 16,50

    Entrada em lote: US$ 1,65
    Saída em lote: US$ 8,25

    Gravação em cache de 5 min: US$ 4,13
    Gravação em cache de 1 h: US$ 6,60

    Acerto de cache: US$ 0,33

    Gravação em cache em lote: US$ 2,06
    Acerto de cache em lote: US$ 0,17
    Entrada: US$ 6,60
    Saída: US$ 24,75

    Entrada em lote: US$ 3,30
    Saída em lote: US$ 12,38

    Gravação em cache de 5 minutos: US$ 8,25
    Gravação em cache de 1 hora: US$ 13,20

    Acerto de cache: US$ 0,66

    Gravação em cache em lote: US$ 4,13
    Acerto de cache em lote: US$ 0,33

    asia-east1

    Modelo Preço (por 1 milhão de tokens) < 200 mil tokens de entrada Preço (/1 milhão de tokens) >= 200 mil tokens de entrada
    Claude Haiku 4.5 Entrada: US$ 1,10
    Saída: US$ 5,50

    Entrada em lote: US$ 0,55
    Saída em lote: US$ 2,75

    Gravação em cache de 5 minutos: US$ 1,375
    Gravação em cache de 1 hora: US$ 2,20

    Gravação em cache: US$ 1,375
    Acesso ao cache: US$ 0,11

    Gravação em cache em lote: US$ 0,688
    Acesso ao cache em lote: US$ 0,055

    * Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.

    Modelos com preços uniformes em todas as regiões

    Modelo Preço (por 1 milhão de tokens) < 200 mil tokens de entrada Preço (por 1 milhão de tokens) >= 200 mil tokens de entrada
    Claude Opus 4.1 Entrada: US$ 15
    Saída: US$ 75

    Entrada em lote: US$ 7,50
    Saída em lote: US$ 37,50

    Gravação em cache de 5 min: US$ 18,75
    Gravação em cache de 1 h: US$ 30

    Acerto de cache: US$ 1,50

    Gravação em cache em lote: US$ 9,375
    Acerto de cache em lote: US$ 0,75
    N/A
    Claude Opus 4 Entrada: US$ 15
    Saída: US$ 75

    Entrada em lote: US$ 7,50
    Saída em lote: US$ 37,50

    Gravação em cache de 5 min: US$ 18,75
    Gravação em cache de 1 h: US$ 30

    Acerto de cache: US$ 1,50

    Gravação em cache em lote: US$ 9,375
    Acerto de cache em lote: US$ 0,75
    N/A
    Claude Sonnet 4 Entrada: US$ 3
    Saída: US$ 15

    Entrada em lote: US$ 1,50
    Saída em lote: US$ 7,50

    Gravação em cache de 5 min: US$ 3,75
    Gravação em cache de 1 h: US$ 6,00

    Acesso ao cache: US$ 0,30

    Gravação em cache em lote: US$ 1,875
    Acesso ao cache em lote: US$ 0,15
    Entrada: US$ 6
    Saída: US$ 22,50

    Entrada em lote: US$ 3
    Saída em lote: US$ 11,25

    Gravação em cache de 5 minutos: US$ 7,50
    Gravação em cache de 1 hora: US$ 12,00

    Acerto de cache: US$ 0,60

    Gravação em cache em lote: US$ 3,75
    Acerto de cache em lote: US$ 0,30
    Claude 3.5 Haiku Entrada: US$ 0,80
    Saída: US$ 4

    Entrada em lote: US$ 0,40
    Saída em lote: US$ 2

    Gravação em cache de 5 minutos: US$ 1
    Gravação em cache de 1 hora: US$ 1,60

    Acerto de cache: US$ 0,08

    Gravação em cache em lote: US$ 0,50
    Acerto de cache em lote: US$ 0,04
    N/A
    Claude 3 Haiku Entrada: US$ 0,25
    Saída: US$ 1,25

    Gravação em cache de 5 minutos: US$ 0,30
    Gravação em cache de 1 hora: US$ 0,50

    Acesso ao cache: US$ 0,03
    N/A
    Claude 3.7 Sonnet (descontinuado) Entrada: US$ 3
    Saída: US$ 15

    Entrada em lote: US$ 1,50
    Saída em lote: US$ 7,50

    Gravação em cache: US$ 3,75
    Acerto de cache: US$ 0,30

    Gravação em cache em lote: US$ 1,875
    Acerto de cache em lote: US$ 0,15
    N/A
    Claude 3.5 Sonnet v2 (descontinuado) Entrada: US$ 3
    Saída: US$ 15

    Entrada em lote: US$ 1,50
    Saída em lote: US$ 7,50

    Gravação em cache: US$ 3,75
    Acerto de cache: US$ 0,30

    Gravação em cache em lote: US$ 1,875
    Acerto de cache em lote: US$ 0,15
    N/A
    Claude 3.5 Sonnet (descontinuado) Entrada: US$ 3
    Saída: US$ 15

    Gravação no cache: US$ 3,75
    Acerto no cache: US$ 0,30
    N/A
    Claude 3 Opus (descontinuado) Entrada: US$ 15
    Saída: US$ 75

    Gravação no cache: US$ 18,75
    Acerto de cache: US$ 1,50
    N/A

    * Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.

    Preços das ferramentas

    Ferramenta Preço
    Solicitação de pesquisa na Web US$10 por 1.000 pesquisas
    Modelos compatíveis: Claude Haiku 4.5, Claude Sonnet 4.5, Claude Sonnet 4, Claude Opus 4.1 e Claude Opus 4.

    * Se um contexto de entrada de consulta for maior ou igual a 200 mil tokens, todos os tokens (entrada e saída) serão cobrados com as taxas de contexto longo.

    Modelos do Deepseek

    Modelo Preços
    DeepSeek-V3.1 Entrada: US$ 0,60 / milhão de tokens
    Saída: US$ 1,70 / milhão de tokens

    Entrada em lote: US$ 0,30 / milhão de tokens
    Saída em lote: US$ 0,85 / milhão de tokens
    DeepSeek-R1 (0528) Entrada: US$ 1,35 / milhão de tokens
    Saída: US$ 5,40 / milhão de tokens

    Entrada em lote: US$ 0,675 / milhão de tokens
    Saída em lote: US$ 2,70 / milhão de tokens
    DeepSeek-OCR * Entrada: US$ 0,30 / milhão de tokens (ou US $0,0003/página)
    Saída: US$ 1,20 / milhão de tokens (ou US $0,00012/página)
    • Disponível sem custos financeiros até 10 de novembro de 2025.

    Modelos da MiniMax

    Modelo Preços
    MiniMax-M2 * Entrada: US$ 0,30 / milhão de tokens
    Saída: US$ 1,20 / milhão de tokens
    • Disponível sem custos financeiros até 10 de novembro de 2025.

    Modelos da Moonshot

    Modelo Preços
    Kimi-K2-Thinking * Entrada: US$ 0,60 / milhão de tokens
    Saída: US$ 2,50 / milhão de tokens
    • Disponível sem custos financeiros até 17 de novembro de 2025.

    Modelos da Qwen

    Modelo Preços
    Qwen3-Next-80B-Thinking Entrada: US$ 0,15 / milhão de tokens
    Saída: US$ 1,20 / milhão de tokens
    Qwen3-Next-80B-Instruct Entrada: US$ 0,15 / milhão de tokens
    Saída: US$ 1,20 / milhão de tokens
    Qwen3-Coder-480B-A35B-Instruct Entrada: US$ 1,00 / milhão de tokens
    Saída: US$ 4,00 / milhão de tokens

    Entrada em lote: US$ 0,50 / milhão de tokens
    Saída em lote: US$ 2,00 / milhão de tokens
    Qwen3-235B-A22B-Instruct-2507 Entrada: US$ 0,25 / milhão de tokens
    Saída: US$ 1,00 / milhão de tokens

    Entrada em lote: US$ 0,125 / milhão de tokens
    Saída em lote: US$ 0,50 / milhão de tokens

    Modelos da OpenAI

    Modelo Preços
    gpt-oss-120b Entrada: US$ 0,09 / milhão de tokens
    Saída: US$ 0,36 / milhão de tokens

    Entrada em lote: US$ 0,045 / milhão de tokens
    Saída em lote: US$ 0,18 / milhão de tokens
    gpt-oss-20b Entrada: US$ 0,07 / milhão de tokens
    Saída: US$ 0,25 / milhão de tokens

    Entrada em lote: US$ 0,035 / milhão de tokens
    Saída em lote: US$ 0,125 / milhão de tokens

    Modelos Llama da Meta

    Modelo Preços
    Llama 3.1 405B Entrada: US$ 5,00 / milhão de tokens
    Saída: US$ 16,00 / milhão de tokens
    Llama 3.3 70B Entrada: US$ 0,72 / milhão de tokens
    Saída: US$ 0,72 / milhão de tokens

    Entrada em lote: US$ 0,36 / milhão de tokens
    Saída em lote: US$ 0,36 / milhão de tokens
    Llama 4 Scout Entrada: US$ 0,25 / milhão de tokens
    Saída: US$ 0,70 / milhão de tokens

    Entrada em lote: US$ 0,125 / milhão de tokens
    Saída em lote: US$ 0,35 / milhão de tokens
    Llama 4 Maverick Entrada: US$ 0,35 / milhão de tokens
    Saída: US$ 1,15 / milhão de tokens

    Entrada em lote: US$ 0,175 / milhão de tokens
    Saída em lote: US$ 0,575 / milhão de tokens

    Modelos da Mistral AI

    Modelo Preços
    OCR do Mistral (25/05) Entrada: US$ 0,0005 / milhão de tokens (ou US $0,0005/página)
    Saída: US$ 0,0005 / milhão de tokens (ou US $0,0005/página)
    Mistral Medium 3 Entrada: US$ 0,40 / milhão de tokens
    Saída: US$ 2,00 / milhão de tokens
    Mistral Small 3.1 (25.03) Entrada: US$ 0,10 / milhão de tokens
    Saída: US$ 0,30 / milhão de tokens
    Mistral Large (24.11) (descontinuado) Entrada: US$ 2,00 / milhão de tokens
    Saída: US$ 6,00 / milhão de tokens
    Codestral 2 Entrada: US$ 0,30 / milhão de tokens
    Saída: US$ 0,90 / milhão de tokens
    Codestral (25.01) (descontinuado) Entrada: US$ 0,30 / milhão de tokens
    Saída: US$ 0,90 / milhão de tokens

    Solicite uma cotação personalizada

    Com o sistema de pagamento por uso do Google Cloud, você paga apenas pelos serviços que usa. Entre em contato com nossa equipe de vendas e receba uma cotação personalizada para sua organização.
    Entre em contato