Modelos compatíveis

As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada Unidade de escala de IA generativa (GSU, na sigla em inglês) e as taxas de burndown de cada modelo.

Modelos do Google

Esta tabela mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. Os modelos do Google são medidos em caracteres por segundo, que é definido como a entrada de comando e os caracteres de saída de texto gerados em todas as solicitações por segundo.

Modelo Capacidade de processamento por GSU (caracteres/s) Incremento mínimo de compra de GSU Taxas de burndown
Gemini 1.5 Flash Janela de contexto menor ou igual a 128.000 tokens:
54.000

Janela de contexto maior que 128.000 tokens:
27.000
1 Janela de contexto menor ou igual a 128.000 tokens:
1 caractere de entrada = 1 caractere
1 caractere de saída = 4 caracteres
1 imagem = 1.067 caracteres
1 vídeo por segundo = 1.067 caracteres
1 áudio por segundo = 107 caracteres
Janela de contexto maior que 128.000 tokens:
1 caractere de entrada = 2 caracteres
1 caractere de saída = 8 caracteres
1 imagem = 2.134 caracteres
1 vídeo por segundo = 2.134 caracteres
1 áudio por segundo = 214 caracteres
Gemini 1.5 Pro 800 1 Janela de contexto menor ou igual a 128.000 tokens:
1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres
1 imagem = 1.052 caracteres
1 vídeo por segundo = 1.052 caracteres
1 áudio por segundo = 100 caracteres
Janela de contexto maior que 128.000 tokens:
1 caractere de entrada = 2 caracteres
1 caractere de saída = 6 caracteres
1 imagem = 2.104 caracteres
1 vídeo por segundo = 2.104 caracteres
1 áudio por segundo = 200 caracteres
Gemini 1.0 Pro 8.000 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres
1 imagem = 20.000 caracteres
1 vídeo por segundo = 16.000 caracteres
Imagen 3 0,025
A capacidade de processamento é medida em imagens/s em vez de caracteres/s.
1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagen 3 Fast 0,05
A capacidade de processamento é medida em imagens/s em vez de caracteres/s.
1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Imagem 2 0,05
A capacidade de processamento é medida em imagens/s em vez de caracteres/s.
1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
Edição do Imagen 2 0,05
A capacidade de processamento é medida em imagens/s em vez de caracteres/s.
1 Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada.
MedLM medium 2.000 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 2 caracteres
MedLM grande 200 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres
MedLM large 1.5 200 1 1 caractere de entrada = 1 caractere
1 caractere de saída = 3 caracteres

Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.

Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.

Prévia dos recursos

Os recursos de pré-lançamento da capacidade de processamento provisionada exigem aprovação de acesso. Para solicitar acesso, preencha e envie o formulário de controle de acesso de throughput provisionado.

A versão de visualização oferece o seguinte para os modelos do Google:

  • A capacidade de processamento provisionada pode ser aplicada a modelos básicos e versões ajustadas supervisionadas desses modelos.

  • Os endpoints de modelos ajustados supervisionados e o modelo de base correspondente são contabilizados na mesma cota de throughput provisionado.

    Por exemplo, o throughput provisionado comprado para gemini-1.5-pro-002 em um projeto específico prioriza as solicitações feitas de versões ajustadas supervisionadas de gemini-1.5-pro-002 criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.

  • O throughput provisionado pode ser comprado por um período de uma semana, em vez de uma assinatura mensal, com a opção de fornecer uma data de início dentro de duas semanas no futuro do pedido.

Modelos legados do Google

Consulte Modelos legados com suporte à capacidade de processamento provisionada.

Modelos de parceiros

Esta tabela mostra as taxas de capacidade de processamento, incremento de compra e taxas de burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos de Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.

Modelo Capacidade de processamento por GSU (tokens/s) Compra mínima de GSU Incremento de compra de GSU Taxas de burndown
Soneto Claude 3.5 v2 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Haiku Claude 3.5 da Anthropic 2.000 10 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Claude 3 Opus da Anthropic 70 35 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Haiku Claude 3 da Anthropic 4.200 5 1 1 token de entrada = 1 token
1 token de saída = 5 tokens
Soneto Claude 3.5 da Anthropic 350 25 1 1 token de entrada = 1 token
1 token de saída = 5 tokens

Para informações sobre os locais com suporte, consulte Disponibilidade de região do Anthropic Claude. Para solicitar a taxa de transferência provisionada para modelos Anthropic, entre em contato com o Google Cloud representante da conta.

A seguir