As tabelas a seguir mostram os modelos compatíveis com a capacidade de processamento provisionada, a capacidade de processamento para cada Unidade de escala de IA generativa (GSU, na sigla em inglês) e as taxas de burndown de cada modelo.
Modelos do Google
Esta tabela mostra a capacidade de processamento, o incremento de compra e as taxas de burndown para modelos do Google que oferecem suporte à capacidade de processamento provisionada. Os modelos do Google são medidos em caracteres por segundo, que é definido como a entrada de comando e os caracteres de saída de texto gerados em todas as solicitações por segundo.
Modelo | Capacidade de processamento por GSU (caracteres/s) | Incremento mínimo de compra de GSU | Taxas de burndown | |
---|---|---|---|---|
Gemini 1.5 Flash | Janela de contexto menor ou igual a 128.000 tokens: 54.000 Janela de contexto maior que 128.000 tokens: 27.000 |
1 | Janela de contexto menor ou igual a 128.000 tokens: 1 caractere de entrada = 1 caractere 1 caractere de saída = 4 caracteres 1 imagem = 1.067 caracteres 1 vídeo por segundo = 1.067 caracteres 1 áudio por segundo = 107 caracteres |
Janela de contexto maior que 128.000 tokens: 1 caractere de entrada = 2 caracteres 1 caractere de saída = 8 caracteres 1 imagem = 2.134 caracteres 1 vídeo por segundo = 2.134 caracteres 1 áudio por segundo = 214 caracteres |
Gemini 1.5 Pro | 800 | 1 | Janela de contexto menor ou igual a 128.000 tokens: 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres 1 imagem = 1.052 caracteres 1 vídeo por segundo = 1.052 caracteres 1 áudio por segundo = 100 caracteres |
Janela de contexto maior que 128.000 tokens: 1 caractere de entrada = 2 caracteres 1 caractere de saída = 6 caracteres 1 imagem = 2.104 caracteres 1 vídeo por segundo = 2.104 caracteres 1 áudio por segundo = 200 caracteres |
Gemini 1.0 Pro | 8.000 | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres 1 imagem = 20.000 caracteres 1 vídeo por segundo = 16.000 caracteres |
|
Imagen 3 | 0,025 A capacidade de processamento é medida em imagens/s em vez de caracteres/s. |
1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. | |
Imagen 3 Fast | 0,05 A capacidade de processamento é medida em imagens/s em vez de caracteres/s. |
1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. | |
Imagem 2 | 0,05 A capacidade de processamento é medida em imagens/s em vez de caracteres/s. |
1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. | |
Edição do Imagen 2 | 0,05 A capacidade de processamento é medida em imagens/s em vez de caracteres/s. |
1 | Somente as imagens de saída são contabilizadas na cota de capacidade de processamento provisionada. | |
MedLM medium | 2.000 | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 2 caracteres |
|
MedLM grande | 200 | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres |
|
MedLM large 1.5 | 200 | 1 | 1 caractere de entrada = 1 caractere 1 caractere de saída = 3 caracteres |
Para mais informações sobre os locais compatíveis, consulte Locais disponíveis.
Você pode fazer upgrade para novos modelos assim que eles forem disponibilizados. Para informações sobre disponibilidade e datas de descontinuação, consulte Modelos do Google.
Prévia dos recursos
Os recursos de pré-lançamento da capacidade de processamento provisionada exigem aprovação de acesso. Para solicitar acesso, preencha e envie o formulário de controle de acesso de throughput provisionado.
A versão de visualização oferece o seguinte para os modelos do Google:
A capacidade de processamento provisionada pode ser aplicada a modelos básicos e versões ajustadas supervisionadas desses modelos.
Os endpoints de modelos ajustados supervisionados e o modelo de base correspondente são contabilizados na mesma cota de throughput provisionado.
Por exemplo, o throughput provisionado comprado para
gemini-1.5-pro-002
em um projeto específico prioriza as solicitações feitas de versões ajustadas supervisionadas degemini-1.5-pro-002
criadas nesse projeto. Use o cabeçalho adequado para controlar o comportamento do tráfego.O throughput provisionado pode ser comprado por um período de uma semana, em vez de uma assinatura mensal, com a opção de fornecer uma data de início dentro de duas semanas no futuro do pedido.
Modelos legados do Google
Consulte Modelos legados com suporte à capacidade de processamento provisionada.
Modelos de parceiros
Esta tabela mostra as taxas de capacidade de processamento, incremento de compra e taxas de burndown dos modelos de parceiros que oferecem suporte à capacidade de processamento provisionada. Os modelos de Claude são medidos em tokens por segundo, que é definido como o total de tokens de entrada e saída em todas as solicitações por segundo.
Modelo | Capacidade de processamento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Taxas de burndown |
---|---|---|---|---|
Soneto Claude 3.5 v2 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Haiku Claude 3.5 da Anthropic | 2.000 | 10 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Claude 3 Opus da Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Haiku Claude 3 da Anthropic | 4.200 | 5 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Soneto Claude 3.5 da Anthropic | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de saída = 5 tokens |
Para informações sobre os locais com suporte, consulte Disponibilidade de região do Anthropic Claude. Para solicitar a taxa de transferência provisionada para modelos Anthropic, entre em contato com o Google Cloud representante da conta.