Nesta seção, explicamos os conceitos de unidade de escala da IA generativa (GSU) e taxas de burndown. A capacidade de processamento provisionada é calculada e precificada usando unidades de escala de IA generativa (GSUs) e taxas de burndown.
GSU e taxa de esgotamento
Uma unidade de escala de IA generativa (GSU, na sigla em inglês) é uma medida de capacidade de processamento para comandos e respostas. Esse valor especifica a capacidade de provisionamento de um modelo.
Uma taxa de burndown é uma proporção que converte os caracteres de entrada e saída em caracteres de entrada por segundo (capacidade de processamento). Essa proporção é usada para produzir uma unidade padrão em todos os modelos.
Modelos diferentes usam quantidades diferentes de capacidade de processamento. Para informações sobre o valor mínimo de compra e os incrementos de GSU para cada modelo, consulte Modelos e taxas de burndown compatíveis neste documento.
Esta equação demonstra como a capacidade de processamento é calculada:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
A capacidade de processamento calculada por segundo determina quantas GSUs você precisa para seu caso de uso.
Exemplo de estimativa das suas necessidades de capacidade de processamento provisionada
Para estimar suas necessidades de capacidade de processamento provisionada, use a ferramenta de estimativa no console do Google Cloud. O exemplo a seguir ilustra o processo de estimativa da quantidade de capacidade de processamento provisionada para o modelo. A região não é considerada nos cálculos de estimativa.
Esta tabela mostra as taxas de burndown para gemini-1.5-flash
que podem ser usadas para seguir o exemplo.
Modelo | Capacidade de processamento por GSU (caracteres/s) | Incremento mínimo de compra de GSU | Taxas de burndown | |
---|---|---|---|---|
Gemini 1.5 Flash | Janela de contexto menor ou igual a 128.000 tokens: 54.000 Janela de contexto maior que 128.000 tokens: 27.000 |
1 | Janela de contexto menor ou igual a 128.000 tokens: 1 caractere de entrada = 1 caractere 1 caractere de saída = 4 caracteres 1 imagem = 1.067 caracteres 1 vídeo por segundo = 1.067 caracteres 1 áudio por segundo = 107 caracteres |
Janela de contexto maior que 128.000 tokens: 1 caractere de entrada = 2 caracteres 1 caractere de saída = 8 caracteres 1 imagem = 2.134 caracteres 1 vídeo por segundo = 2.134 caracteres 1 áudio por segundo = 214 caracteres |
Reúna os requisitos.
Neste exemplo, seu requisito é garantir que você possa enviar 2.000 caracteres com 2 imagens e receber 300 caracteres de saída para 10 consultas por segundo usando
gemini-1.5-flash
.Esta etapa significa que você entende seu caso de uso, porque você identificou o tamanho das entradas e saídas, o número de consultas por segundo (QPS) e seu modelo.
Para estimar sua capacidade de processamento, especifique o modelo. Neste exemplo, o modelo é
gemini-1.5-flash
.Especifique o tipo de entrada e identifique a taxa de burndown. Use a tabela de taxas de burndown para identificar a taxa de burndown com base no tipo de entrada.
A taxa de burndown de uma imagem para o modelo
gemini-1.5-flash
é de 1.067 caracteres.
Calcule sua capacidade de processamento.
Multiplique o número de imagens pela taxa de burndown do tipo de entrada para seu modelo específico.
2 imagens * 1.067 caracteres de entrada por imagem = 2.134 caracteres de entrada
O total de caracteres de saída é 300. Volte para a tabela de taxas de burndown e procure a taxa de burndown para os caracteres de saída (quatro caracteres por caractere de saída) para seu modelo específico (
gemini-1.5-flash
).300 caracteres de saída * 4 caracteres por caractere de saída = 1.200 caracteres de entrada convertidos
Adicione todos os totais.
2.000 caracteres de entrada + 2.134 caracteres de entrada convertidos para as imagens + 1.200 caracteres de entrada convertidos para a saída = 5.334 caracteres de entrada convertidos por consulta
Multiplique os caracteres por consulta pelas consultas esperadas por segundo para obter a capacidade de processamento total por segundo.
5.334 caracteres de entrada convertidos por consulta * 10 QPS = 53.340 caracteres de entrada convertidos no total por segundo.
Calcule suas GSUs.
As GSUs são a capacidade de processamento total por segundo dividida pela capacidade de processamento por GSU da tabela de burndown.
53.340 caracteres de entrada convertidos no total por segundo ÷ 54.000 de capacidade de processamento por GSU = 0,988 GSUs
O incremento mínimo de compra de GSU para
gemini-1.5-flash
é 1, que atende aos seus requisitos.