Medir a capacidade de processamento provisionada

Nesta seção, explicamos os conceitos de unidade de escala da IA generativa (GSU) e taxas de burndown. A capacidade de processamento provisionada é calculada e precificada usando unidades de escala de IA generativa (GSUs) e taxas de burndown.

GSU e taxa de esgotamento

Uma unidade de escala de IA generativa (GSU, na sigla em inglês) é uma medida de capacidade de processamento para comandos e respostas. Esse valor especifica a capacidade de provisionamento de um modelo.

Uma taxa de burndown é uma proporção que converte os caracteres de entrada e saída em caracteres de entrada por segundo (capacidade de processamento). Essa proporção é usada para produzir uma unidade padrão em todos os modelos.

Modelos diferentes usam quantidades diferentes de capacidade de processamento. Para informações sobre o valor mínimo de compra e os incrementos de GSU para cada modelo, consulte Modelos e taxas de burndown compatíveis neste documento.

Esta equação demonstra como a capacidade de processamento é calculada:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

A capacidade de processamento calculada por segundo determina quantas GSUs você precisa para seu caso de uso.

Exemplo de estimativa das suas necessidades de capacidade de processamento provisionada

Para estimar suas necessidades de capacidade de processamento provisionada, use a ferramenta de estimativa no console do Google Cloud. O exemplo a seguir ilustra o processo de estimativa da quantidade de capacidade de processamento provisionada para o modelo. A região não é considerada nos cálculos de estimativa.

Esta tabela mostra as taxas de burndown para gemini-1.5-flash que podem ser usadas para seguir o exemplo.

Modelo Capacidade de processamento por GSU (caracteres/s) Incremento mínimo de compra de GSU Taxas de burndown
Gemini 1.5 Flash Janela de contexto menor ou igual a 128.000 tokens:
54.000

Janela de contexto maior que 128.000 tokens:
27.000
1 Janela de contexto menor ou igual a 128.000 tokens:
1 caractere de entrada = 1 caractere
1 caractere de saída = 4 caracteres
1 imagem = 1.067 caracteres
1 vídeo por segundo = 1.067 caracteres
1 áudio por segundo = 107 caracteres
Janela de contexto maior que 128.000 tokens:
1 caractere de entrada = 2 caracteres
1 caractere de saída = 8 caracteres
1 imagem = 2.134 caracteres
1 vídeo por segundo = 2.134 caracteres
1 áudio por segundo = 214 caracteres
  1. Reúna os requisitos.

    1. Neste exemplo, seu requisito é garantir que você possa enviar 2.000 caracteres com 2 imagens e receber 300 caracteres de saída para 10 consultas por segundo usando gemini-1.5-flash.

      Esta etapa significa que você entende seu caso de uso, porque você identificou o tamanho das entradas e saídas, o número de consultas por segundo (QPS) e seu modelo.

    2. Para estimar sua capacidade de processamento, especifique o modelo. Neste exemplo, o modelo é gemini-1.5-flash.

    3. Especifique o tipo de entrada e identifique a taxa de burndown. Use a tabela de taxas de burndown para identificar a taxa de burndown com base no tipo de entrada.

      A taxa de burndown de uma imagem para o modelo gemini-1.5-flash é de 1.067 caracteres.

  2. Calcule sua capacidade de processamento.

    1. Multiplique o número de imagens pela taxa de burndown do tipo de entrada para seu modelo específico.

      2 imagens * 1.067 caracteres de entrada por imagem = 2.134 caracteres de entrada

    2. O total de caracteres de saída é 300. Volte para a tabela de taxas de burndown e procure a taxa de burndown para os caracteres de saída (quatro caracteres por caractere de saída) para seu modelo específico (gemini-1.5-flash).

      300 caracteres de saída * 4 caracteres por caractere de saída = 1.200 caracteres de entrada convertidos

    3. Adicione todos os totais.

      2.000 caracteres de entrada + 2.134 caracteres de entrada convertidos para as imagens + 1.200 caracteres de entrada convertidos para a saída = 5.334 caracteres de entrada convertidos por consulta

    4. Multiplique os caracteres por consulta pelas consultas esperadas por segundo para obter a capacidade de processamento total por segundo.

      5.334 caracteres de entrada convertidos por consulta * 10 QPS = 53.340 caracteres de entrada convertidos no total por segundo.

  3. Calcule suas GSUs.

    1. As GSUs são a capacidade de processamento total por segundo dividida pela capacidade de processamento por GSU da tabela de burndown.

      53.340 caracteres de entrada convertidos no total por segundo ÷ 54.000 de capacidade de processamento por GSU = 0,988 GSUs

    2. O incremento mínimo de compra de GSU para gemini-1.5-flash é 1, que atende aos seus requisitos.

A seguir