Mide la capacidad de procesamiento aprovisionada

En esta sección, se explican los conceptos de unidad de escala de IA generativa (GSU) y tasas de consumo. La capacidad de procesamiento aprovisionada se calcula y se le asigna un precio con las unidades de escalamiento de IA generativa (GSU) y las tasas de consumo.

GSU y tasa de consumo

Una unidad de escalamiento de IA generativa (GSU) es una medida de la capacidad de procesamiento de tus instrucciones y respuestas. Este importe especifica la cantidad de rendimiento con la que se aprovisiona un modelo.

Una tasa de consumo es una proporción que convierte los caracteres de entrada y salida en caracteres de entrada por segundo (capacidad de procesamiento). Esta proporción se usa para producir una unidad estándar en todos los modelos.

Los diferentes modelos usan diferentes cantidades de capacidades de procesamiento. Para obtener información sobre el importe mínimo de compra de GSU y los incrementos para cada modelo, consulta Modelos compatibles y tasas de consumo en este documento.

Esta ecuación muestra cómo se calcula la capacidad de procesamiento:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La capacidad de procesamiento calculada por segundo determina cuántas GSU necesitas para tu caso de uso.

Ejemplo de cómo estimar tus necesidades de capacidad de procesamiento aprovisionada

Para estimar tus necesidades de capacidad de procesamiento aprovisionada, usa la herramienta de estimación en la consola de Google Cloud. En el siguiente ejemplo, se ilustra el proceso para estimar la cantidad de rendimiento aprovisionado de tu modelo. La región no se considera en los cálculos de estimación.

En esta tabla, se proporcionan las tasas de agotamiento de gemini-1.5-flash que puedes usar para seguir el ejemplo.

Modelo Capacidad de procesamiento por GSU (caracteres/s) Incremento mínimo de compra de GSU Tasas de consumo
Gemini 1.5 Flash Ventana de contexto menor o igual que 128,000 tokens:
54,000

Ventana de contexto mayor que 128,000 tokens:
27,000
1 Ventana de contexto menor o igual que 128,000 tokens:
1 carácter de entrada = 1 carácter
1 carácter de salida = 4 caracteres
1 imagen = 1,067 caracteres
1 video por segundo = 1,067 caracteres
1 audio por segundo = 107 caracteres
Ventana de contexto de más de 128,000 tokens:
1 carácter de entrada = 2 caracteres
1 carácter de salida = 8 caracteres
1 imagen = 2,134 caracteres
1 video por segundo = 2,134 caracteres
1 audio por segundo = 214 caracteres
  1. Recopila tus requisitos.

    1. En este ejemplo, tu requisito es asegurarte de poder enviar 2,000 caracteres con 2 imágenes y recibir 300 caracteres de salida para 10 consultas por segundo con gemini-1.5-flash.

      Este paso significa que comprendes tu caso de uso, ya que identificaste el tamaño de tus entradas y salidas, la cantidad de consultas por segundo (QPS) y tu modelo.

    2. Para estimar tu capacidad de procesamiento, especifica tu modelo. En este ejemplo, tu modelo es gemini-1.5-flash.

    3. Especifica el tipo de entrada y, luego, identifica la tasa de consumo. Usa la tabla de tasas de consumo para identificar la tasa de consumo según el tipo de entrada.

      La tasa de consumo de una imagen para el modelo gemini-1.5-flash es de 1,067 caracteres.

  2. Calcula tu capacidad de procesamiento.

    1. Multiplica la cantidad de imágenes por la tasa de consumo del tipo de entrada de tu modelo específico.

      2 imágenes × 1,067 caracteres de entrada por imagen = 2,134 caracteres de entrada

    2. El total de caracteres de salida es de 300. Regresa a la tabla de tasas de consumo y busca la tasa de consumo de caracteres de salida (cuatro caracteres por carácter de salida) para tu modelo específico (gemini-1.5-flash).

      300 caracteres de salida * 4 caracteres por carácter de salida = 1,200 caracteres de entrada convertidos

    3. Suma los totales.

      2,000 caracteres de entrada + 2,134 caracteres de entrada convertidos para las imágenes + 1,200 caracteres de entrada convertidos para la salida = 5,334 caracteres de entrada convertidos por consulta

    4. Multiplica los caracteres por consulta por las consultas por segundo esperadas para obtener la capacidad de procesamiento total por segundo.

      5,334 caracteres de entrada convertidos por consulta × 10 QPS = 53,340 caracteres de entrada convertidos en total por segundo

  3. Calcula tus GSU.

    1. Las GSU son la capacidad de procesamiento total por segundo dividida por la capacidad de procesamiento por GSU de la tabla de consumo.

      53,340 caracteres de entrada convertidos en total por segundo ÷ 54,000 de capacidad de procesamiento por GSU = 0.988 GSU

    2. El incremento mínimo de compra de GSU para gemini-1.5-flash es de 1, que cumple con tu requisito.

¿Qué sigue?