En esta sección, se explican los conceptos de unidad de escala de IA generativa (GSU) y tasas de consumo. La capacidad de procesamiento aprovisionada se calcula y se le asigna un precio con las unidades de escalamiento de IA generativa (GSU) y las tasas de consumo.
GSU y tasa de consumo
Una unidad de escalamiento de IA generativa (GSU) es una medida de la capacidad de procesamiento de tus instrucciones y respuestas. Este importe especifica la cantidad de rendimiento con la que se aprovisiona un modelo.
Una tasa de consumo es una proporción que convierte los caracteres de entrada y salida en caracteres de entrada por segundo (capacidad de procesamiento). Esta proporción se usa para producir una unidad estándar en todos los modelos.
Los diferentes modelos usan diferentes cantidades de capacidades de procesamiento. Para obtener información sobre el importe mínimo de compra de GSU y los incrementos para cada modelo, consulta Modelos compatibles y tasas de consumo en este documento.
Esta ecuación muestra cómo se calcula la capacidad de procesamiento:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
La capacidad de procesamiento calculada por segundo determina cuántas GSU necesitas para tu caso de uso.
Ejemplo de cómo estimar tus necesidades de capacidad de procesamiento aprovisionada
Para estimar tus necesidades de capacidad de procesamiento aprovisionada, usa la herramienta de estimación en la consola de Google Cloud. En el siguiente ejemplo, se ilustra el proceso para estimar la cantidad de rendimiento aprovisionado de tu modelo. La región no se considera en los cálculos de estimación.
En esta tabla, se proporcionan las tasas de agotamiento de gemini-1.5-flash
que puedes usar para seguir el ejemplo.
Modelo | Capacidad de procesamiento por GSU (caracteres/s) | Incremento mínimo de compra de GSU | Tasas de consumo | |
---|---|---|---|---|
Gemini 1.5 Flash | Ventana de contexto menor o igual que 128,000 tokens: 54,000 Ventana de contexto mayor que 128,000 tokens: 27,000 |
1 | Ventana de contexto menor o igual que 128,000 tokens: 1 carácter de entrada = 1 carácter 1 carácter de salida = 4 caracteres 1 imagen = 1,067 caracteres 1 video por segundo = 1,067 caracteres 1 audio por segundo = 107 caracteres |
Ventana de contexto de más de 128,000 tokens: 1 carácter de entrada = 2 caracteres 1 carácter de salida = 8 caracteres 1 imagen = 2,134 caracteres 1 video por segundo = 2,134 caracteres 1 audio por segundo = 214 caracteres |
Recopila tus requisitos.
En este ejemplo, tu requisito es asegurarte de poder enviar 2,000 caracteres con 2 imágenes y recibir 300 caracteres de salida para 10 consultas por segundo con
gemini-1.5-flash
.Este paso significa que comprendes tu caso de uso, ya que identificaste el tamaño de tus entradas y salidas, la cantidad de consultas por segundo (QPS) y tu modelo.
Para estimar tu capacidad de procesamiento, especifica tu modelo. En este ejemplo, tu modelo es
gemini-1.5-flash
.Especifica el tipo de entrada y, luego, identifica la tasa de consumo. Usa la tabla de tasas de consumo para identificar la tasa de consumo según el tipo de entrada.
La tasa de consumo de una imagen para el modelo
gemini-1.5-flash
es de 1,067 caracteres.
Calcula tu capacidad de procesamiento.
Multiplica la cantidad de imágenes por la tasa de consumo del tipo de entrada de tu modelo específico.
2 imágenes × 1,067 caracteres de entrada por imagen = 2,134 caracteres de entrada
El total de caracteres de salida es de 300. Regresa a la tabla de tasas de consumo y busca la tasa de consumo de caracteres de salida (cuatro caracteres por carácter de salida) para tu modelo específico (
gemini-1.5-flash
).300 caracteres de salida * 4 caracteres por carácter de salida = 1,200 caracteres de entrada convertidos
Suma los totales.
2,000 caracteres de entrada + 2,134 caracteres de entrada convertidos para las imágenes + 1,200 caracteres de entrada convertidos para la salida = 5,334 caracteres de entrada convertidos por consulta
Multiplica los caracteres por consulta por las consultas por segundo esperadas para obtener la capacidad de procesamiento total por segundo.
5,334 caracteres de entrada convertidos por consulta × 10 QPS = 53,340 caracteres de entrada convertidos en total por segundo
Calcula tus GSU.
Las GSU son la capacidad de procesamiento total por segundo dividida por la capacidad de procesamiento por GSU de la tabla de consumo.
53,340 caracteres de entrada convertidos en total por segundo ÷ 54,000 de capacidad de procesamiento por GSU = 0.988 GSU
El incremento mínimo de compra de GSU para
gemini-1.5-flash
es de 1, que cumple con tu requisito.