Calcula los requisitos de la capacidad de procesamiento aprovisionada

En esta sección, se explican los conceptos de unidad de escala de IA generativa (GSU) y tasas de consumo. La capacidad de procesamiento aprovisionada se calcula y se le asigna un precio con las unidades de escalamiento de IA generativa (GSU) y las tasas de consumo.

GSU y tasa de consumo

Una unidad de escalamiento de IA generativa (GSU) es una medida de la capacidad de procesamiento de tus instrucciones y respuestas. Este importe especifica con cuánta capacidad de procesamiento se aprovisiona un modelo.

Una tasa de consumo es una proporción que convierte los caracteres de entrada y salida en caracteres de entrada por segundo (capacidad de procesamiento). Esta proporción se usa para producir una unidad estándar en todos los modelos.

Los diferentes modelos usan diferentes cantidades de capacidades de procesamiento. Para obtener información sobre el importe mínimo de compra de GSU y los incrementos para cada modelo, consulta Modelos compatibles y tasas de consumo en este documento.

Esta ecuación muestra cómo se calcula la capacidad de procesamiento:

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

La capacidad de procesamiento calculada por segundo determina cuántas GSU necesitas para tu caso de uso.

Consideraciones importantes

Para ayudarte a planificar tus necesidades de capacidad de procesamiento aprovisionada, revisa las siguientes consideraciones importantes:

  • Las solicitudes se priorizan.

    Los clientes con el plan de rendimiento aprovisionado tienen prioridad y se les brinda asistencia primero antes que a las solicitudes on demand.

  • La capacidad de procesamiento no se acumula.

    La capacidad de procesamiento sin usar no se acumula ni se transfiere al mes siguiente.

  • La capacidad de procesamiento aprovisionada se mide en caracteres o tokens por segundo.

    El rendimiento aprovisionado se mide en caracteres o tokens por segundo, no en consultas por minuto (QPM). Como resultado, la medición de la capacidad de procesamiento aprovisionada depende del tamaño de la consulta, el tamaño de la respuesta y el QPM de tu caso de uso.

  • La capacidad de procesamiento aprovisionada verifica tu cuota.

    Tu cuota de rendimiento aprovisionado se verifica cada vez que realizas una solicitud dentro de tu ventana de cuota. En el caso de los modelos gemini-2.0-flash-001, gemini-1.5-flash-002 y gemini-1.5-pro-002, la ventana de cuota puede variar hasta 30 segundos y está sujeta a cambios. Esto significa que, en algunos casos, es posible que experimentes temporalmente tráfico prioritario que supere el importe de tu cuota por segundo, pero no deberías exceder tu cuota por 30 segundos. El período de cuota para otros modelos puede variar hasta un minuto. Los períodos de cuota se basan en la hora del reloj de Vertex AI y son independientes del momento en que se realizan las solicitudes.

    Por ejemplo, si compras 1 GSU de gemini-1.5-pro-002, deberías obtener 800 caracteres por segundo de capacidad de procesamiento siempre activa. En promedio, no deberías superar los 24,000 caracteres en un período de 30 segundos, que se calcula con la siguiente fórmula:

    800 caracteres por segundo × 30 segundos = 24,000 caracteres

    Si enviaste una sola solicitud durante todo el día que consumió 1,600 caracteres en un segundo, es posible que aún se procese como una solicitud de capacidad de procesamiento aprovisionada, aunque hayas excedido el límite de 800 caracteres por segundo en el momento de la solicitud.

  • La capacidad de procesamiento aprovisionada es específica de un proyecto, una región, un modelo y una versión.

    La capacidad de procesamiento aprovisionada se asigna a una combinación específica de proyecto, región, modelo y versión. El mismo modelo llamado desde una región diferente no se tendrá en cuenta en tu cuota de rendimiento aprovisionado ni se priorizará sobre las solicitudes on demand.

Ejemplo de cómo estimar tus necesidades de capacidad de procesamiento aprovisionada

Para estimar tus necesidades de capacidad de procesamiento aprovisionada, usa la herramienta de estimación en la consola de Google Cloud. En el siguiente ejemplo, se ilustra el proceso para estimar la cantidad de rendimiento aprovisionado de tu modelo. La región no se considera en los cálculos de estimación.

En esta tabla, se proporcionan las tasas de agotamiento de gemini-1.5-flash que puedes usar para seguir el ejemplo.

Modelo Capacidad de procesamiento por GSU (caracteres/s) Incremento mínimo de compra de GSU Tasas de consumo
Gemini 1.5 Flash Ventana de contexto menor o igual que 128,000 tokens:
54,000

Ventana de contexto mayor que 128,000 tokens:
27,000
1 Ventana de contexto menor o igual que 128,000 tokens:
1 carácter de entrada = 1 carácter
1 carácter de salida = 4 caracteres
1 imagen = 1,067 caracteres
1 video por segundo = 1,067 caracteres
1 audio por segundo = 107 caracteres

Ventana de contexto mayor que 128,000 tokens:
1 carácter de entrada = 2 caracteres
1 carácter de salida = 8 caracteres
1 imagen = 2,134 caracteres
1 video por segundo = 2,134 caracteres
1 audio por segundo = 214 caracteres
  1. Recopila tus requisitos.

    1. En este ejemplo, tu requisito es asegurarte de poder enviar 2,000 caracteres con 2 imágenes y recibir 300 caracteres de salida para 10 consultas por segundo con gemini-1.5-flash.

      Este paso significa que comprendes tu caso de uso, ya que identificaste el tamaño de tus entradas y salidas, la cantidad de consultas por segundo (QPS) y tu modelo.

    2. Para estimar tu capacidad de procesamiento, especifica tu modelo. En este ejemplo, tu modelo es gemini-1.5-flash.

    3. Especifica el tipo de entrada y, luego, identifica la tasa de consumo. Usa la tasa de consumo para identificar la tasa de consumo según el tipo de entrada.

      La tasa de consumo de una imagen para el modelo gemini-1.5-flash es de 1,067 caracteres.

  2. Calcula tu capacidad de procesamiento.

    1. Multiplica la cantidad de imágenes por la tasa de consumo del tipo de entrada de tu modelo específico.

      2 imágenes × 1,067 caracteres de entrada por imagen = 2,134 caracteres de entrada

    2. El total de caracteres de salida es de 300. Regresa a la tabla de tasas de consumo y busca la tasa de consumo de caracteres de salida (cuatro caracteres por carácter de salida) para tu modelo específico (gemini-1.5-flash).

      300 caracteres de salida * 4 caracteres por carácter de salida = 1,200 caracteres de entrada convertidos

    3. Suma los totales.

      2,000 caracteres de entrada + 2,134 caracteres de entrada convertidos para las imágenes + 1,200 caracteres de entrada convertidos para la salida = 5,334 caracteres de entrada convertidos por consulta

    4. Multiplica los caracteres por consulta por las consultas por segundo esperadas para obtener la capacidad de procesamiento total por segundo.

      5,334 caracteres de entrada convertidos por consulta × 10 QPS = 53,340 caracteres de entrada convertidos en total por segundo

  3. Calcula tus GSU.

    1. Las GSU son la capacidad de procesamiento total por segundo dividida por la capacidad de procesamiento por GSU de la tabla de consumo.

      53,340 caracteres de entrada convertidos en total por segundo ÷ 54,000 de capacidad de procesamiento por GSU = 0.988 GSU

    2. El incremento mínimo de compra de GSU para gemini-1.5-flash es de 1, que cumple con tu requisito.

¿Qué sigue?