Capacidad de procesamiento reservada para la API Live

En esta sección se explica cómo funciona el rendimiento aprovisionado con la API Live para el recuento de tokens y la aplicación de cuotas.

La API Live admite interacciones multimodales de baja latencia a través de sesiones. Usa una memoria de sesión para conservar y recordar información de las interacciones dentro de una sesión. De esta forma, el modelo puede recordar información que se ha proporcionado o tratado anteriormente. El rendimiento aprovisionado es compatible con el modelo Gemini 2.5 Flash con API Live. Para obtener más información sobre la API Live, incluidos los límites de sesión y las funciones, consulta la referencia de la API Live.

Calcular el rendimiento de la API Live

Mientras se usa la API Live, los tokens almacenados en la memoria de la sesión se pueden usar en solicitudes posteriores al modelo. Por lo tanto, Provisioned Throughput tiene en cuenta los tokens entrantes, así como los tokens de memoria de sesión en la misma solicitud. Esto puede provocar que el número de tokens procesados por solicitud sea superior al número de tokens que el usuario envía en la solicitud en curso.

La API Live tiene un límite en el número total de tokens que se pueden almacenar en la memoria de la sesión y también tiene un campo de metadatos que contiene el número total de tokens. Al calcular la cantidad de rendimiento necesaria para atender tus solicitudes, debes tener en cuenta los tokens de la memoria de la sesión. Si has usado la API Live con la modalidad de pago por uso, puedes usar estos patrones de tráfico y tokens de sesión para estimar tus necesidades de rendimiento aprovisionado.

Ejemplo de cómo estimar los requisitos de capacidad de procesamiento aprovisionada de la API Live

Durante una sesión, todo el tráfico se procesa como Throughput aprovisionado o como pago por uso. Si alcanzas tu cuota de Throughput aprovisionado durante una sesión, recibirás un mensaje de error en el que se te pedirá que lo intentes de nuevo más tarde. Una vez que te encuentres dentro de tu cuota, podrás volver a enviar solicitudes. El estado de la sesión, incluida la memoria de la sesión, está disponible mientras la sesión esté activa.

En este ejemplo se muestra cómo se procesan dos solicitudes consecutivas incluyendo los tokens de la memoria de la sesión.

Detalles de la solicitud n.º 1

Duración: 10 segundos

Tokens enviados (audio): 10 segundos × 25 tokens/segundo = 250 tokens

Tokens enviados (vídeo): 10 segundos × 258 tokens/fotograma por segundo = 2580 tokens

Total de tokens procesados en la solicitud 1:

  • Tokens enviados: suma de tokens de audio y vídeo enviados = 2580 + 250 = 2830 tokens
  • Tokens recibidos: 100 (audio)

Detalles de la solicitud n.º 2

Duración: 40 segundos

Tokens enviados (audio): 40 segundos × 25 tokens/segundo = 1000 tokens

Total de tokens procesados en la solicitud n.º 2:

  • Tokens enviados: tokens enviados en la solicitud n.º 2 + tokens de memoria de sesión de la solicitud n.º 1 = 2830 tokens + 1000 tokens = 3830 tokens
  • Tokens recibidos: 200 (audio)

Calcula el número de tokens procesados en las solicitudes.

El número de tokens procesados durante estas solicitudes se calcula de la siguiente manera:

  • La solicitud 1 solo procesa los tokens de entrada y salida de la solicitud en curso, ya que no hay tokens adicionales en la memoria de la sesión.

  • La solicitud n.º 2 procesa los tokens de entrada y salida de la solicitud en curso, pero también incluye los tokens de entrada de la memoria de la sesión, que son los tokens de entrada de la solicitud anterior (solicitud n.º 1) de la memoria de la sesión. La tasa de consumo de los tokens de la memoria de la sesión es la misma que la de los tokens de entrada estándar (1 token de memoria de sesión de entrada = 1 token de entrada).

    Si la solicitud n.º 2 ha tardado exactamente 1 segundo en procesarse después de que la enviaras, tus tokens se procesan y se aplican a tu cuota de throughput aprovisionado de la siguiente manera:

    • Multiplica las entradas por las tasas de consumo para obtener el total de tokens de entrada:

      2830 x (1 token por token de memoria de sesión) + 1000 x (1 token por token de texto de entrada) = 3830 tokens de entrada ajustados por agotamiento por consulta

    • Multiplica los resultados por las tasas de consumo para obtener el total de tokens de salida:

      200 x (6 tokens por token de salida de audio) = 1200 tokens

    • Suma estos dos totales para obtener el número total de tokens procesados:

      3830 tokens + 1200 tokens = 5030 tokens

Si tu cuota de rendimiento aprovisionado es superior a 5030 tokens por segundo, esta solicitud se puede procesar inmediatamente. Si es inferior, los tokens se procesan a lo largo del tiempo al ritmo que hayas definido para tu cuota.

Siguientes pasos