Cette section explique comment fonctionne le débit provisionné avec l'API Live pour le comptage des jetons et l'application des quotas.
L'API Live permet des interactions multimodales à faible latence via des sessions. Il utilise une mémoire de session pour conserver et rappeler les informations issues des interactions au cours d'une session. Cela permet au modèle de se souvenir des informations fournies ou discutées précédemment. Le débit provisionné est compatible avec le modèle Gemini 2.5 Flash avec l'API Live. Pour en savoir plus sur l'API Live, y compris sur les limites et les fonctionnalités des sessions, consultez la documentation de référence de l'API Live.
Calculer le débit pour l'API Live
Lorsque vous utilisez l'API Live, les jetons stockés dans la mémoire de session peuvent être utilisés dans les requêtes ultérieures adressées au modèle. Par conséquent, le débit provisionné tient compte des jetons entrants ainsi que des jetons de mémoire de session dans la même requête. Cela peut entraîner un nombre de jetons traités par requête supérieur à celui envoyé par l'utilisateur dans la requête en cours.
L'API Live limite le nombre total de jetons pouvant être stockés dans la mémoire de session. Elle comporte également un champ de métadonnées contenant le nombre total de jetons. Lorsque vous calculez le débit nécessaire pour répondre à vos requêtes, vous devez tenir compte des jetons dans la mémoire de session. Si vous avez utilisé l'API Live avec le paiement à l'usage, vous pouvez utiliser ces modèles de trafic et jetons de session pour estimer vos besoins en débit provisionné.
Exemple d'estimation de vos besoins de débit provisionné pour l'API Live
Pendant une session, tout le trafic est traité en tant que débit provisionné ou paiement à l'utilisation. Si vous atteignez votre quota de débit provisionné pendant une session, un message d'erreur s'affiche et vous invite à réessayer plus tard. Une fois que vous êtes dans votre quota, vous pouvez reprendre l'envoi de demandes. L'état de la session, y compris la mémoire de la session, est disponible tant que la session est active.
Cet exemple montre comment deux requêtes consécutives sont traitées en incluant les jetons de la mémoire de session.
Détails de la demande 1
Durée : 10 secondes
Jetons envoyés (audio) : 10 secondes x 25 jetons/seconde = 250 jetons
Jetons envoyés (vidéo) : 10 secondes x 258 jetons/image par seconde = 2 580 jetons
Nombre total de jetons traités pour la demande 1 :
- Jetons envoyés : somme des jetons audio et vidéo envoyés = 2 580 + 250 = 2 830 jetons
- Jetons reçus : 100 (audio)
Détails de la demande n° 2
Durée : 40 secondes
Jetons envoyés (audio) : 40 secondes x 25 jetons/seconde = 1 000 jetons
Nombre total de jetons traités pour la demande n° 2 :
- Jetons envoyés : jetons envoyés dans la requête 2 + jetons de mémoire de session de la requête 1 = 2 830 jetons + 1 000 jetons = 3 830 jetons
- Jetons reçus : 200 (audio)
Calculer le nombre de jetons traités dans les requêtes
Le nombre de jetons traités lors de ces requêtes est calculé comme suit :
La requête 1 ne traite que les jetons d'entrée et de sortie de la requête en cours, car il n'y a pas de jetons supplémentaires dans la mémoire de session.
La requête 2 traite les jetons d'entrée et de sortie de la requête en cours, mais inclut également les jetons d'entrée de la mémoire de session, qui se composent des jetons d'entrée de la requête précédente (requête 1) de la mémoire de session. Le taux d'épuisement des jetons dans la mémoire de session est le même que celui des jetons d'entrée standards (1 jeton de mémoire de session d'entrée = 1 jeton d'entrée).
Si la requête 2 a pris exactement une seconde à traiter après son envoi, vos jetons sont traités et appliqués à votre quota de débit provisionné comme suit :
Multipliez vos entrées par les taux d'utilisation pour obtenir le nombre total de jetons d'entrée :
2 830 x (1 jeton par jeton de mémoire de session) + 1 000 x (1 jeton par jeton de texte d'entrée) = 3 830 jetons d'entrée ajustés par requête
Multipliez vos sorties par les taux de diminution pour obtenir le nombre total de jetons de sortie :
200 x (6 jetons par jeton de sortie audio) = 1 200 jetons
Additionnez ces deux totaux pour obtenir le nombre total de jetons traités :
3 830 jetons + 1 200 jetons = 5 030 jetons
Si votre quota de débit provisionné est supérieur à 5 030 jetons par seconde, cette requête peut être traitée immédiatement. Si elle est inférieure, les jetons sont traités au fil du temps au rythme que vous avez défini pour votre quota.