Prédiction par lot avec Gemini

Bénéficiez d'une inférence asynchrone, à haut débit et économique pour vos besoins de traitement de données à grande échelle grâce aux fonctionnalités de prédiction par lot de Gemini. Ce guide vous explique l'intérêt de la prédiction par lot, son fonctionnement, ses limites et les bonnes pratiques pour obtenir des résultats optimaux.

Pourquoi utiliser la prédiction par lots ?

Dans de nombreux scénarios concrets, vous n'avez pas besoin d'une réponse immédiate de la part d'un modèle de langage. Vous pouvez également disposer d'un grand ensemble de données d'invites que vous devez traiter de manière efficace et abordable. C'est là que la prédiction par lots est utile.

Voici quelques-uns des principaux avantages :

  • Rentabilité : le traitement par lot est proposé à un tarif réduit de 50 % par rapport à l'inférence en temps réel. Il est donc idéal pour les tâches à grande échelle et non urgentes.
  • Limites de débit élevées : traitez des centaines de milliers de requêtes dans un seul lot avec une limite de débit plus élevée que celle de l'API Gemini en temps réel.
  • Workflow simplifié : au lieu de gérer un pipeline complexe de requêtes individuelles en temps réel, vous pouvez envoyer un seul job par lot et récupérer les résultats une fois le traitement terminé. Le service gère la validation du format, parallélise les requêtes pour le traitement simultané et effectue automatiquement des nouvelles tentatives pour obtenir un taux d'achèvement élevé avec un délai de traitement de 24 heures.

La prédiction par lots est optimisée pour les tâches de traitement à grande échelle, comme :

  • Génération de contenu : générez des descriptions de produits, des posts sur les réseaux sociaux ou d'autres textes créatifs de manière groupée.
  • Annotation et classification des données : classez les avis des utilisateurs, catégorisez les documents ou effectuez une analyse des sentiments sur un grand corpus de texte.
  • Analyse hors connexion : résumez des articles, extrayez des informations clés de rapports ou traduisez des documents à grande échelle.

Modèles Gemini compatibles avec les prédictions par lots

Les modèles Gemini de base et réglés suivants sont compatibles avec les prédictions par lot :

Quotas et limites

Bien que la prédiction par lot soit puissante, il est important de connaître les limites suivantes.

  • Quota : il n'existe aucune limite de quota prédéfinie pour votre utilisation. Au lieu de cela, le service par lot donne accès à un grand pool de ressources partagées, allouées de manière dynamique en fonction de la disponibilité des ressources et de la demande en temps réel de tous les clients de ce modèle. Lorsque davantage de clients sont actifs et que notre capacité est saturée, vos requêtes par lot peuvent être mises en file d'attente.
  • Temps d'attente dans la file d'attente : lorsque notre service connaît un trafic élevé, votre job par lot est mis en file d'attente pour la capacité. Le job restera en file d'attente pendant 72 heures maximum avant d'expirer.
  • Limites de requêtes : un seul job par lot peut inclure jusqu'à 200 000 requêtes. Si vous utilisez Cloud Storage comme entrée, la taille des fichiers est également limitée à 1 Go.
  • Temps de traitement : les jobs par lot sont traités de manière asynchrone et ne sont pas conçus pour les applications en temps réel. La plupart des jobs se terminent dans les 24 heures suivant leur lancement (sans compter le temps d'attente dans la file d'attente). Au bout de 24 heures, les tâches incomplètes seront annulées et vous ne serez facturé que pour les demandes effectuées.
  • Fonctionnalités non compatibles : la prédiction par lot n'est pas compatible avec la mise en cache du contexte, le RAG ni les points de terminaison globaux.

Bonnes pratiques

Pour tirer le meilleur parti de la prédiction par lot avec Gemini, nous vous recommandons de suivre les bonnes pratiques suivantes :

  • Combiner les jobs : pour maximiser le débit, combinez les petits jobs en un seul grand job, dans les limites du système. Par exemple, l'envoi d'un seul job par lot avec 200 000 requêtes vous donnera un meilleur débit que 1 000 jobs avec 200 requêtes chacun.
  • Surveiller l'état du job : vous pouvez surveiller la progression du job à l'aide de l'API, du SDK ou de l'UI. Pour en savoir plus, consultez Surveiller l'état du job. Si une tâche échoue, consultez les messages d'erreur pour diagnostiquer et résoudre le problème.
  • Optimiser les coûts : profitez des économies offertes par le traitement par lot pour toutes les tâches qui ne nécessitent pas de réponse immédiate.

Étapes suivantes