Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Bénéficiez d'une inférence asynchrone, à haut débit et économique pour vos besoins de traitement de données à grande échelle grâce aux fonctionnalités de prédiction par lot de Gemini.
Ce guide vous explique l'intérêt de la prédiction par lot, son fonctionnement, ses limites et les bonnes pratiques pour obtenir des résultats optimaux.
Pourquoi utiliser la prédiction par lots ?
Dans de nombreux scénarios concrets, vous n'avez pas besoin d'une réponse immédiate de la part d'un modèle de langage. Vous pouvez également disposer d'un grand ensemble de données d'invites que vous devez traiter de manière efficace et abordable. C'est là que la prédiction par lots est utile.
Voici quelques-uns des principaux avantages :
Rentabilité : le traitement par lot est proposé à un tarif réduit de 50 % par rapport à l'inférence en temps réel. Il est donc idéal pour les tâches à grande échelle et non urgentes.
Limites de débit élevées : traitez des centaines de milliers de requêtes dans un seul lot avec une limite de débit plus élevée que celle de l'API Gemini en temps réel.
Workflow simplifié : au lieu de gérer un pipeline complexe de requêtes individuelles en temps réel, vous pouvez envoyer un seul job par lot et récupérer les résultats une fois le traitement terminé. Le service gère la validation du format, parallélise les requêtes pour le traitement simultané et effectue automatiquement des nouvelles tentatives pour obtenir un taux d'achèvement élevé avec un délai de traitement de 24 heures.
La prédiction par lots est optimisée pour les tâches de traitement à grande échelle, comme :
Génération de contenu : générez des descriptions de produits, des posts sur les réseaux sociaux ou d'autres textes créatifs de manière groupée.
Annotation et classification des données : classez les avis des utilisateurs, catégorisez les documents ou effectuez une analyse des sentiments sur un grand corpus de texte.
Analyse hors connexion : résumez des articles, extrayez des informations clés de rapports ou traduisez des documents à grande échelle.
Modèles Gemini compatibles avec les prédictions par lots
Les modèles Gemini de base et réglés suivants sont compatibles avec les prédictions par lot :
Bien que la prédiction par lot soit puissante, il est important de connaître les limites suivantes.
Quota : il n'existe aucune limite de quota prédéfinie pour votre utilisation. Au lieu de cela, le service par lot donne accès à un grand pool de ressources partagées, allouées de manière dynamique en fonction de la disponibilité des ressources et de la demande en temps réel de tous les clients de ce modèle. Lorsque davantage de clients sont actifs et que notre capacité est saturée, vos requêtes par lot peuvent être mises en file d'attente.
Temps d'attente dans la file d'attente : lorsque notre service connaît un trafic élevé, votre job par lot est mis en file d'attente pour la capacité. Le job restera en file d'attente pendant 72 heures maximum avant d'expirer.
Limites de requêtes : un seul job par lot peut inclure jusqu'à 200 000 requêtes. Si vous utilisez Cloud Storage comme entrée, la taille des fichiers est également limitée à 1 Go.
Temps de traitement : les jobs par lot sont traités de manière asynchrone et ne sont pas conçus pour les applications en temps réel. La plupart des jobs se terminent dans les 24 heures suivant leur lancement (sans compter le temps d'attente dans la file d'attente). Au bout de 24 heures, les tâches incomplètes seront annulées et vous ne serez facturé que pour les demandes effectuées.
Pour tirer le meilleur parti de la prédiction par lot avec Gemini, nous vous recommandons de suivre les bonnes pratiques suivantes :
Combiner les jobs : pour maximiser le débit, combinez les petits jobs en un seul grand job, dans les limites du système. Par exemple, l'envoi d'un seul job par lot avec 200 000 requêtes vous donnera un meilleur débit que 1 000 jobs avec 200 requêtes chacun.
Surveiller l'état du job : vous pouvez surveiller la progression du job à l'aide de l'API, du SDK ou de l'UI.
Pour en savoir plus, consultez Surveiller l'état du job. Si une tâche échoue, consultez les messages d'erreur pour diagnostiquer et résoudre le problème.
Optimiser les coûts : profitez des économies offertes par le traitement par lot pour toutes les tâches qui ne nécessitent pas de réponse immédiate.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/04 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/04 (UTC)."],[],[],null,["# Batch prediction with Gemini\n\n| To see an example of using batch predictions,\n| run the \"Intro to Batch Predictions with the Gemini API\" notebook in one of the following\n| environments:\n|\n| [Open in Colab](https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open in Colab Enterprise](https://console.cloud.google.com/vertex-ai/colab/import/https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open\n| in Vertex AI Workbench](https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [View on GitHub](https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n\nGet asynchronous, high-throughput, and cost-effective inference for your\nlarge-scale data processing needs with Gemini's batch prediction capabilities.\nThis guide will walk you through the value of batch prediction, how it works,\nits limitations, and best practices for optimal results.\n\nWhy use batch prediction?\n-------------------------\n\nIn many real-world scenarios, you don't need an immediate response from a\nlanguage model. Instead, you might have a large dataset of prompts that you need\nto process efficiently and affordably. This is where batch prediction shines.\n\n**Key benefits include:**\n\n- **Cost-Effectiveness:** Batch processing is offered at a 50% discounted rate compared to real-time inference, making it ideal for large-scale, non-urgent tasks.\n- **High rate limits:** Process hundreds of thousands of requests in a single batch with a higher rate limit compared to the real time Gemini API.\n- **Simplified Workflow:** Instead of managing a complex pipeline of individual real-time requests, you can submit a single batch job and retrieve the results once the processing is complete. The service will handle format validation, parallelize requests for concurrent processing, and automatically retry to strive for a high completion rate with **24 hours** turnaround time.\n\nBatch prediction is optimized for **large-scale processing tasks** like:\n\n- **Content Generation:** Generate product descriptions, social media posts, or other creative text in bulk.\n- **Data Annotation and Classification:** Classify user reviews, categorize documents, or perform sentiment analysis on a large corpus of text.\n- **Offline Analysis:** Summarize articles, extract key information from reports, or translate documents at scale.\n\nGemini models that support batch predictions\n--------------------------------------------\n\nThe following base and tuned Gemini models support batch predictions:\n\n- [Gemini 2.5\n Pro](/vertex-ai/generative-ai/docs/models/gemini/2-5-pro)\n- [Gemini 2.5\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash)\n- [Gemini 2.5\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-lite)\n- [Gemini 2.0\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)\n- [Gemini 2.0\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash-lite)\n\nQuotas and limits\n-----------------\n\nWhile batch prediction is powerful, it's important to be aware of the following\nlimitations.\n\n- **Quota**: There are no predefined quota limits on your usage. Instead, batch service provides access to a large, shared pool of resources, dynamically allocated based on availability of resources and real-time demand across all customers of that model. When more customers are active and saturated our capacity, your batch requests may be queued for capacity.\n- **Queue Time**: When our service experiences high traffic, your batch job will queue for capacity. The job will be in queue for up to 72 hours before it expires.\n- **Request Limits**: A single batch job may include up to 200,000 requests. If you are using Cloud Storage as input, there is also a file size limit of 1GB.\n- **Processing Time**: Batch jobs are processed asynchronously and are not designed for real-time applications. Most jobs complete within 24 hours after it starts running (not counting the queue time). After 24 hours, incomplete jobs will be cancelled, and you will only be charged for completed requests.\n- **Unsupported features** : Batch prediction does not support [Context Caching](/vertex-ai/generative-ai/docs/context-cache/context-cache-overview), [RAG](/vertex-ai/generative-ai/docs/rag-engine/rag-overview), or [Global endpoints](/vertex-ai/generative-ai/docs/learn/locations#global-endpoint).\n\n| **Note:** Batch prediction is not a [Covered Service](/vertex-ai/sla) and is excluded from the Service Level Objective (SLO) of any Service Level Agreement (SLA).\n\nBest practices\n--------------\n\nTo get the most out of batch prediction with Gemini, we recommend the following\nbest practices:\n\n- **Combine jobs:** To maximize throughput, combine smaller jobs into one large job, within system limits. For example, submitting one batch job with 200,000 requests will give you better throughput than 1000 jobs with 200 requests each.\n- **Monitor Job Status:** You can monitor job progress using API, SDK, or UI. For more information, see [monitor the job status](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage#monitor). If a job fails, check the error messages to diagnose and troubleshoot the issue.\n- **Optimize for Cost:** Take advantage of the cost savings offered by batch processing for any tasks that don't require an immediate response.\n\nWhat's next\n-----------\n\n- [Create a batch job with Cloud Storage](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage)\n- [Create a batch job with BigQuery](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-bigquery)\n- Learn how to tune a Gemini model in [Overview of model tuning for Gemini](/vertex-ai/generative-ai/docs/models/tune-gemini-overview)\n- Learn more about the [Batch prediction API](/vertex-ai/generative-ai/docs/model-reference/batch-prediction-api)."]]