Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Obtén inferencias asíncronas, rentables y de alto rendimiento para tus necesidades de procesamiento de datos a gran escala con las capacidades de predicción por lotes de Gemini.
En esta guía, se explica el valor de la predicción por lotes, cómo funciona, sus limitaciones y las prácticas recomendadas para obtener resultados óptimos.
¿Por qué usar la predicción por lotes?
En muchas situaciones reales, no necesitas una respuesta inmediata de un modelo de lenguaje. En cambio, es posible que tengas un gran conjunto de datos de instrucciones que debas procesar de manera eficiente y económica. Aquí es donde se destaca la predicción por lotes.
Entre los beneficios clave, se incluyen los siguientes:
Rentabilidad: El procesamiento por lotes se ofrece con un descuento del 50% en comparación con la inferencia en tiempo real, lo que lo hace ideal para tareas a gran escala y no urgentes.
Límites de frecuencia altos: Procesa cientos de miles de solicitudes en un solo lote con un límite de frecuencia más alto en comparación con la API de Gemini en tiempo real.
Flujo de trabajo simplificado: En lugar de administrar una canalización compleja de solicitudes individuales en tiempo real, puedes enviar un solo trabajo por lotes y recuperar los resultados una vez que se complete el procesamiento. El servicio controlará la validación del formato, paralelizará las solicitudes para el procesamiento simultáneo y volverá a intentarlo automáticamente para lograr un alto porcentaje de finalización con un tiempo de respuesta de 24 horas.
La predicción por lotes está optimizada para tareas de procesamiento a gran escala, como las siguientes:
Generación de contenido: Genera descripciones de productos, publicaciones en redes sociales o cualquier otro texto creativo de forma masiva.
Anotación y clasificación de datos: Clasifica opiniones de usuarios, categoriza documentos o realiza análisis de opiniones en un gran corpus de texto.
Análisis sin conexión: Resume artículos, extrae información clave de informes o traduce documentos a gran escala.
Modelos de Gemini que admiten predicciones por lotes
Los siguientes modelos de Gemini base y ajustados admiten predicciones por lotes:
Si bien la predicción por lotes es potente, es importante tener en cuenta las siguientes limitaciones.
Cuota: No hay límites de cuota predefinidos para tu uso. En cambio, el servicio por lotes proporciona acceso a un grupo grande y compartido de recursos, que se asignan de forma dinámica según la disponibilidad de recursos y la demanda en tiempo real de todos los clientes de ese modelo. Cuando más clientes están activos y nuestra capacidad está saturada, es posible que tus solicitudes por lotes se pongan en cola por capacidad.
Tiempo en cola: Cuando nuestro servicio experimenta un tráfico alto, tu trabajo por lotes se pondrá en cola para esperar capacidad. El trabajo estará en la cola hasta por 72 horas antes de que caduque.
Límites de solicitudes: Un solo trabajo por lotes puede incluir hasta 200,000 solicitudes. Si usas Cloud Storage como entrada, también hay un límite de tamaño de archivo de 1 GB.
Tiempo de procesamiento: Los trabajos por lotes se procesan de forma asíncrona y no están diseñados para aplicaciones en tiempo real. La mayoría de los trabajos se completan en un plazo de 24 horas después de que comienzan a ejecutarse (sin contar el tiempo en la cola). Después de 24 horas, se cancelarán los trabajos incompletos y solo se te cobrarán las solicitudes completadas.
Para aprovechar al máximo la predicción por lotes con Gemini, te recomendamos las siguientes prácticas recomendadas:
Combina trabajos: Para maximizar el rendimiento, combina trabajos más pequeños en uno grande, dentro de los límites del sistema. Por ejemplo, enviar un trabajo por lotes con 200,000 solicitudes te dará un mejor rendimiento que enviar 1,000 trabajos con 200 solicitudes cada uno.
Supervisa el estado del trabajo: Puedes supervisar el progreso del trabajo con la API, el SDK o la IU.
Para obtener más información, consulta cómo supervisar el estado del trabajo. Si un trabajo falla, revisa los mensajes de error para diagnosticar y solucionar el problema.
Optimiza los costos: Aprovecha los ahorros que ofrece el procesamiento por lotes para las tareas que no requieren una respuesta inmediata.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[],[],null,["# Batch prediction with Gemini\n\n| To see an example of using batch predictions,\n| run the \"Intro to Batch Predictions with the Gemini API\" notebook in one of the following\n| environments:\n|\n| [Open in Colab](https://colab.research.google.com/github/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open in Colab Enterprise](https://console.cloud.google.com/vertex-ai/colab/import/https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [Open\n| in Vertex AI Workbench](https://console.cloud.google.com/vertex-ai/workbench/deploy-notebook?download_url=https%3A%2F%2Fraw.githubusercontent.com%2FGoogleCloudPlatform%2Fgenerative-ai%2Fmain%2Fgemini%2Fbatch-prediction%2Fintro_batch_prediction.ipynb)\n|\n|\n| \\|\n|\n| [View on GitHub](https://github.com/GoogleCloudPlatform/generative-ai/blob/main/gemini/batch-prediction/intro_batch_prediction.ipynb)\n\nGet asynchronous, high-throughput, and cost-effective inference for your\nlarge-scale data processing needs with Gemini's batch prediction capabilities.\nThis guide will walk you through the value of batch prediction, how it works,\nits limitations, and best practices for optimal results.\n\nWhy use batch prediction?\n-------------------------\n\nIn many real-world scenarios, you don't need an immediate response from a\nlanguage model. Instead, you might have a large dataset of prompts that you need\nto process efficiently and affordably. This is where batch prediction shines.\n\n**Key benefits include:**\n\n- **Cost-Effectiveness:** Batch processing is offered at a 50% discounted rate compared to real-time inference, making it ideal for large-scale, non-urgent tasks.\n- **High rate limits:** Process hundreds of thousands of requests in a single batch with a higher rate limit compared to the real time Gemini API.\n- **Simplified Workflow:** Instead of managing a complex pipeline of individual real-time requests, you can submit a single batch job and retrieve the results once the processing is complete. The service will handle format validation, parallelize requests for concurrent processing, and automatically retry to strive for a high completion rate with **24 hours** turnaround time.\n\nBatch prediction is optimized for **large-scale processing tasks** like:\n\n- **Content Generation:** Generate product descriptions, social media posts, or other creative text in bulk.\n- **Data Annotation and Classification:** Classify user reviews, categorize documents, or perform sentiment analysis on a large corpus of text.\n- **Offline Analysis:** Summarize articles, extract key information from reports, or translate documents at scale.\n\nGemini models that support batch predictions\n--------------------------------------------\n\nThe following base and tuned Gemini models support batch predictions:\n\n- [Gemini 2.5\n Pro](/vertex-ai/generative-ai/docs/models/gemini/2-5-pro)\n- [Gemini 2.5\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash)\n- [Gemini 2.5\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-lite)\n- [Gemini 2.0\n Flash](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)\n- [Gemini 2.0\n Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash-lite)\n\nQuotas and limits\n-----------------\n\nWhile batch prediction is powerful, it's important to be aware of the following\nlimitations.\n\n- **Quota**: There are no predefined quota limits on your usage. Instead, batch service provides access to a large, shared pool of resources, dynamically allocated based on availability of resources and real-time demand across all customers of that model. When more customers are active and saturated our capacity, your batch requests may be queued for capacity.\n- **Queue Time**: When our service experiences high traffic, your batch job will queue for capacity. The job will be in queue for up to 72 hours before it expires.\n- **Request Limits**: A single batch job may include up to 200,000 requests. If you are using Cloud Storage as input, there is also a file size limit of 1GB.\n- **Processing Time**: Batch jobs are processed asynchronously and are not designed for real-time applications. Most jobs complete within 24 hours after it starts running (not counting the queue time). After 24 hours, incomplete jobs will be cancelled, and you will only be charged for completed requests.\n- **Unsupported features** : Batch prediction does not support [Context Caching](/vertex-ai/generative-ai/docs/context-cache/context-cache-overview), [RAG](/vertex-ai/generative-ai/docs/rag-engine/rag-overview), or [Global endpoints](/vertex-ai/generative-ai/docs/learn/locations#global-endpoint).\n\n| **Note:** Batch prediction is not a [Covered Service](/vertex-ai/sla) and is excluded from the Service Level Objective (SLO) of any Service Level Agreement (SLA).\n\nBest practices\n--------------\n\nTo get the most out of batch prediction with Gemini, we recommend the following\nbest practices:\n\n- **Combine jobs:** To maximize throughput, combine smaller jobs into one large job, within system limits. For example, submitting one batch job with 200,000 requests will give you better throughput than 1000 jobs with 200 requests each.\n- **Monitor Job Status:** You can monitor job progress using API, SDK, or UI. For more information, see [monitor the job status](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage#monitor). If a job fails, check the error messages to diagnose and troubleshoot the issue.\n- **Optimize for Cost:** Take advantage of the cost savings offered by batch processing for any tasks that don't require an immediate response.\n\nWhat's next\n-----------\n\n- [Create a batch job with Cloud Storage](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-cloud-storage)\n- [Create a batch job with BigQuery](/vertex-ai/generative-ai/docs/multimodal/batch-prediction-from-bigquery)\n- Learn how to tune a Gemini model in [Overview of model tuning for Gemini](/vertex-ai/generative-ai/docs/models/tune-gemini-overview)\n- Learn more about the [Batch prediction API](/vertex-ai/generative-ai/docs/model-reference/batch-prediction-api)."]]