此页面由 Cloud Translation API 翻译。

使用 Gemini 进行批量预测

借助 Gemini 的批量预测功能，您可以异步、高效且经济实惠地满足大规模数据处理需求。本指南将详细介绍批量预测的价值、工作原理、限制以及可实现理想效果的最佳实践。

为何要使用批量预测？

在许多实际应用场景中，您不需要语言模型立即做出回答。相反，您可能需要高效且经济实惠地处理大量提示数据集。这正是批量预测的优势所在。

主要优势包括以下各项：

经济高效：与实时预测相比，批处理的费用可享受 50% 的折扣，非常适合大规模的非紧急任务。对于 Gemini 2.5 Pro、Gemini 2.5 Flash 和 Gemini 2.5 Flash-Lite，隐式缓存默认处于启用状态。与标准输入 token 相比，隐式缓存可为缓存的 token 提供 75% 的折扣。但是，缓存和批处理折扣不叠加。75% 的缓存命中率折扣优先于批量折扣。
高速率限制：与实时 Gemini API 相比，以更高的速率限制在单个批量中处理数十万个请求。
简化的工作流程：您无需管理复杂的单个实时请求流水线，只需提交单个批量作业，并在处理完成后检索结果。该服务将处理格式验证、并行处理请求以实现并发处理，并自动重试，力求在 24 小时内完成处理，从而实现高完成率。

批量预测针对大规模处理任务进行了优化，例如：

以下基础 Gemini 模型和调优的 Gemini 模型支持批量预测：

批量预测支持对基础 Gemini 模型使用全球端点。它不支持经过调优的 Gemini 模型的全球端点。

面向全球端点的批量预测支持的公开预览版不支持将 BigQuery 表作为输入或输出。

全球端点可从您使用的模型支持的任何区域处理请求，从而有助于提高整体可用性。请注意，它不支持数据驻留要求。如果您有数据驻留要求，请使用区域端点。

虽然批量预测功能强大，但请务必注意以下限制。

Quota：您的用量没有预定义的配额限制。相反，批量服务提供对大型共享资源池的访问权限，并根据资源的可用性和该模型在所有客户中的实时需求动态分配资源。当更多客户处于活跃状态并使我们的容量达到饱和时，您的批量请求可能会因容量不足而排队。
排队时间：当我们的服务遇到高流量时，您的批量作业将排队等待容量。作业在过期之前最多会在队列中等待 72 小时。
请求限制：单个批量作业最多可包含 20 万个请求。如果您使用 Cloud Storage 作为输入，则文件大小限制为 1 GB。
处理时间：批量作业是异步处理的，不适合实时应用。大多数作业会在开始运行后 24 小时内完成（不包括排队时间）。24 小时后，未完成的作业将取消，您只需为已完成的请求付费。
不支持的功能：批量预测不支持显式缓存或 RAG。 Gemini 2.0 Flash 或 Gemini 2.0 Flash-Lite 不支持批量预测隐式缓存。

为了充分利用 Gemini 进行批量预测，我们建议您遵循以下最佳实践：

合并作业：为了最大限度地提高吞吐量，请在系统限制范围内将较小的作业合并为一个较大的作业。例如，提交一个包含 20 万个请求的批量作业，比提交 1,000 个各包含 200 个请求的作业可获得更高的吞吐量。
监控作业状态：您可以使用 API、SDK 或界面监控作业进度。如需了解详情，请参阅监控作业状态。如果作业失败，请检查错误消息，以诊断和排查问题。
优化费用：对于不需要立即响应的任务，可利用批量处理带来的费用节省优势。