English
Deutsch
Español
Español – América Latina
Français
Indonesia
Italiano
Português
Português – Brasil
中文 – 简体
中文 – 繁體
日本語
한국어

控制台

聯絡我們免費試用

本頁面由 Cloud Translation API 翻譯而成。

使用 Gemini 進行批次預測

Gemini 的批次預測功能可提供非同步、高處理量且符合成本效益的推論服務，滿足您的大規模資料處理需求。本指南將逐步說明批次預測的價值、運作方式、限制，以及爭取最佳成效的最佳做法。

為什麼要使用批次預測？

在許多實際情境中，您不需要語言模型立即回應。您可能需要以經濟實惠的方式，有效處理大量提示資料集。這時批次預測就能派上用場。

主要優點包括：

經濟實惠：批次處理的費用比即時推論便宜 50%，因此非常適合大規模的非緊急工作。根據預設，Gemini 2.5 Pro、Gemini 2.5 Flash 和 Gemini 2.5 Flash-Lite 都會啟用隱式快取功能。與標準輸入符記相比，隱含快取可為快取符記提供 75% 的折扣。不過，快取和批次的折扣不會累加。75% 快取命中折扣的優先順序高於批次折扣。
高頻率限制：與即時 Gemini API 相比，批量 Gemini API 的頻率限制較高，因此單一批次可處理數十萬個要求。
簡化工作流程：不必管理複雜的個別即時要求管道，只要提交單一批次作業，即可在處理完成後擷取結果。這項服務會處理格式驗證、平行處理要求，並自動重試，盡量在 24 小時內完成作業。

批次預測是針對大規模處理工作進行最佳化調整，例如：

生成內容：大量生成產品說明、社群媒體貼文或其他創意文字。
資料註解和分類：分類使用者評論、將文件分類，或對大量文字進行情緒分析。
離線分析：摘要文章、從報告中擷取重要資訊，或大規模翻譯文件。

支援批次預測的 Gemini 模型

下列基礎和微調 Gemini 模型支援批次預測：

配額與限制

雖然批次預測功能強大，但請務必注意下列限制。

Quota：使用量沒有預先定義的配額限制。批次服務提供大型共用資源集區的存取權，並根據資源可用性和該模型所有客戶的即時需求，動態分配資源。如果更多顧客處於活躍狀態，且我們的容量已達飽和，系統可能會將批次要求排入容量佇列。
佇列時間：當服務流量過高時，批次工作會排入佇列，等待容量。工作會在佇列中保留最多 72 小時，之後就會過期。
要求限制：單一批次工作最多可包含 20 萬個要求。如果使用 Cloud Storage 做為輸入來源，檔案大小上限為 1 GB。
處理時間：批次作業會以非同步方式處理，不適用於即時應用程式。大多數工作會在開始執行後 24 小時內完成 (不含佇列時間)。24 小時後，系統會取消未完成的工作，並只針對已完成的要求收費。
不支援的功能：批次預測不支援明確快取、RAG 或全域端點。 Gemini 2.0 Flash 或 Gemini 2.0 Flash-Lite 不支援批次預測隱式快取。

最佳做法

如要充分運用 Gemini 的批次預測功能，建議您遵循下列最佳做法：

合併作業：為盡量提高輸送量，請在系統限制內將較小的作業合併為一個大型作業。舉例來說，提交一個含有 200,000 個要求的批次工作，會比提交 1000 個各含 200 個要求的工作，獲得更高的處理量。
監控工作狀態：您可以使用 API、SDK 或 UI 監控工作進度。詳情請參閱監控工作狀態。如有工作失敗，請查看錯誤訊息，診斷及排解問題。
以成本為目標進行最佳化：對於不需要立即回應的任何工作，請善用批次處理提供的成本節省優勢。

後續步驟

除非另有註明，否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權，程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間：2025-09-30 (世界標準時間)。