Gemini 的批次預測功能可提供非同步、高處理量且經濟實惠的推論服務,滿足您的大規模資料處理需求。本指南將逐步說明批次預測的價值、運作方式、限制,以及爭取最佳成效的最佳做法。
為什麼要使用批次預測?
在許多實際情境中,您不需要語言模型立即回應。您可能需要以經濟實惠的方式,有效處理大量提示資料集。這時批次預測就能派上用場。
主要優點包括:
- 經濟實惠:批次處理的費用比即時推論便宜 50%,因此非常適合大規模的非緊急工作。
- 高頻率限制:與即時 Gemini API 相比,批次 Gemini API 的頻率限制較高,因此單一批次可處理數十萬個要求。
- 簡化工作流程:不必管理複雜的個別即時要求管道,只要提交單一批次作業,即可在處理完成後擷取結果。這項服務會處理格式驗證、平行處理要求,並自動重試,盡量在 24 小時內完成作業。
批次預測是針對大規模處理工作進行最佳化調整,例如:
- 生成內容:大量生成產品說明、社群媒體貼文或其他創意文字。
- 資料註解和分類:分類使用者評論、將文件分類,或對大量文字進行情緒分析。
- 離線分析:摘要文章、從報告中擷取重要資訊,或大規模翻譯文件。
支援批次預測的 Gemini 模型
下列基礎和微調 Gemini 模型支援批次預測:
配額與限制
雖然批次預測功能強大,但請務必注意下列限制。
- 配額:使用量沒有預先定義的配額限制。批次服務提供大型共用資源集區的存取權,並根據資源可用性和該模型所有客戶的即時需求,動態分配資源。如果更多顧客處於活躍狀態,且我們的容量已達上限,您的批次要求可能會排隊等候容量。
- 佇列時間:當服務流量過高時,批次工作會排入佇列,等待容量。工作會在佇列中保留最多 72 小時,之後就會過期。
- 要求限制:單一批次工作最多可包含 20 萬個要求。如果使用 Cloud Storage 做為輸入來源,檔案大小上限為 1 GB。
- 處理時間:批次作業會以非同步方式處理,不適用於即時應用程式。大多數工作會在開始執行後 24 小時內完成 (不含佇列時間)。24 小時後,系統會取消未完成的工作,並只針對已完成的要求收費。
- 不支援的功能:批次預測不支援內容快取、RAG 或全域端點。
最佳做法
如要充分運用 Gemini 的批次預測功能,建議您遵循下列最佳做法:
- 合併作業:為盡量提高輸送量,請在系統限制內將較小的作業合併為一個大型作業。舉例來說,提交 1 個含有 200, 000 個要求的批次工作,會比提交 1,000 個各含 200 個要求的工作,獲得更高的輸送量。
- 監控工作狀態:您可以使用 API、SDK 或 UI 監控工作進度。 詳情請參閱監控工作狀態。如有工作失敗,請查看錯誤訊息,診斷及排解問題。
- 追求最佳成本效益:對於不需要立即回應的任何工作,請善用批次處理提供的成本節省優勢。
後續步驟
- 使用 Cloud Storage 建立批次工作
- 使用 BigQuery 建立批次作業
- 瞭解如何調整 Gemini 模型: Gemini 模型微調總覽
- 進一步瞭解批次預測 API。