使用 Gemini 進行批次預測

Gemini 的批次預測功能可提供非同步、高處理量且經濟實惠的推論服務,滿足您的大規模資料處理需求。本指南將逐步說明批次預測的價值、運作方式、限制,以及爭取最佳成效的最佳做法。

為什麼要使用批次預測?

在許多實際情境中,您不需要語言模型立即回應。您可能需要以經濟實惠的方式,有效處理大量提示資料集。這時批次預測就能派上用場。

主要優點包括:

  • 經濟實惠:批次處理的費用比即時推論便宜 50%,因此非常適合大規模的非緊急工作。
  • 高頻率限制:與即時 Gemini API 相比,批次 Gemini API 的頻率限制較高,因此單一批次可處理數十萬個要求。
  • 簡化工作流程:不必管理複雜的個別即時要求管道,只要提交單一批次作業,即可在處理完成後擷取結果。這項服務會處理格式驗證、平行處理要求,並自動重試,盡量在 24 小時內完成作業。

批次預測是針對大規模處理工作進行最佳化調整,例如:

  • 生成內容:大量生成產品說明、社群媒體貼文或其他創意文字。
  • 資料註解和分類:分類使用者評論、將文件分類,或對大量文字進行情緒分析。
  • 離線分析:摘要文章、從報告中擷取重要資訊,或大規模翻譯文件。

支援批次預測的 Gemini 模型

下列基礎和微調 Gemini 模型支援批次預測:

配額與限制

雖然批次預測功能強大,但請務必注意下列限制。

  • 配額:使用量沒有預先定義的配額限制。批次服務提供大型共用資源集區的存取權,並根據資源可用性和該模型所有客戶的即時需求,動態分配資源。如果更多顧客處於活躍狀態,且我們的容量已達上限,您的批次要求可能會排隊等候容量。
  • 佇列時間:當服務流量過高時,批次工作會排入佇列,等待容量。工作會在佇列中保留最多 72 小時,之後就會過期。
  • 要求限制:單一批次工作最多可包含 20 萬個要求。如果使用 Cloud Storage 做為輸入來源,檔案大小上限為 1 GB。
  • 處理時間:批次作業會以非同步方式處理,不適用於即時應用程式。大多數工作會在開始執行後 24 小時內完成 (不含佇列時間)。24 小時後,系統會取消未完成的工作,並只針對已完成的要求收費。
  • 不支援的功能:批次預測不支援內容快取RAG全域端點

最佳做法

如要充分運用 Gemini 的批次預測功能,建議您遵循下列最佳做法:

  • 合併作業:為盡量提高輸送量,請在系統限制內將較小的作業合併為一個大型作業。舉例來說,提交 1 個含有 200, 000 個要求的批次工作,會比提交 1,000 個各含 200 個要求的工作,獲得更高的輸送量。
  • 監控工作狀態:您可以使用 API、SDK 或 UI 監控工作進度。 詳情請參閱監控工作狀態。如有工作失敗,請查看錯誤訊息,診斷及排解問題。
  • 追求最佳成本效益:對於不需要立即回應的任何工作,請善用批次處理提供的成本節省優勢。

後續步驟