遷移至最新 Gemini 模型

本指南說明如何將應用程式更新至最新版 Gemini。本指南假設您的應用程式已使用舊版 Gemini。如要瞭解如何開始在 Vertex AI 中使用 Gemini,請參閱 Vertex AI 的 Gemini API 快速入門導覽課程

本指南不會說明如何將應用程式從 Vertex AI SDK 換成目前的 Google Gen AI SDK。如需相關資訊,請參閱 Vertex AI SDK 遷移指南

我應該會看到哪些變化?

將大多數生成式 AI 應用程式更新至最新版 Gemini 時,只需要稍微修改程式碼或提示。不過,部分應用程式可能需要調整提示。如未先使用新版測試提示,很難預測這些變化。建議您先進行全面測試,再完全遷移。如需建立有效提示的訣竅,請參閱提示策略指南。 使用提示健康檢查清單,找出並修正提示問題。

只有在發生重大變更或使用新的 Gemini 功能時,才需要大幅修改程式碼。

我應該改用哪個 Gemini 模型?

您使用的 Gemini 模型取決於應用程式需求。 下表比較舊版 Gemini 1.5 模型與最新 Gemini 模型:

功能 1.5 Pro 1.5 Flash 2.0 Flash 2.0 Flash-Lite 2.5 Pro 2.5 Flash 2.5 Flash-Lite
推出階段 已淘汰 已淘汰 正式發布版 正式發布版 正式發布版 正式發布版 正式發布版
輸入模態
文字程式碼圖片音訊影片
文字程式碼圖片音訊影片
文字程式碼圖片音訊影片
文字程式碼圖片音訊影片
文字程式碼圖片音訊影片
文字程式碼圖片音訊影片
文字程式碼圖片音訊影片
輸出模態
文字
文字
文字
文字
文字
文字
文字
脈絡窗口、詞元總數上限 2,097,152 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576
輸出內容長度 8,192 (預設) 8,192 (預設) 8,192 (預設) 8,192 (預設) 65,535 (預設) 65,535 (預設) 65,536 (預設)
以 Google 搜尋建立基準
函式呼叫
程式碼執行
脈絡快取
批次預測
Live API*
微調
延遲時間
建議使用的 SDK Vertex AI SDK Vertex AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK Gen AI SDK
計價單位 字元 字元 權杖 權杖 權杖 權杖 權杖
淘汰日期 2025 年 9 月 24 日 2025 年 9 月 24 日 2026 年 2 月 5 日 2026 年 2 月 25 日 2026 年 6 月 17 日 2026 年 6 月 17 日 2026 年 7 月 22 日

* Live API 是 gemini-live-2.5-flashgemini-live-2.5-flash-preview-native-audio 的預先發布功能。

開始遷移前

開始遷移程序前,請先考量下列事項:

資訊安全、治理和法規核准

盡早取得資訊安全、風險和法規遵循團隊的核准。涵蓋任何特定風險和法規遵循規則,特別是醫療照護和金融等受監管的產業。

位置資訊可用性

您可透過特定區域端點全球端點,在 Vertex AI 上使用 Google 和合作夥伴模型,以及生成式 AI 功能。全球端點涵蓋全球,與單一區域相比,可用性和可靠性更高。

區域端點的可用性因模型而異。如要瞭解各機型詳情,請參閱位置指南

依模式和權杖化計費的差異

不同 Gemini 模型的價格不同。我們的定價頁面列出了各模型所有模態 (文字、程式碼、圖片、語音等) 的費用。

購買或變更佈建的處理量訂單

如有需要,請購買更多已佈建的處理量,或變更現有的已佈建處理量訂單

監督式微調

最新 Gemini 模型可提供更優質的輸出內容。這可能表示您的應用程式不再需要微調模型。如果您的應用程式使用監督式微調搭配舊版 Gemini 模型,請先使用最新模型測試應用程式,並評估結果。

如果選擇使用監督式微調,您無法從舊版 Gemini 遷移現有的微調模型。您需要為新版 Gemini 執行新的微調工作。

微調新的 Gemini 模型時,請先使用預設微調設定。請勿重複使用先前 Gemini 版本的超參數值,因為微調服務已針對最新版本進行最佳化。重複使用舊設定不太可能獲得最佳結果。

迴歸測試

升級至最新版 Gemini 時,您需要進行三種主要類型的迴歸測試:

  1. 程式碼迴歸測試:從軟體工程和開發人員作業 (開發運作) 的角度進行迴歸測試。這類迴歸測試一律為必要
  2. 模型效能迴歸測試:從資料科學或機器學習的角度進行迴歸測試。也就是確保新版 Gemini 模型提供的輸出內容,至少要維持與舊版相同的品質水準。

    模型效能迴歸測試是在系統或基礎模型變更時進行的模型評估。包括:

    • 離線效能測試:在專屬實驗環境中,根據各種模型輸出品質指標,測試模型輸出內容的品質。
    • 線上模型成效測試:這類測試會根據隱含或明確的使用者意見回饋,在線上部署環境中驗證模型輸出內容的品質。
  3. 負載測試:這類測試會檢查應用程式能否同時處理大量要求。如果應用程式使用已佈建的處理量,則必須進行負載測試

如何遷移至最新版本

以下各節將說明如何遷移至最新版 Gemini。為獲得最佳結果,請依序完成下列步驟。

1. 文件模型評估和測試規定

  1. 準備好重複執行您首次建構應用程式時進行的任何相關評估,以及之後進行的任何評估。
  2. 如果目前的評估作業無法完整涵蓋或評估應用程式執行的所有工作,請設計並準備更多評估作業。您可以參考評估劇本評估配方,瞭解如何開始使用。
  3. 如果應用程式涉及 RAG、工具使用、複雜的代理工作流程或提示鏈,請確保現有的評估資料可獨立評估每個元件。如果沒有,請收集每個元件的輸入/輸出範例。
  4. 如果您的應用程式至關重要,或是屬於較大型的即時使用者面向系統,請納入線上評估。

2. 升級程式碼並執行測試

升級程式碼時,需要進行三項主要變更:

下列各節將進一步說明這些變更。

升級至 Google Gen AI SDK

如果 Gemini 1.x 應用程式使用 Vertex AI SDK,請改用 Gen AI SDK。如需詳細資料,包括使用 Gen AI SDK 進行類似呼叫的程式碼範例,請參閱 Vertex AI SDK 遷移指南。2026 年 6 月之後發布的 Vertex AI SDK 將不再支援 Gemini,且只有 Gen AI SDK 支援新的 Gemini 功能。

如果您是 Gen AI SDK 的新手,請參閱「透過 Gen AI SDK 開始使用 Google 生成式 AI」筆記本。

變更 Gemini 通話

更新預測程式碼,使用最新的 Gemini 模型。至少要變更模型端點名稱。

實際程式碼變更內容會因應用程式的建構方式而異,尤其是您是否使用 Gen AI SDK 或 Vertex AI SDK。

變更程式碼後,請執行程式碼迴歸測試和其他軟體測試,確保程式碼運作正常。這個步驟會檢查程式碼是否正常運作,但不會評估模型回覆的品質。

修正重大程式碼變更

在這個步驟中,請只專注於程式碼變更。您可能需要稍後再進行其他變更,但請等到開始評估後再進行。評估完成後,請根據評估結果考慮進行下列調整:

  • 如果從動態擷取切換,您可能需要調整系統指令,控管 Google 搜尋的使用時機 (例如 "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic.")。不過,請先評估再變更提示。
  • 如果您使用 Top-K 參數,請調整其他權杖取樣參數 (例如 Top-P),以取得類似結果。

3. 執行離線評估

重複您在首次開發及發布應用程式時執行的評估、自此之後進行的任何離線評估,以及在步驟 1 中發現的任何額外評估。如果您仍認為評估結果無法完全涵蓋應用程式範圍,請進行進一步評估。

如果沒有自動執行離線評估的方法,建議使用 Gen AI Evaluation Service

如果應用程式使用微調功能,請先執行離線評估,再使用最新版 Gemini 重新調整模型。最新模型可提供更優質的輸出內容,因此應用程式可能不再需要微調模型。

4. 評估評估結果,並調整提示和超參數

如果離線評估結果顯示應用程式的成效較差,請改善應用程式,直到成效與舊版模型相符為止。方法如下:

5. 執行負載測試

如果應用程式需要達到特定最低輸送量,請執行負載測試,確保最新版應用程式符合輸送量需求。

負載測試必須在線上評估前進行,因為線上評估會將模型暴露在即時流量中。在此步驟中,請使用現有的負載測試工具和儀器。

如果應用程式已符合處理量需求,請考慮使用佈建處理量。您需要額外的短期佈建處理量,才能在目前佈建處理量訂單處理生產流量時,進行負載測試。

6. (選用) 執行線上評估

只有在離線評估顯示 Gemini 輸出內容品質良好應用程式需要線上評估時,才改為線上評估。

線上評估是線上測驗的特定類型。請嘗試使用貴機構現有的工具和方法進行線上評估。例如:

  • 如果貴機構經常執行 A/B 測試,請進行一次測試,比較應用程式目前版本與最新 Gemini 版本。
  • 如果貴機構經常使用Canary 部署,請搭配最新模型使用,並評估使用者行為的變化。

您也可以在應用程式中新增意見回饋和評估功能,進行線上評估。不同應用程式需要不同的意見回饋方法。例如:

  • 在模型輸出內容旁新增「喜歡」和「不喜歡」按鈕,並比較舊模型和最新 Gemini 模型的評分。
  • 並排顯示舊版模型和最新模型的輸出內容,請使用者選出最喜歡的內容。
  • 追蹤使用者覆寫或手動調整舊版模型輸出內容的頻率,與最新模型進行比較。

如要使用這些意見回饋方法,通常需要同時執行最新版 Gemini 和現有版本。這種平行部署有時稱為「影子模式」或「藍綠部署」。

如果線上評估結果與離線評估結果差異極大,表示離線評估未擷取即時環境或使用者體驗的重要層面。根據線上評估結果,建立涵蓋缺口的全新離線評估,然後返回步驟 3。

如果您使用佈建傳輸量,可能需要購買額外的短期佈建傳輸量,才能繼續滿足線上評估使用者的傳輸量需求。

7. 部署至正式環境

評估結果顯示,最新 Gemini 模型的效能與舊模型不相上下,甚至更勝一籌時,請以新版本取代現有應用程式版本。請按照貴機構的標準程序,推出正式版。

如果您使用佈建輸送量,請將佈建輸送量訂單變更為所選的 Gemini 模型。如果您要逐步推出應用程式,請使用短期佈建處理量,滿足兩種不同 Gemini 模型的處理量需求。

提高模型效能

遷移時,請套用下列提示,讓所選 Gemini 模型發揮最佳效能:

  • 檢查系統指令提示少量樣本學習範例,找出任何不一致、矛盾或無關的指令和範例。
  • 測試更強大的模型。舉例來說,如果您評估的是 Gemini 2.0 Flash-Lite,請試試 Gemini 2.0 Flash。
  • 查看自動評估結果,確保結果與人工判斷一致,尤其是使用評估模型的結果。確保評估模型指令清楚、一致且明確。
  • 如要改善評估模型指令,請讓多位人員分別測試指令。如果人類對指令的解讀方式不同,並提供不同的判斷結果,表示評估模型指令不夠清楚。
  • 微調模型
  • 檢查評估輸出內容,找出顯示特定類型失敗的模式。按模型、類型或類別將失敗分組,可提供更精確的評估資料,方便您調整提示來修正這些錯誤。
  • 請務必獨立評估不同的生成式 AI 元件。
  • 實驗調整權杖取樣參數

取得說明

如需協助, Google Cloud 提供多種支援方案,可滿足您的需求,例如全年無休的支援服務、電話支援,以及技術支援經理提供的諮詢服務。詳情請參閱Google Cloud 支援

後續步驟