部署生成式 AI 模型

本指南說明如何將生成式 AI 模型部署至 Vertex AI 端點,以進行線上預測。

部分生成式 AI 模型 (例如 Gemini) 具有受管理 API,可直接接受提示,無須部署。如需提供受管理 API 的模型清單,請參閱基礎模型 API

其他生成式 AI 模型必須先部署到端點,才能接受提示。下表比較需要部署的模型類型。

模型類型 說明 部署程序 用途
調整過的模型 使用資料微調的基礎模型 調整作業完成後,系統會自動部署至共用的公開端點。 根據特定資料訓練自訂模型,並提供服務。
沒有 Managed API 的模型 您自行部署的 Model Garden 預先訓練模型 (例如 Llama 2)。 使用「部署」按鈕或 Jupyter 筆記本手動部署。 提供沒有現成可用 API 的開放式或第三方模型。

將模型部署至端點時,Vertex AI 會將運算資源和 URI 與模型建立關聯,以便處理提示要求。

下圖概略說明模型部署工作流程:

部署微調模型

調整後的模型會自動上傳至 Vertex AI Model Registry,並部署至 Vertex AI 共用的公開 endpoint。由於您是使用自己的資料調整模型,因此調整後的模型不會顯示在 Model Garden 中。詳情請參閱模型微調總覽

端點啟用後,即可在 URI 接受提示要求。調整後模型的 API 呼叫格式,與用於調整的基礎模型相同。舉例來說,如果您在 Gemini 上調整模型,提示要求就應遵循 Gemini API

請將提示要求傳送至微調模型的端點,而非受管理 API。微調模型的端點格式如下:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

如要取得端點 ID,請參閱「查看或管理端點」。如要進一步瞭解如何設定提示要求格式,請參閱 Model API 參考資料

部署模型 (不使用受管理 API)

如要使用 Model Garden 中沒有代管 API 的模型,請將模型上傳至 Model Registry,並部署至端點。這個程序與部署自訂訓練模型以進行線上預測類似。

如要部署其中一個模型,請前往 Model Garden,然後選取要部署的模型。

前往 Model Garden

每個模型資訊卡都會顯示下列一或多個部署選項:

  • 「部署」按鈕: Google Cloud 控制台中的引導式 UI 工作流程。

    • 優點:簡單易用,不需程式碼,適合標準設定。
    • 缺點:對於複雜或自動化設定,彈性較低。
    • 詳細資料
      • 如要在 Vertex AI 上部署,您可以使用建議的設定或自訂設定,包括選取 Compute Engine 預留項目等進階選項。
      • 部分模型也支援部署至 Google Kubernetes Engine,這項非代管解決方案可提供更完善的控制權。詳情請參閱「在 GKE 中使用單一 GPU 提供模型」。
      • 如果沒有看到「部署」按鈕,請使用「開啟 Notebook」選項。
  • 開啟筆記本按鈕:內含部署範例程式碼的 Jupyter 筆記本。

    • 優點:高度可自訂、適合自動化 (CI/CD),並提供程式碼透明度。
    • 缺點:需要熟悉 Python 和 Vertex AI SDK。
    • 詳細資料:筆記本包含範例程式碼和操作說明,可將模型上傳至模型登錄服務、部署至端點,以及傳送提示要求。Model Garden 中的每個模型資訊卡都有這個選項。

部署完成後,端點會啟用,並可接受 URI 的提示要求。API 格式為 predict,要求主體中每個 instance 的結構取決於模型。詳情請參閱下列資源:

部署前,請確認您有足夠的機器配額。如要查看目前的配額或申請提高配額,請前往 Google Cloud 控制台的「配額」頁面。

然後依配額名稱 Custom Model Serving 篩選,即可查看線上預測的配額。詳情請參閱「查看及管理配額」。

前往配額頁面

使用 Compute Engine 預留項目預留容量

您可以在透過 Compute Engine 預留項目分配的 VM 資源上,部署 Model Garden 模型。預留項目可確保您在需要時取得容量,詳情請參閱「搭配預測功能使用預留項目」。

查看或管理模型

您可以在 Model Registry 中查看及管理所有上傳的模型。

前往 Model Registry

您也可以在「調整及精煉」頁面查看微調模型和微調工作。

前往「調整及蒸餾」

在 Model Registry 中,調整後模型會歸類為「大型模型」,並附上標籤,指明基礎模型和調整工作。如果是透過「部署」按鈕部署的模型,Source 為「Model Garden」。Model Garden 中模型的更新不會套用至您上傳至 Model Registry 的模型。

詳情請參閱「Vertex AI Model Registry 簡介」。

查看或管理端點

如要查看及管理端點,請前往 Vertex AI 線上預測頁面。根據預設,端點名稱與模型名稱相同。

前往線上預測頁面

詳情請參閱「將模型部署至端點」。

監控模型端點流量

如要在 Metrics Explorer 中監控端點流量,請按照下列步驟操作:

  1. 前往 Google Cloud 控制台的「Metrics Explorer」頁面。

    前往 Metrics Explorer

  2. 選取專案。

  3. 在「選取指標」欄位中,輸入 Vertex AI Endpoint

  4. 選取「Vertex AI 端點 > 預測」指標類別。在「有效指標」下方,選取下列一或多個指標:

    • prediction/online/error_count
    • prediction/online/prediction_count
    • prediction/online/prediction_latencies
    • prediction/online/response_count
  5. 按一下 [套用]

  6. 如要修正檢視範圍,可以篩選或匯總指標:

    • 篩選:如要查看部分資料,請使用「篩選器」下拉式選單。舉例來說,您可以依據 endpoint_id = gemini-2p0-flash-001 篩選。在模型名稱中,將小數點替換為 p
    • 匯總:如要合併資料點,請使用「匯總」下拉式選單。舉例來說,您可以查看 response_code 的「總和」
  7. 選用:如要為端點設定快訊,請參閱「管理快訊政策」。

如要透過資訊主頁查看新增至專案的指標,請參閱「資訊主頁總覽」。

限制

  • 您只能將調整過的 Gemini 模型部署至共用的公開端點。您無法將其部署至專屬公開端點、Private Service Connect 端點或私人端點。

定價

  • 微調模型:系統會按照您用於微調的基礎模型費率,依權杖數向您收費。由於 Vertex AI 會在基礎模型上實作微調,因此端點不會產生費用。詳情請參閱「Vertex AI 的生成式 AI 定價」。

  • 沒有代管 API 的模型:系統會按照 Vertex AI 線上預測的費率,向您收取端點使用的機器時數費用。系統不會依權杖收費,詳情請參閱 Vertex AI 預測定價

後續步驟