本頁面由 Cloud Translation API 翻譯而成。

部署生成式 AI 模型

部分生成式 AI 模型 (例如 Gemini) 具有受管理的 API，可直接接受提示，無須部署。如需提供受管理 API 的模型清單，請參閱基礎模型 API。

其他生成式 AI 模型必須先部署到端點，才能接受提示。必須部署的生成模型有兩種類型：

調整後模型：使用自有資料調整支援的基礎模型，即可建立這類模型。
沒有受管理 API 的生成式模型。在 Model Garden 中，這些模型不會標示為「API 可用」或「Vertex AI Studio」，例如 Llama 2。

將模型部署至端點時，Vertex AI 會將運算資源和 URI 與模型建立關聯，以便處理提示要求。

部署微調模型

調整後的模型會自動上傳至 Vertex AI Model Registry，並部署至 Vertex AI 共用公開 endpoint。由於微調模型是使用您的資料進行微調，因此不會顯示在 Model Garden 中。詳情請參閱模型微調總覽。

端點啟用後，即可在 URI 接受提示要求。調整後模型的 API 呼叫格式，與調整來源的基礎模型相同。舉例來說，如果模型是透過 Gemini 調整，提示要求就應遵循 Gemini API。

請務必將提示要求傳送至微調模型的端點，而非受管理 API。微調模型的端點格式如下：

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

如要取得端點 ID，請參閱「查看或管理端點」。

如要進一步瞭解如何設定提示要求格式，請參閱 Model API 參考資料。

部署沒有受管理 API 的生成模型

如要使用 Model Garden 中沒有受管理 API 的模型，您必須先將模型上傳至 Model Registry，並部署至端點，才能傳送提示要求。這與在 Vertex AI 中上傳及部署自訂訓練模型以進行線上預測類似。

如要部署這些模型，請前往 Model Garden，然後選取要部署的模型。

前往 Model Garden

每個模型資訊卡都會顯示下列一或多個部署選項：

「部署」按鈕：Model Garden 中的大多數生成模型都有「部署」按鈕，可引導您將模型部署至 Vertex AI。如果沒有看到「部署」按鈕，請參閱下一個項目。

如要在 Vertex AI 上部署模型，可以使用建議的設定，也可以修改設定。您也可以設定「進階」部署設定，例如選取 Compute Engine 預留項目。

注意： 部分模型也支援部署至 Google Kubernetes Engine，這項非代管解決方案可提供更多控制權。詳情請參閱「在 GKE 中使用單一 GPU 提供模型」。
「開啟筆記本」按鈕：這個選項會開啟 Jupyter 筆記本。每張模型資訊卡都會顯示這個選項。Jupyter 筆記本包含將模型上傳至 Model Registry、將模型部署至端點，以及傳送提示要求的操作說明和範例程式碼。

部署作業完成且端點啟用後，即可在 URI 接受提示要求。API 的格式為 predict，要求主體中每個 instance 的格式取決於模型。詳情請參閱下列資源：

請確認您有足夠的機器配額可部署模型。如要查看目前配額或要求更多配額，請前往 Google Cloud 控制台的「配額」頁面。

前往「配額」頁面

然後依配額名稱 Custom Model Serving 篩選，即可查看線上預測的配額。詳情請參閱「查看及管理配額」。

使用 Compute Engine 預留項目，確保已部署模型的容量

您可以在透過 Compute Engine 預留項目分配的 VM 資源上，部署 Model Garden 模型。預留項目可確保模型預測要求需要容量時，有足夠的容量可用。詳情請參閱「搭配預測功能使用預訂」。

查看或管理模型

如要查看微調模型及其微調工作，請前往 Google Cloud 控制台的「Tune and Distill」(調整及精煉) 頁面。

前往「調整及蒸餾」

您也可以在 Model Registry 中查看及管理所有上傳的模型。

前往 Model Registry

在 Model Registry 中，調整後模型會歸類為「大型模型」，並有標籤指定用於調整的基礎模型和管道/調整工作。

透過「部署」按鈕部署的模型會將「Model Garden」顯示為 Source。請注意，如果 Model Garden 中的模型更新，Model Registry 中上傳的模型不會更新。

詳情請參閱「Vertex AI Model Registry 簡介」。

查看或管理端點

如要查看及管理端點，請前往 Vertex AI 的「線上預測」頁面。根據預設，端點名稱與模型名稱相同。

前往線上預測頁面

詳情請參閱「將模型部署至端點」。

監控模型端點流量

如要瞭解如何監控模型端點流量，請參閱「監控模型」。

限制

微調後的 Gemini 模型只能部署至共用公開端點。不支援部署至專屬公開端點、Private Service Connect 端點和私人端點。

定價

如果是微調模型，系統會按照模型微調自基礎模型的費率，以每權杖為單位計費。由於微調是在基礎模型上實作小型介面卡，因此端點不會產生費用。詳情請參閱「Vertex AI 的生成式 AI 定價」。

如果模型沒有代管 API，系統會按照 Vertex AI 線上預測的費率，針對端點使用的機器時數向您收費。系統不會依權杖收費。詳情請參閱 Vertex AI 預測定價。