運算子總覽

如要在 Google Distributed Cloud (GDC) 氣隙環境中啟用 Gemini，基礎架構營運人員 (IO) 必須先設定必要的網路和硬體。如要進一步瞭解 Google Cloud Deploy 中的目標對象，請參閱「說明文件目標對象」。

本指南提供詳盡的逐步操作說明，協助 IO 在 GDC 環境中安裝、佈建及部署 Gemini 服務。以下程序適用於第 2 版機構。遵循這些指南，是在安全隔離環境中部署進階 AI 功能的關鍵。

首先，您必須設定網路來啟用 Gemini，因為與一般 GDC 部署作業相比，Gemini 需要消耗更多電力。這項設定需要使用正確的交換器和機架設定，設定 GPU Pod。這項網路設定也需要動態擴充 GPU Pod。

接著，你必須手動下載及轉移 Gemini 模型。Google 聯絡人會提供下載網址。您必須下載、驗證模型映像檔，並將其傳輸至要擷取模型映像檔的無網路環境。

最後，在擷取 Gemini 模型後，您可以在 GDC 中載入該模型。這項作業需要現有的儲存空間 bucket 和必要的運算子角色。將模型載入儲存空間 bucket，然後將包含模型的容器映像檔載入容器登錄檔。

部署前檢查

您必須在 v2 機構架構上，於 GDC 環境中部署 Gemini。這種架構會使用專屬的 Gemini 機構，與客戶機構共同提供 AI 功能。如要進一步瞭解機構架構，請參閱機構總覽。

安裝及佈建 Gemini 前，請務必符合部署需求。如未驗證這些條件，可能會導致大幅延遲或安裝失敗。下表列出所有基礎架構必須符合的先決條件，並提供檢查清單，方便您依序確認：

Step	必要條件	規定	驗證和注意事項
1.	GDC 版本	Bootstrap 1.14.4 以上版本	檢查所有機構 (包括根機構) 的啟動程序版本。
2.	客戶機構	至少有一個租戶機構在至少一個可用區中運作	建立客戶機構。
3.	最低 IAM 角色	您具備必要權限，可在 GDC 上建立機構並部署 Gemini	準備 IAM 權限。
4.	裸機 GPU 伺服器	至少提供一個機器類別為 `d3-highgpu1-256-gdc-metal` 的裸機 GPU 伺服器	確認機器類別可用且準備就緒。Dell XE9680 伺服器提供必要的 H200 GPU。請參閱「使用 IAC 建立機構」，確認 GPU 伺服器是否存在：如果沒有 GPU 伺服器可用，請參閱動態擴充總覽，瞭解伺服器擴充選項。如果 GPU 伺服器可用，請按照 GPU 伺服器網路指南操作，確認根管理員叢集中的 TOR 和管理交換器狀態。如需 GPU 伺服器的網路設定完整詳細資料，請參閱「為 Gemini 設定網路」。

Gemini 和客戶機構都使用 v2 機構架構。清楚瞭解這個架構中的不同角色、元件和互動方式，是成功部署及運作的必要條件。如要進一步瞭解 GDC 中的機構架構，請參閱機構總覽。

下表摘要列出 Gemini 與客戶機構之間的主要差異：

功能	Gemini 機構	客戶機構
說明	已設定機構資源，可執行 Gemini 模型伺服器	標準 GDC 租戶機構組織，使用者可在其中執行工作負載、存取平台基礎架構及使用服務
代管服務	生成式 AI 路由器搭載 H200 GPU 的模型伺服器	推論閘道
管理責任	Google IOs	Google 或客戶的 IO
工作負載權限	僅限 Google 核准的第三方工作負載	客戶工作負載
部署區域	單一專屬 Gemini 專區	與 Gemini 機構相同的 Gemini 區域也可以部署在更多區域。詳情請參閱「Gemini 的多區域部署模式」。
Gemini 服務存取權	不適用 (提供服務)	透過 Inference Gateway

Gemini 服務是由多個元件共同運作而成。這些元件會分配給 Gemini 和客戶機構。

Inference Gateway 是 Gemini 的前端。這個 Pod 會在客戶機構的機構基礎架構叢集中執行，且只會在 Gemini 區域運作。

客戶工作負載傳送至 Gemini 模型的所有要求，都會經過這個閘道。

GenAI Router 是 Gemini 後端，它會以 Pod 的形式在 Gemini 機構的機構基礎架構叢集中執行，且只會在 Gemini 區域運作，與 Inference Gateway 類似。

其功能是接收來自推論閘道的要求，並將要求轉送至適當的模型伺服器執行個體。

模型伺服器負責代管及執行 AI 模型，為 Google Cloud 裝置上的 Gemini 提供支援。這些模型包括核心 Gemini 模型及其相依的權杖化模型。

這個伺服器使用 Gemini 機構內 d3-highgpu1-256-gdc-metal 裸機中的 H200 GPU。

模型伺服器具備下列功能：

啟用多可用區功能後，機構本身就是全球資源。也就是說，這些資源可在無網路連線的環境中，於所有區域存取。GDC 支援建立非對稱機構，機構的資源可供全球存取，但對應伺服器、儲存空間和工作負載的實際部署作業，則僅限於特定區域子集。

OrganizationZonalConfig 自訂資源會在指定區域內定義機構的設定。如要進一步瞭解多區域部署作業，請參閱多區域總覽。

Gemini 部署作業的重要安全和架構原則是，Gemini 機構只能部署在單一區域。不過，與其互動的對應客戶機構可部署在多個可用區。這個架構可讓不同區域的客戶工作負載存取集中式 Gemini 服務。