如要在 Google Distributed Cloud (GDC) 氣隙環境中啟用 Gemini,基礎架構營運人員 (IO) 必須先設定必要的網路和硬體。如要進一步瞭解 Google Cloud Deploy 中的目標對象,請參閱「說明文件目標對象」。
本指南提供詳盡的逐步操作說明,協助 IO 在 GDC 環境中安裝、佈建及部署 Gemini 服務。以下程序適用於第 2 版機構。遵循這些指南,是在安全隔離環境中部署進階 AI 功能的關鍵。
首先,您必須設定網路來啟用 Gemini,因為與一般 GDC 部署作業相比,Gemini 需要消耗更多電力。這項設定需要使用正確的交換器和機架設定,設定 GPU Pod。這項網路設定也需要動態擴充 GPU Pod。
接著,你必須手動下載及轉移 Gemini 模型。Google 聯絡人會提供下載網址。您必須下載、驗證模型映像檔,並將其傳輸至要擷取模型映像檔的無網路環境。
最後,在擷取 Gemini 模型後,您可以在 GDC 中載入該模型。這項作業需要現有的儲存空間 bucket 和必要的運算子角色。將模型載入儲存空間 bucket,然後將包含模型的容器映像檔載入容器登錄檔。
部署前檢查
您必須在 v2 機構架構上,於 GDC 環境中部署 Gemini。這種架構會使用專屬的 Gemini 機構,與客戶機構共同提供 AI 功能。如要進一步瞭解機構架構,請參閱機構總覽。
安裝及佈建 Gemini 前,請務必符合部署需求。如未驗證這些條件,可能會導致大幅延遲或安裝失敗。下表列出所有基礎架構必須符合的先決條件,並提供檢查清單,方便您依序確認:
| Step | 必要條件 | 規定 | 驗證和注意事項 | 已完成 |
|---|---|---|---|---|
| 1. | GDC 版本 | Bootstrap 1.14.4 以上版本 | 檢查所有機構 (包括根機構) 的啟動程序版本。 | |
| 2. | 客戶機構 | 至少有一個租戶機構在至少一個可用區中運作 | 建立客戶機構。 | |
| 3. | 最低 IAM 角色 | 您具備必要權限,可在 GDC 上建立機構並部署 Gemini | 準備 IAM 權限。 | |
| 4. | 裸機 GPU 伺服器 | 至少提供一個機器類別為 d3-highgpu1-256-gdc-metal 的裸機 GPU 伺服器 |
確認機器類別可用且準備就緒。Dell XE9680 伺服器提供必要的 H200 GPU。 請參閱「使用 IAC 建立機構」,確認 GPU 伺服器是否存在:
|
Gemini 和客戶機構
Gemini 和客戶機構都使用 v2 機構架構。清楚瞭解這個架構中的不同角色、元件和互動方式,是成功部署及運作的必要條件。如要進一步瞭解 GDC 中的機構架構,請參閱機構總覽。
下表摘要列出 Gemini 與客戶機構之間的主要差異:
| 功能 | Gemini 機構 | 客戶機構 |
|---|---|---|
| 說明 | 已設定機構資源,可執行 Gemini 模型伺服器 | 標準 GDC 租戶機構組織,使用者可在其中執行工作負載、存取平台基礎架構及使用服務 |
| 代管服務 |
|
推論閘道 |
| 管理責任 | Google IOs | Google 或客戶的 IO |
| 工作負載權限 | 僅限 Google 核准的第三方工作負載 | 客戶工作負載 |
| 部署區域 | 單一專屬 Gemini 專區 | 與 Gemini 機構相同的 Gemini 區域 也可以部署在更多區域。詳情請參閱「Gemini 的多區域部署模式」。 |
| Gemini 服務存取權 | 不適用 (提供服務) | 透過 Inference Gateway |
重要元件
Gemini 服務是由多個元件共同運作而成。這些元件會分配給 Gemini 和客戶機構。
推論閘道
Inference Gateway 是 Gemini 的前端。這個 Pod 會在客戶機構的機構基礎架構叢集中執行,且只會在 Gemini 區域運作。
客戶工作負載傳送至 Gemini 模型的所有要求,都會經過這個閘道。
生成式 AI 路由器
GenAI Router 是 Gemini 後端,它會以 Pod 的形式在 Gemini 機構的機構基礎架構叢集中執行,且只會在 Gemini 區域運作,與 Inference Gateway 類似。
其功能是接收來自推論閘道的要求,並將要求轉送至適當的模型伺服器執行個體。
模型伺服器
模型伺服器負責代管及執行 AI 模型,為 Google Cloud 裝置上的 Gemini 提供支援。這些模型包括核心 Gemini 模型及其相依的權杖化模型。
這個伺服器使用 Gemini 機構內 d3-highgpu1-256-gdc-metal 裸機中的 H200 GPU。
模型伺服器具備下列功能:
- 負載平衡:如果有多組 GPU 可用,負載平衡功能可以分配推論要求,進而提升輸送量和韌性。
- 多模型服務:可同時執行不同的 Gemini 模型,提供模型部署和使用彈性。
Gemini 的多區域部署模型
啟用多可用區功能後,機構本身就是全球資源。也就是說,這些資源可在無網路連線的環境中,於所有區域存取。GDC 支援建立非對稱機構,機構的資源可供全球存取,但對應伺服器、儲存空間和工作負載的實際部署作業,則僅限於特定區域子集。
OrganizationZonalConfig 自訂資源會在指定區域內定義機構的設定。如要進一步瞭解多區域部署作業,請參閱多區域總覽。
Gemini 部署作業的重要安全和架構原則是,Gemini 機構只能部署在單一區域。不過,與其互動的對應客戶機構可部署在多個可用區。這個架構可讓不同區域的客戶工作負載存取集中式 Gemini 服務。