本頁面將引導您在 Google Distributed Cloud (GDC) 氣隙環境中建立新機構,並設定該機構使用 Gemini。
本頁面使用兩個術語,分別指涉不同概念:「客戶機構」和「Gemini 機構」。各項用語的定義如下:
- 客戶機構:GDC 機構,使用者可在其中執行工作負載、存取平台基礎架構,以及使用 Vertex AI 服務。如要進一步瞭解客戶機構,請參閱「建立客戶機構」。
- Gemini 機構:設定為執行 Gemini 模型伺服器的機構資源。為確保安全,使用者工作負載不得在這個機構中執行。只有 Google 核准的第三方程式碼才能在 Gemini 機構中執行。Gemini 機構與客戶機構是不同的機構,前者採用多單一租戶模式,每個客戶機構都有對應的 Gemini 機構。
如要進一步瞭解組織差異,請參閱「運算子總覽」。
事前準備
如要建立 Gemini 機構,您必須具備下列條件:
- 客戶機構已開始運作。
- 系統中的瀏覽器。
- Git 指令列介面 (CLI)。
- kubectl CLI。
- gdcloud CLI。
jq和yqCLI 工具。如要進一步瞭解工具容器設定 (包含jq和yq),請參閱 OOPS-P0065 執行手冊。- 必要的基礎架構運算子 (IO) 角色。如要進一步瞭解這些角色,請參閱「準備 IAM 權限」。
此外,請確保符合部署前檢查。
建立 Gemini 機構
請按照下列步驟建立 Gemini 機構:
請按照建立機構指南操作,直到完成使用 IAC 將 IO 識別資訊提供者連結至機構為止。這項動作會建立獨立的機構,做為單一區域中的 Gemini 機構。建立機構時,請遵循下列規範:
其中一個可用伺服器必須是 Dell XE9680 伺服器,且具有
d3-highgpu1-256-gdc-metal機器類別。「使用 IaC 建立機構」一文的第一步提供檢查可用伺服器的指令。如果沒有機器類別為d3-highgpu1-256-gdc-metal的伺服器,請參閱「動態擴展總覽」,瞭解伺服器擴展選項。然後,新增工作負載伺服器。使用 IaC 建立機構時,建立
Organization自訂資源後,請在自訂資源中新增organizations.resourcemanager.private.gdc.goog/shared-service-cluster-skip-create-cluster: "true"註解,略過建立共用服務叢集,並最佳化資源。在單一區域中建立
OrganizationZonalConfig自訂資源。這個區域會做為 Gemini 區域。客戶機構必須位於相同區域,但也可以部署在更多區域。詳情請參閱「Gemini 的多區域部署模式」。
將
lcm.private.gdc.goog/org-tenant="gemini"標籤新增至 Gemini 機構的自訂資源:OrganizationKUBECONFIG=ROOT_ADMIN_KUBECONFIG_PATH GEMINI_ORG_NAME=GEMINI_ORGANIZATION_NAME kubectl label organization -n gpc-system ${GEMINI_ORG_NAME:?} \ lcm.private.gdc.goog/org-tenant="gemini" --kubeconfig ${KUBECONFIG:?}更改下列內容:
ROOT_ADMIN_KUBECONFIG_PATH:根管理員叢集的 kubeconfig 檔案路徑。GEMINI_ORGANIZATION_NAME:Gemini 機構的名稱。
檢查 Gemini 機構的機構基礎架構叢集是否正常運作:
kubectl get cluster/${GEMINI_ORG_NAME:?}-admin -n ${GEMINI_ORG_NAME:?}以下輸出內容顯示名為
org-1的 Gemini 機構範例:NAMESPACE NAME ABM VERSION DESIRED ABM VERSION CLUSTER STATE org-1 org-1-admin 1.30.500-gke.128 1.30.500-gke.128 Running找出 Gemini 機構的機構基礎架構叢集中,所有已設定 H200 GPU 的工作站節點:
KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH kubectl --kubeconfig ${KUBECONFIG:?} get nodes \ -o json | jq -r \ '.items[] | select(.status.capacity."nvidia.com/gpu-pod-NVIDIA_H200"=="8") | .metadata.name'將
GEM_ORG_CP_KUBECONFIG_PATH替換為 Gemini 機構的機構基礎架構叢集 kubeconfig 檔案路徑。將
gemini.gdc.goog/large-gemini=true標籤套用至所有工作站節點,並使用您從上一個指令取得的 H200 GPU:NODE_NAME=H200_WORKER_NODE_NAME kubectl label node ${NODE_NAME:?} \ "gemini.gdc.goog/large-gemini=true" \ --kubeconfig ${KUBECONFIG:?}請將
H200_WORKER_NODE_NAME替換為搭載 H200 GPU 的工作站節點名稱。
覆寫 Gemini 可操作元件的特徵門檻
完成 Gemini 機構的佈建作業並確認狀態為「READY」後,您必須覆寫功能閘,才能在 Gemini 或客戶機構中啟用可運作的元件。
下表摘要說明您必須遵循的 Runbook,才能覆寫功能閘並啟用可運作的元件:
| 可操作的元件 | 目標機構 | Runbook 參考資料 |
|---|---|---|
GEMINI |
Gemini 組織 | GEMINI-F0001 |
AICS |
客戶機構 | AICS-F0001 |
GPU |
Gemini 組織 | GPU-F0001 |
產生加密金鑰
為機構產生加密金鑰是一次性作業。如果重新執行指令,系統將無法再解密任何上傳的模型。如要產生金鑰,您需要在剛建立的新機構上執行工作。
KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH
kubectl --kubeconfig=${KUBECONFIG:?} -n gemini create job --from=cronjob/gemini-weights-transfer-keygen
工作完成後,您應該可以使用下列指令讀取金鑰
KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH
kubectl --kubeconfig=${KUBECONFIG:?} -n gemini-system \
logs job.batch/gemini-weights-transfer-keygen \
| grep -oP '<PublicKey.*?</PublicKey>' | head -n 1