建立 Gemini 機構

本頁面將引導您在 Google Distributed Cloud (GDC) 氣隙環境中建立新機構,並設定該機構使用 Gemini。

本頁面使用兩個術語,分別指涉不同概念:「客戶機構」和「Gemini 機構」。各項用語的定義如下:

  • 客戶機構:GDC 機構,使用者可在其中執行工作負載、存取平台基礎架構,以及使用 Vertex AI 服務。如要進一步瞭解客戶機構,請參閱「建立客戶機構」。
  • Gemini 機構:設定為執行 Gemini 模型伺服器的機構資源。為確保安全,使用者工作負載不得在這個機構中執行。只有 Google 核准的第三方程式碼才能在 Gemini 機構中執行。Gemini 機構與客戶機構是不同的機構,前者採用多單一租戶模式,每個客戶機構都有對應的 Gemini 機構。

如要進一步瞭解組織差異,請參閱「運算子總覽」。

事前準備

如要建立 Gemini 機構,您必須具備下列條件:

  • 客戶機構已開始運作。
  • 系統中的瀏覽器。
  • Git 指令列介面 (CLI)。
  • kubectl CLI。
  • gdcloud CLI。
  • jqyq CLI 工具。如要進一步瞭解工具容器設定 (包含 jqyq),請參閱 OOPS-P0065 執行手冊。
  • 必要的基礎架構運算子 (IO) 角色。如要進一步瞭解這些角色,請參閱「準備 IAM 權限」。

此外,請確保符合部署前檢查

建立 Gemini 機構

請按照下列步驟建立 Gemini 機構:

  1. 請按照建立機構指南操作,直到完成使用 IAC 將 IO 識別資訊提供者連結至機構為止。這項動作會建立獨立的機構,做為單一區域中的 Gemini 機構。建立機構時,請遵循下列規範:

    • 其中一個可用伺服器必須是 Dell XE9680 伺服器,且具有 d3-highgpu1-256-gdc-metal 機器類別。「使用 IaC 建立機構」一文的第一步提供檢查可用伺服器的指令。如果沒有機器類別為 d3-highgpu1-256-gdc-metal 的伺服器,請參閱「動態擴展總覽」,瞭解伺服器擴展選項。然後,新增工作負載伺服器

    • 使用 IaC 建立機構時,建立 Organization 自訂資源後,請在自訂資源中新增 organizations.resourcemanager.private.gdc.goog/shared-service-cluster-skip-create-cluster: "true" 註解,略過建立共用服務叢集,並最佳化資源。

    • 在單一區域中建立 OrganizationZonalConfig 自訂資源。這個區域會做為 Gemini 區域。客戶機構必須位於相同區域,但也可以部署在更多區域。詳情請參閱「Gemini 的多區域部署模式」。

  2. lcm.private.gdc.goog/org-tenant="gemini" 標籤新增至 Gemini 機構的自訂資源: Organization

    KUBECONFIG=ROOT_ADMIN_KUBECONFIG_PATH
    GEMINI_ORG_NAME=GEMINI_ORGANIZATION_NAME
    
    kubectl label organization -n gpc-system ${GEMINI_ORG_NAME:?} \
      lcm.private.gdc.goog/org-tenant="gemini" --kubeconfig ${KUBECONFIG:?}
    

    更改下列內容:

    • ROOT_ADMIN_KUBECONFIG_PATH:根管理員叢集的 kubeconfig 檔案路徑。
    • GEMINI_ORGANIZATION_NAME:Gemini 機構的名稱。
  3. 檢查 Gemini 機構的機構基礎架構叢集是否正常運作:

    kubectl get cluster/${GEMINI_ORG_NAME:?}-admin -n ${GEMINI_ORG_NAME:?}
    

    以下輸出內容顯示名為 org-1 的 Gemini 機構範例:

    NAMESPACE   NAME          ABM VERSION        DESIRED ABM VERSION   CLUSTER STATE
    org-1       org-1-admin   1.30.500-gke.128   1.30.500-gke.128      Running
    
  4. 找出 Gemini 機構的機構基礎架構叢集中,所有已設定 H200 GPU 的工作站節點:

    KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH
    
    kubectl --kubeconfig ${KUBECONFIG:?} get nodes \
      -o json | jq -r \
      '.items[] | select(.status.capacity."nvidia.com/gpu-pod-NVIDIA_H200"=="8") | .metadata.name'
    

    GEM_ORG_CP_KUBECONFIG_PATH 替換為 Gemini 機構的機構基礎架構叢集 kubeconfig 檔案路徑。

  5. gemini.gdc.goog/large-gemini=true 標籤套用至所有工作站節點,並使用您從上一個指令取得的 H200 GPU:

    NODE_NAME=H200_WORKER_NODE_NAME
    
    kubectl label node ${NODE_NAME:?} \
      "gemini.gdc.goog/large-gemini=true" \
      --kubeconfig ${KUBECONFIG:?}
    

    請將 H200_WORKER_NODE_NAME 替換為搭載 H200 GPU 的工作站節點名稱。

覆寫 Gemini 可操作元件的特徵門檻

完成 Gemini 機構的佈建作業並確認狀態為「READY」後,您必須覆寫功能閘,才能在 Gemini 或客戶機構中啟用可運作的元件。

下表摘要說明您必須遵循的 Runbook,才能覆寫功能閘並啟用可運作的元件:

可操作的元件 目標機構 Runbook 參考資料
GEMINI Gemini 組織 GEMINI-F0001
AICS 客戶機構 AICS-F0001
GPU Gemini 組織 GPU-F0001

產生加密金鑰

為機構產生加密金鑰是一次性作業。如果重新執行指令,系統將無法再解密任何上傳的模型。如要產生金鑰,您需要在剛建立的新機構上執行工作。

KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH
kubectl --kubeconfig=${KUBECONFIG:?} -n gemini create job --from=cronjob/gemini-weights-transfer-keygen

工作完成後,您應該可以使用下列指令讀取金鑰

KUBECONFIG=GEM_ORG_CP_KUBECONFIG_PATH
kubectl --kubeconfig=${KUBECONFIG:?} -n gemini-system \
  logs job.batch/gemini-weights-transfer-keygen \
  | grep -oP '<PublicKey.*?</PublicKey>' | head -n 1

後續步驟