本頁面將逐步說明如何在 Google Distributed Cloud (GDC) 實體隔離環境中設定 Gemini。本指南適用於管理系統部署作業的基礎架構營運人員 (IO),內容涵蓋必要基礎架構、GPU Pod 的硬體設定,以及部署 Gemini 時所需的網路設定等詳細資料。
事前準備
如要設定 Gemini 的網路設定,您必須在基礎機架中成功安裝根管理員叢集。詳情請參閱根管理員叢集啟動程序。
設定 Gemini 的 GPU 硬體
如要在 GDC 中執行 Gemini,您必須以 GPU Pod 的形式部署必要硬體。 GPU Pod 包含一到八個耗電的 GPU 伺服器,是可部署 GPU 機架的最小單位。每個 GPU 伺服器都裝在專屬機架中,並連接至專用管理交換器和兩個共用的機架頂端 (TOR) 交換器。每個機架的伺服器數量取決於電力預算和您的需求。
下圖顯示兩種不同的 GPU Pod 設定:

圖 1. 畫面會顯示兩個 GPU Pod。第一個 GPU Pod 包含八部 GPU 伺服器。第二個 GPU Pod 包含五部 GPU 伺服器。
在圖 1 中,第一個 GPU Pod 包含下列項目:
- 專屬虛擬私有雲 (VPC) 配對,最多可支援八部 GPU 伺服器。如要建立額外的伺服器連線,必須建立新的 GPU Pod。
- GPU Pod 中的每個 XE9680 GPU 都專用一個 TOR 交換器。GPU Pod 中的 TOR 不會與其他運算或儲存空間資源共用。
- 兩部 TOR 交換機連線後,可為 GPU 伺服器提供高頻寬連線。
- 這個 GPU Pod 最多包含八部 GPU 伺服器。每部伺服器都裝在專屬機架中。
- 每個 GPU 伺服器都會連線至專屬管理交換器,以及構成 VPC 對的共用 GPU TOR 交換器。
在圖 1 中,第二個 GPU Pod 顯示的架構相同,但 GPU Pod 包含五部 GPU 伺服器,而非八部。
設定 Gemini 的網路
如要在 GDC 中設定 Gemini 的網路,請按照下列步驟操作:
在 GPU Pod 上執行動態擴充作業。請按照「執行動態擴展」一文列出的步驟操作。如果發生區域擴展期間無法套用
SubcomponentOverride資源的問題,請按照 OLT-R0003 執行手冊操作。確認連線成功。設定
KUBECONFIG環境變數,連線至根管理員叢集:KUBECONFIG=KUBECONFIG_PATH將
KUBECONFIG_PATH替換為根管理員叢集的 kubeconfig 檔案路徑。取得 TOR 和管理交換器的狀態:
kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system檢查輸出內容,確認兩個交換器的「
READY」欄都顯示「True」值:NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin如果硬體問題影響網路設定,請參閱「解決硬體故障問題」。
解決硬體故障問題
如果擴充機架中的交換器發生任何硬體故障,請對 TOR 和管理交換器執行交換器產品退貨和更換 (RMA) 程序。請按照 PNET-R2001 中的指示操作。