このページでは、Google Distributed Cloud(GDC)のエアギャップ環境で Gemini を設定する方法について説明します。このガイドは、システム デプロイを管理するインフラストラクチャ オペレーター(IO)を対象としています。必要なインフラストラクチャ、GPU Pod のハードウェア設定、Gemini のデプロイに必要なネットワーク構成について説明します。
始める前に
Gemini のネットワーキング構成を設定するには、ベースラックにルート管理クラスタが正常にインストールされている必要があります。詳細については、ルート管理クラスタのブートストラップをご覧ください。
Gemini 用に GPU ハードウェアを構成する
GDC 内で Gemini を実行するには、必要なハードウェアを GPU Pod の形式でデプロイする必要があります。GPU Pod は、1 ~ 8 台の電力消費量の多い GPU サーバーで構成され、GPU 対応ラックの最小デプロイ可能ユニットです。各 GPU サーバーは独自のラックに収容され、専用の管理スイッチと 2 つの共有 Top of Rack(TOR)スイッチの両方に接続されます。ラックあたりのサーバーの数は、電力予算と要件によって異なります。
次の図は、2 つの異なる GPU Pod 構成を示しています。

図 1: 2 つの GPU Pod が表示されます。最初の GPU Pod は 8 台の GPU サーバーで構成されています。2 つ目の GPU Pod は 5 台の GPU サーバーで構成されています。
図 1 では、最初の GPU Pod は次の要素で構成されています。
- 最大 8 台の GPU サーバーをサポートできる専用の Virtual Private Cloud(VPC)ペア。サーバー接続を追加するには、新しい GPU Pod を作成する必要があります。
- GPU Pod の各 XE9680 GPU は、TOR スイッチを独占的に使用します。GPU Pod の TOR は、他のコンピューティング リソースやストレージ リソースと共有されません。
- 2 つの TOR スイッチが接続され、GPU サーバーに高帯域幅の接続が提供されます。
- この GPU Pod は、最大 8 台の GPU サーバーで構成されます。各サーバーは独自のラックに収容されています。
- 各 GPU サーバーは、専用の管理スイッチと、VPC ペアを形成する共有 GPU TOR スイッチの両方に接続します。
図 1 の 2 番目の GPU Pod は同じアーキテクチャを共有していますが、GPU Pod は 8 台ではなく 5 台の GPU サーバーで構成されています。
Gemini のネットワークを設定する
Gemini in GDC 用にネットワークを構成する手順は次のとおりです。
GPU Pod で動的拡張を実行します。動的拡張を実行するの手順に沿って操作します。ゾーン拡張中に
SubcomponentOverrideリソースを適用できない問題が発生した場合は、OLT-R0003 ランブックに沿って対応します。接続が成功したことを確認します。ルート管理クラスタに接続するように
KUBECONFIG環境変数を設定します。KUBECONFIG=KUBECONFIG_PATHKUBECONFIG_PATHは、ルート管理クラスタの kubeconfig ファイルのパスに置き換えます。TOR スイッチと管理スイッチのステータスを取得します。
kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system出力を確認し、
READY列に両方のスイッチのTrueの値が表示されていることを確認します。NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-adminネットワークの構成に影響するハードウェアの問題が発生している場合は、ハードウェア障害を解決するをご覧ください。
ハードウェアの障害を解決する
拡張ラックのスイッチでハードウェア障害が発生した場合は、TOR スイッチと管理スイッチに対してスイッチ製品の返品と交換(RMA)プロセスを実行します。PNET-R2001 の手順に沿って操作します。