Gemini のネットワークを設定する

このページでは、Google Distributed Cloud(GDC)のエアギャップ環境で Gemini を設定する方法について説明します。このガイドは、システム デプロイを管理するインフラストラクチャ オペレーター(IO)を対象としています。必要なインフラストラクチャ、GPU Pod のハードウェア設定、Gemini のデプロイに必要なネットワーク構成について説明します。

始める前に

Gemini のネットワーキング構成を設定するには、ベースラックにルート管理クラスタが正常にインストールされている必要があります。詳細については、ルート管理クラスタのブートストラップをご覧ください。

Gemini 用に GPU ハードウェアを構成する

GDC 内で Gemini を実行するには、必要なハードウェアを GPU Pod の形式でデプロイする必要があります。GPU Pod は、1 ~ 8 台の電力消費量の多い GPU サーバーで構成され、GPU 対応ラックの最小デプロイ可能ユニットです。各 GPU サーバーは独自のラックに収容され、専用の管理スイッチと 2 つの共有 Top of Rack(TOR)スイッチの両方に接続されます。ラックあたりのサーバーの数は、電力予算と要件によって異なります。

次の図は、2 つの異なる GPU Pod 構成を示しています。

GPU Pod のラック構成

図 1: 2 つの GPU Pod が表示されます。最初の GPU Pod は 8 台の GPU サーバーで構成されています。2 つ目の GPU Pod は 5 台の GPU サーバーで構成されています。

図 1 では、最初の GPU Pod は次の要素で構成されています。

  • 最大 8 台の GPU サーバーをサポートできる専用の Virtual Private Cloud(VPC)ペア。サーバー接続を追加するには、新しい GPU Pod を作成する必要があります。
  • GPU Pod の各 XE9680 GPU は、TOR スイッチを独占的に使用します。GPU Pod の TOR は、他のコンピューティング リソースやストレージ リソースと共有されません。
  • 2 つの TOR スイッチが接続され、GPU サーバーに高帯域幅の接続が提供されます。
  • この GPU Pod は、最大 8 台の GPU サーバーで構成されます。各サーバーは独自のラックに収容されています。
  • 各 GPU サーバーは、専用の管理スイッチと、VPC ペアを形成する共有 GPU TOR スイッチの両方に接続します。

図 1 の 2 番目の GPU Pod は同じアーキテクチャを共有していますが、GPU Pod は 8 台ではなく 5 台の GPU サーバーで構成されています。

Gemini のネットワークを設定する

Gemini in GDC 用にネットワークを構成する手順は次のとおりです。

  1. GPU Pod で動的拡張を実行します。動的拡張を実行するの手順に沿って操作します。ゾーン拡張中に SubcomponentOverride リソースを適用できない問題が発生した場合は、OLT-R0003 ランブックに沿って対応します。

  2. 接続が成功したことを確認します。ルート管理クラスタに接続するように KUBECONFIG 環境変数を設定します。

    KUBECONFIG=KUBECONFIG_PATH
    

    KUBECONFIG_PATH は、ルート管理クラスタの kubeconfig ファイルのパスに置き換えます。

  3. TOR スイッチと管理スイッチのステータスを取得します。

    kubectl --kubeconfig=$KUBECONFIG get torswitch -n gpc-system
    kubectl --kubeconfig=$KUBECONFIG get managementswitch -n gpc-system
    
  4. 出力を確認し、READY 列に両方のスイッチの True の値が表示されていることを確認します。

    NAME AGE VENDOR SERIAL-NUMBER MANAGEMENT-IP READY OSVERSION CREDENTIAL-NAME LICENSE-NAME
    aa-aa-torsw01 10h Cisco 005056B4FC41 172.100.1.130 True 10.3(3) aa-aa-torsw01-admin
    aa-aa-torsw02 10h Cisco 005056B4966C 172.100.1.131 True 10.3(3) aa-aa-torsw02-admin
    
  5. ネットワークの構成に影響するハードウェアの問題が発生している場合は、ハードウェア障害を解決するをご覧ください。

ハードウェアの障害を解決する

拡張ラックのスイッチでハードウェア障害が発生した場合は、TOR スイッチと管理スイッチに対してスイッチ製品の返品と交換(RMA)プロセスを実行します。PNET-R2001 の手順に沿って操作します。

次のステップ