オペレーターの概要

Google Distributed Cloud(GDC)のエアギャップ環境で Gemini を有効にするには、まずインフラストラクチャ オペレータ(IO)が必要なネットワークとハードウェアを構成する必要があります。GDC のユーザーの詳細については、ドキュメントの対象読者をご覧ください。

このガイドでは、IO が GDC 環境内で Gemini サービスをインストール、プロビジョニング、デプロイするための包括的な手順を説明します。ここに記載する手順は、v2 組織を対象としています。これらのガイドラインを遵守することは、安全で分離された設定で高度な AI 機能をデプロイするうえで不可欠です。

まず、Gemini を有効にするようにネットワークを構成する必要があります。これは、通常の GDC デプロイと比較して消費電力が大きいためです。この構成では、正しいスイッチとラックの設定で GPU Pod を設定します。このネットワーク構成では、GPU Pod の動的拡張も必要です。

次に、Gemini モデルを手動でダウンロードして転送する必要があります。Google の担当者からダウンロード URL が提供されます。モデルイメージをダウンロードして検証し、モデルイメージを抽出するエアギャップ環境に転送する必要があります。

最後に、Gemini モデルを抽出したら、GDC に読み込むことができます。このオペレーションには、既存のストレージ バケットと必要なオペレーター ロールが必要です。モデルをストレージ バケットに読み込み、モデルを含むコンテナ イメージをコンテナ レジストリに読み込みます。

デプロイ前のチェック

Gemini in GDC 環境は、v2 組織アーキテクチャにデプロイする必要があります。このアーキテクチャでは、専用の Gemini 組織がお客様の組織と連携して AI 機能を提供します。組織のアーキテクチャの詳細については、組織の概要をご覧ください。

Gemini のインストールとプロビジョニングを行う前に、デプロイ要件を満たす必要があります。これらの条件を確認しないと、大幅な遅延やインストールの失敗につながる可能性があります。次の表に、インフラストラクチャが満たす必要のあるすべての前提条件を、指定された順序で示します。

Step 要件 要件 確認とメモ 完了
1. GDC のバージョン Bootstrap バージョン 1.14.4 以降 ルート組織を含むすべての組織のブートストラップ バージョンを確認します。
2. お客様の組織 少なくとも 1 つのテナント組織が少なくとも 1 つのゾーンで稼働している 顧客組織を作成する
3. 最小限の IAM ロール 組織を作成して GDC に Gemini をデプロイするために必要な権限がある IAM 権限を準備する
4. ベアメタル GPU サーバー マシンクラス d3-highgpu1-256-gdc-metal のベアメタル GPU サーバーが少なくとも 1 台提供されている マシンクラスが使用可能で準備ができていることを確認します。Dell XE9680 サーバーは、必要な H200 GPU を提供します。

IAC を使用して組織を作成するを参照して、GPU サーバーの存在を確認します。 GPU サーバーのネットワーク構成の詳細については、Gemini のネットワークを設定するをご覧ください。

Gemini とお客様の組織

Gemini とお客様の組織の両方に v2 組織アーキテクチャを使用します。このアーキテクチャ内の個別のロール、コンポーネント、インタラクションを明確に理解することは、デプロイと運用の成功に不可欠です。GDC の組織アーキテクチャの詳細については、組織の概要をご覧ください。

次の表は、Gemini とお客様の組織の主な違いをまとめたものです。

機能 Gemini 組織 顧客の組織
説明 Gemini モデルサーバーを実行するように構成された組織リソース ユーザーがワークロードを実行し、プラットフォーム インフラストラクチャにアクセスしてサービスを使用する標準の GDC テナント組織
ホスト型サービス
  • GenAI ルーター
  • H200 GPU を搭載したモデルサーバー
推論ゲートウェイ
管理責任 Google IO Google またはお客様の IO
ワークロードの権限 Google が承認したサードパーティ ワークロードのみ お客様のワークロード
デプロイゾーン 単一の専用 Gemini ゾーン Gemini 組織と同じ Gemini ゾーン

複数のゾーンにデプロイすることもできます。詳細については、Gemini のマルチゾーン デプロイモデルをご覧ください。
Gemini サービスへのアクセス 該当なし(サービスを提供している) 推論ゲートウェイ経由

主要コンポーネント

複数のコンポーネントが連携して Gemini サービスを提供します。これらのコンポーネントは、Gemini とお客様の組織に分散されます。

推論ゲートウェイ

推論 Gateway は Gemini のフロントエンドです。これは、顧客組織の組織インフラストラクチャ クラスタ内の Pod として実行され、Gemini ゾーンでのみ動作します。

Gemini モデルに対するお客様のワークロードからのすべてのリクエストは、このゲートウェイを通過します。

GenAI ルーター

GenAI Router は Gemini バックエンドです。Gemini 組織の組織インフラストラクチャ クラスタ内の Pod として実行され、推論ゲートウェイと同様に Gemini ゾーンでのみ動作します。

この関数は、Inference Gateway からリクエストを受信し、適切なモデルサーバー インスタンスに転送します。

モデルサーバー

モデルサーバーは、GDC で Gemini を強化する AI モデルのホスティングと実行を担当します。これらのモデルには、コア Gemini モデルとその依存関係にあるトークナイザー モデルが含まれます。

このサーバーは、Gemini 組織内の d3-highgpu1-256-gdc-metal ベアメタル マシンにある H200 GPU を使用します。

モデルサーバーには次の機能があります。

  • ロード バランシング: 複数の GPU セットが使用可能な場合、推論リクエストを分散して、スループットと復元力を高めることができます。
  • マルチモデル サービング: 異なる Gemini モデルを同時に実行できるため、モデルのデプロイと使用に柔軟性があります。

Gemini のマルチゾーン デプロイモデル

マルチゾーン機能が有効になっている場合、組織は本質的にグローバル リソースです。つまり、エアギャップ環境内のすべてのリージョンからアクセスできます。GDC は、組織のリソースがグローバルにアクセス可能でありながら、サーバー、ストレージ、ワークロードに対応する実際のデプロイが特定のゾーンのサブセットに制限される非対称組織の作成をサポートしています。

OrganizationZonalConfig カスタム リソースは、指定されたゾーン内の組織の構成を定義します。マルチゾーン デプロイの詳細については、マルチゾーンの概要をご覧ください。

Gemini のデプロイの重要なセキュリティとアーキテクチャの原則は、Gemini 組織を単一のゾーンにのみデプロイする必要があることです。ただし、これとやり取りする対応するお客様の組織は、複数のゾーンにデプロイできます。このアーキテクチャにより、さまざまなゾーンの顧客ワークロードが Gemini サービスに一元的にアクセスできます。

次のステップ