Google Distributed Cloud(GDC)のエアギャップ環境で Gemini を有効にするには、まずインフラストラクチャ オペレータ(IO)が必要なネットワークとハードウェアを構成する必要があります。GDC のユーザーの詳細については、ドキュメントの対象読者をご覧ください。
このガイドでは、IO が GDC 環境内で Gemini サービスをインストール、プロビジョニング、デプロイするための包括的な手順を説明します。ここに記載する手順は、v2 組織を対象としています。これらのガイドラインを遵守することは、安全で分離された設定で高度な AI 機能をデプロイするうえで不可欠です。
まず、Gemini を有効にするようにネットワークを構成する必要があります。これは、通常の GDC デプロイと比較して消費電力が大きいためです。この構成では、正しいスイッチとラックの設定で GPU Pod を設定します。このネットワーク構成では、GPU Pod の動的拡張も必要です。
次に、Gemini モデルを手動でダウンロードして転送する必要があります。Google の担当者からダウンロード URL が提供されます。モデルイメージをダウンロードして検証し、モデルイメージを抽出するエアギャップ環境に転送する必要があります。
最後に、Gemini モデルを抽出したら、GDC に読み込むことができます。このオペレーションには、既存のストレージ バケットと必要なオペレーター ロールが必要です。モデルをストレージ バケットに読み込み、モデルを含むコンテナ イメージをコンテナ レジストリに読み込みます。
デプロイ前のチェック
Gemini in GDC 環境は、v2 組織アーキテクチャにデプロイする必要があります。このアーキテクチャでは、専用の Gemini 組織がお客様の組織と連携して AI 機能を提供します。組織のアーキテクチャの詳細については、組織の概要をご覧ください。
Gemini のインストールとプロビジョニングを行う前に、デプロイ要件を満たす必要があります。これらの条件を確認しないと、大幅な遅延やインストールの失敗につながる可能性があります。次の表に、インフラストラクチャが満たす必要のあるすべての前提条件を、指定された順序で示します。
| Step | 要件 | 要件 | 確認とメモ | 完了 |
|---|---|---|---|---|
| 1. | GDC のバージョン | Bootstrap バージョン 1.14.4 以降 | ルート組織を含むすべての組織のブートストラップ バージョンを確認します。 | |
| 2. | お客様の組織 | 少なくとも 1 つのテナント組織が少なくとも 1 つのゾーンで稼働している | 顧客組織を作成する。 | |
| 3. | 最小限の IAM ロール | 組織を作成して GDC に Gemini をデプロイするために必要な権限がある | IAM 権限を準備する。 | |
| 4. | ベアメタル GPU サーバー | マシンクラス d3-highgpu1-256-gdc-metal のベアメタル GPU サーバーが少なくとも 1 台提供されている |
マシンクラスが使用可能で準備ができていることを確認します。Dell XE9680 サーバーは、必要な H200 GPU を提供します。 IAC を使用して組織を作成するを参照して、GPU サーバーの存在を確認します。
|
Gemini とお客様の組織
Gemini とお客様の組織の両方に v2 組織アーキテクチャを使用します。このアーキテクチャ内の個別のロール、コンポーネント、インタラクションを明確に理解することは、デプロイと運用の成功に不可欠です。GDC の組織アーキテクチャの詳細については、組織の概要をご覧ください。
次の表は、Gemini とお客様の組織の主な違いをまとめたものです。
| 機能 | Gemini 組織 | 顧客の組織 |
|---|---|---|
| 説明 | Gemini モデルサーバーを実行するように構成された組織リソース | ユーザーがワークロードを実行し、プラットフォーム インフラストラクチャにアクセスしてサービスを使用する標準の GDC テナント組織 |
| ホスト型サービス |
|
推論ゲートウェイ |
| 管理責任 | Google IO | Google またはお客様の IO |
| ワークロードの権限 | Google が承認したサードパーティ ワークロードのみ | お客様のワークロード |
| デプロイゾーン | 単一の専用 Gemini ゾーン | Gemini 組織と同じ Gemini ゾーン 複数のゾーンにデプロイすることもできます。詳細については、Gemini のマルチゾーン デプロイモデルをご覧ください。 |
| Gemini サービスへのアクセス | 該当なし(サービスを提供している) | 推論ゲートウェイ経由 |
主要コンポーネント
複数のコンポーネントが連携して Gemini サービスを提供します。これらのコンポーネントは、Gemini とお客様の組織に分散されます。
推論ゲートウェイ
推論 Gateway は Gemini のフロントエンドです。これは、顧客組織の組織インフラストラクチャ クラスタ内の Pod として実行され、Gemini ゾーンでのみ動作します。
Gemini モデルに対するお客様のワークロードからのすべてのリクエストは、このゲートウェイを通過します。
GenAI ルーター
GenAI Router は Gemini バックエンドです。Gemini 組織の組織インフラストラクチャ クラスタ内の Pod として実行され、推論ゲートウェイと同様に Gemini ゾーンでのみ動作します。
この関数は、Inference Gateway からリクエストを受信し、適切なモデルサーバー インスタンスに転送します。
モデルサーバー
モデルサーバーは、GDC で Gemini を強化する AI モデルのホスティングと実行を担当します。これらのモデルには、コア Gemini モデルとその依存関係にあるトークナイザー モデルが含まれます。
このサーバーは、Gemini 組織内の d3-highgpu1-256-gdc-metal ベアメタル マシンにある H200 GPU を使用します。
モデルサーバーには次の機能があります。
- ロード バランシング: 複数の GPU セットが使用可能な場合、推論リクエストを分散して、スループットと復元力を高めることができます。
- マルチモデル サービング: 異なる Gemini モデルを同時に実行できるため、モデルのデプロイと使用に柔軟性があります。
Gemini のマルチゾーン デプロイモデル
マルチゾーン機能が有効になっている場合、組織は本質的にグローバル リソースです。つまり、エアギャップ環境内のすべてのリージョンからアクセスできます。GDC は、組織のリソースがグローバルにアクセス可能でありながら、サーバー、ストレージ、ワークロードに対応する実際のデプロイが特定のゾーンのサブセットに制限される非対称組織の作成をサポートしています。
OrganizationZonalConfig カスタム リソースは、指定されたゾーン内の組織の構成を定義します。マルチゾーン デプロイの詳細については、マルチゾーンの概要をご覧ください。
Gemini のデプロイの重要なセキュリティとアーキテクチャの原則は、Gemini 組織を単一のゾーンにのみデプロイする必要があることです。ただし、これとやり取りする対応するお客様の組織は、複数のゾーンにデプロイできます。このアーキテクチャにより、さまざまなゾーンの顧客ワークロードが Gemini サービスに一元的にアクセスできます。