RAG 対応生成 AI アプリケーションのプライベート ネットワーク接続の設計

Ammett Williams
Developer Relations Engineer
※この投稿は米国時間 2026 年 3 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud は柔軟性に優れており、企業が AI ワークロード向けに安全で信頼性の高いアーキテクチャを構築することを可能にします。この投稿では、検索拡張生成(RAG)対応生成 AI アプリケーションのプライベート接続のリファレンス アーキテクチャについて説明します。このアーキテクチャは、システム全体で通信にプライベート IP アドレスを使用する必要があるようなシナリオで、通信がインターネットを通過してはならないような場合に適しています。
RAG の効力
RAG は、大規模言語モデル(LLM)の出力を最適化するために使用されるパワフルな手法であり、LLM の出力を、元のトレーニング データ以外の特定の信頼できるナレッジベースにグラウンディングできます。アプリケーションから RAG を使って、ドキュメント、データソース、データベースから関連情報をリアルタイムで取得することができます。ここで取得したコンテキストは、ユーザーのクエリとともにモデルに提供されます。これにより、AI の回答を正確で検証可能なものにするとともに、業務内容との関連性を高めます。この仕組みによって、回答の質が向上し、ハルシネーションが減少します。
このアプローチは、生成 AI においてモデルの既存の知識のみに依存することなく、指定された信頼できる情報源を使用できるため、モデル自体を再トレーニングやファインチューニングしなくて済むという点で利便性に優れています。
設計パターンの例
RAG アプリケーションのプライベート接続向けにネットワークを設定するということを念頭におきながら、このようなリージョン設計のパターンを見ていきましょう。
このネットワークは、外部ネットワーク(オンプレミスおよび他のクラウド)と Google Cloud 環境で構成されています。Google Cloud 環境は、ルーティング プロジェクト、RAG 用の共有 VPC ホスト プロジェクト、3 つの特化したサービス プロジェクト(データ取り込み、サービング、フロントエンド)で構成されています。
この設計では、次のサービスを使用してエンドツーエンドのソリューションを提供します。
-
Cloud Interconnect または Cloud VPN: オンプレミスまたは他のクラウドからルーティング VPC ネットワークに安全に接続する
-
Network Connectivity Center: VPC スポークおよびハイブリッド スポークを介して、ルーティング VPC ネットワークと RAG VPC ネットワーク間の接続を管理するオーケストレーション フレームワーク
-
Cloud Router: ルーティング プロジェクト内で、外部ネットワークと Google Cloud 間の動的な BGP ルート交換を行う
-
Private Service Connect: ルーティング VPC ネットワークにプライベート エンドポイントを提供し、パブリック インターネットを経由せずに Cloud Storage バケットにアクセスしてデータを取り込めるようにする
-
共有 VPC: 複数のサービス プロジェクトで、共通の一元的な VPC ネットワークを使用できるようにするホスト プロジェクト アーキテクチャ
-
Google Cloud Armor とアプリケーション ロードバランサ: フロントエンド サービス プロジェクトに配置され、ユーザー インタラクションに対してセキュリティとトラフィック管理を提供する
-
VPC Service Controls: すべてのリソースの周囲にマネージド セキュリティ境界を作成し、データ漏洩のリスクを軽減する


トラフィック フロー
RAG の挿入フロー
上の図の緑色の点線が RAG の挿入フロー(データ エンジニアからベクトル ストレージへとデータが移動する仕組み)を表しています。
-
外部ネットワークからのデータが、Cloud Interconnect または Cloud VPN 経由で渡されます。
-
ルーティング プロジェクト内の Private Service Connect エンドポイントを使って Cloud Storage バケットにアクセスします。
-
データ取り込みサービス プロジェクト内のデータ取り込みサブシステムが Cloud Storage バケットからの元データを処理します。
-
AI モデルがチャンクからベクトルを作成し、データ取り込みサブシステムに返します。データ取り込みサブシステムはこれを受け、サービング サービス プロジェクトの RAG データストアに書き込みます。
推論フロー
上の図のオレンジ色の点線が推論フロー(お客様またはユーザーのリクエスト)を表しています。
-
リクエストは、Cloud Interconnect または Cloud VPN 経由でルーティング VPC ネットワークに渡され、その後、VPC スポーク経由で RAG VPC ネットワークに渡されます。
-
リクエストは、Cloud Armor で保護されたアプリケーション ロードバランサ に到達し、許可されるとフロントエンド サブシステムに渡されます。
-
フロントエンド サブシステムはリクエストをサービング サブシステムに転送します。サービング サブシステムは、RAG データストアのデータでプロンプトを拡張し、AI モデルを介して回答を生成します。
-
上記によってグラウンディングされた回答が、リクエスト元に同じパスで返されます。
管理とルーティング
上の図の青い点線は、Network Connectivity Center のハイブリッド スポークと VPC スポークが、ルーティング ネットワークと RAG VPC ネットワーク間のコントロール プレーンとルート オーケストレーションを管理する様子を表しています。これにより、外部ネットワークから学習したルートが環境全体に適切に伝播されます。
IAM 権限、VPC Service Controls、デプロイに関する考慮事項などについて詳しくは、アーキテクチャ ドキュメント「RAG 対応生成 AI アプリケーションのプライベート接続」をお読みください。
次のステップ
クロスクラウド ネットワークの詳細や、RAG を使用した生成 AI に関する以下のガイドをご覧ください。
-
ドキュメント リスト: RAG を使用した生成 AI
-
ドキュメント: 分散型アプリケーション向けのクロスクラウド ネットワーク
ご質問やご意見がございましたら、Linkedin 経由で筆者までご連絡ください。
- デベロッパーリレーションズ エンジニア、Ammett Williams

