このガイドでは、Cloud Run を使用してアプリをホストし、推論を実行して、AI ワークフローを構築する方法の概要について説明します。
AI アプリケーション、エージェント、スケーラブルな API エンドポイントをホストするための Cloud Run
Cloud Run は、AI アプリとワークロードをスケーリングするフルマネージド プラットフォームを提供します。
Cloud Run で AI アプリをホストする場合、通常は次のアーキテクチャ コンポーネントがあります。
- サービングとオーケストレーション: アプリケーション コードまたはコンテナを Cloud Run にデプロイします。
- AI モデル: アプリで Google の AI モデル、オープンソース モデル、カスタムモデルを使用します。
- インテグレーション: メモリ、データベース、ストレージ、セキュリティなどの Google Cloud サービスまたはサードパーティ サービスに接続できます。
- ツール: 他のタスクやオペレーションのためのツールに接続できます。
次の図は、AI アプリのホスティング プラットフォームとして Cloud Run を使用する方法の概要を示しています。
図に示すように:
サービングとオーケストレーション レイヤ内では、Cloud Run サービスはアプリケーションのコアロジックのスケーラブルな API エンドポイントとして機能します。インスタンスの自動オンデマンド高速スケーリングにより、複数のユーザーを同時に効率的に管理します。
Cloud Run にデプロイするコンテナを用意します。アプリケーションとその依存関係をコンテナにパッケージ化するか、ソースコードを指定して Cloud Run でコードを自動的にコンテナにビルドしてデプロイできるようにします。ソースコードによるデプロイでは、任意の言語、オープン フレームワーク、SDK を使用して AI アプリを構築できます。
AI アプリは、受信リクエストに対応して処理のために事前トレーニング済みの AI モデルにデータを送信してから結果を返す、スケーラブルな API エンドポイントとして機能します。
Cloud Run は、Gemini モデルや Vertex AI モデルなどの Google のモデルと統合されており、Llama や Gemma などのオープンソース モデルと統合することもできます。自分でトレーニングしたカスタムモデルがある場合は、そのモデルを Cloud Run リソースで使用することもできます。
Google Cloud は、AI アプリケーションのインフラストラクチャをサポートするさまざまなソリューションを提供します。 AI アプリと連携するGoogle Cloud インテグレーションには、次のようなものがあります。
- メモリとデータベース
- 短期
- Memorystore は、短期間のデータ保存用の高速な外部キャッシュを提供する、キャッシュ保存に対応した一時的な高アクセスデータ マネジメント サービスです。
- 長期
- AlloyDB for PostgreSQL は、要求の厳しいトランザクション ワークロードと分析ワークロード向けに設計された PostgreSQL 互換のデータベースです。ベクトル エンベディングの生成と高速ベクトル インデックスが組み込まれているため、標準の
pgvector実装と比較してセマンティック検索が高速になります。 - Cloud SQL は、MySQL、PostgreSQL、SQL Server 用のリレーショナル データベース サービスです。PostgreSQL 用の
pgvector拡張機能を使用して、ベクトルストアとしても機能します。 - Firestore は、ベクトル検索機能が組み込まれたスケーラブルな NoSQL ドキュメント データベース サービスです。
- AlloyDB for PostgreSQL は、要求の厳しいトランザクション ワークロードと分析ワークロード向けに設計された PostgreSQL 互換のデータベースです。ベクトル エンベディングの生成と高速ベクトル インデックスが組み込まれているため、標準の
- 短期
- ストレージ
- Cloud Storage は、モデル トレーニング用の大規模なデータセット、アプリケーションの入出力ファイル、モデル アーティファクトを保持するためのオブジェクト ストレージ ソリューションです。
- セキュリティ
- Secret Manager は、AI アプリケーションが外部サービスとやり取りするために必要になることの多い API キー、パスワード、認証情報といったセンシティブ データを安全かつ一元的に保存できる、シークレットと認証情報の管理サービスです。
詳細については、 Google Cloud サービスに接続するをご覧ください。
- メモリとデータベース
ツールを使用すると、外部または Cloud Run で実行されているサービス、API、ウェブサイトを AI アプリや AI モデルから操作できます。
たとえば、AI アプリが AI エージェントの場合、エージェントは MCP サーバーにリクエストを送信して外部ツールを実行したり、コンテナで実行されているツール(コード実行、コンピュータの使用、情報取得など)を使用したりします。
AI 推論用に Cloud Run でモデルをホストする
大規模言語モデル(LLM)を使用するアプリケーションとエージェントの構築に加えて、Cloud Run で GPU を有効にして、AI 推論用の事前トレーニング済みモデルまたはカスタムのセルフデプロイ モデルを実行することもできます。
Cloud Run GPU を使用すると、AI 推論ワークロードの計算負荷の高いタスクを実行するために必要な、大量のオペレーションを処理できます。AI モデルをコンテナ イメージとして、またはソースコードからデプロイし、さまざまな方法で Cloud Run リソースをデプロイします。