Cloud Run ドキュメントの AI / ML オーケストレーション

Cloud Run は、AI/ML ワークロードなどのコンテナ化されたアプリケーションを Google のスケーラブルなインフラストラクチャ上で直接実行できるフルマネージド プラットフォームです。インフラストラクチャは Google Cloud が処理するため、Cloud Run リソースの運用、構成、スケーリングに時間を費やすことなく、コードの作成に集中できます。Cloud Run の機能により、次のことが実現します。

  • ハードウェア アクセラレータ: 推論用の GPU に大規模にアクセスして管理します。
  • フレームワークのサポート: Hugging Face、TGI、vLLM など、既知の信頼できるモデル提供フレームワークと統合します。
  • マネージド プラットフォーム: マネージド プラットフォームのすべてのメリットを活用して、柔軟性を維持しながら、AI/ML ライフサイクル全体の自動化、スケーリング、セキュリティの強化を実現します。

チュートリアルとベスト プラクティスで、Cloud Run が AI/ML ワークロードを最適化する方法をご確認ください。

  • Gemini 2.0 Flash Thinking をご利用いただけます。
  • AI API や BigQuery などの人気プロダクトの毎月の無料使用枠をご利用いただけます。
  • 自動請求は行われず、契約も不要です。

常に無料で利用可能な 20 以上のプロダクトを確認する

AI API、VM、データ ウェアハウスなど、一般的なユースケース向けの 20 以上のプロダクトを無料でご利用いただけます。

ドキュメント リソース

クイックスタートやガイド、主なリファレンス、一般的な問題のヘルプをご覧いただけます。
セルフペース トレーニング、ユースケース、リファレンス アーキテクチャ、コードサンプル、 Google Cloud サービスの使用方法と接続方法の例をご覧ください。
ユースケース
ユースケース

Cloud Run で NVIDIA L4 GPU を使用して、大規模言語モデル(LLM)の高速コールド スタートやゼロへのスケーリングなどのメリットを活用したリアルタイム AI 推論を実現します。

GPU LLM

ユースケース
ユースケース

プロダクション レディな AI アプリケーションに Cloud Run を使用する方法を学習します。このガイドでは、A/B テスト プロンプトのトラフィック分割、RAG(検索拡張生成)パターン、ベクトルストアへの接続などのユースケースについて説明します。

AI アプリケーション A/B テストのトラフィック分割 RAG パターン ベクトルストア ベクトルストアへの接続

ユースケース
ユースケース

Google AI Studio から Cloud Run と Cloud Run MCP(Model Context Protocol)サーバーへのワンクリック デプロイにより、IDE またはエージェント SDK で AI エージェントを有効にしてアプリをデプロイできます。

MCP サーバー デプロイ Cloud Run

ユースケース
ユースケース

NVIDIA L4 GPU を Cloud Run と統合して、費用対効果の高い LLM サービングを実現します。このガイドでは、ゼロへのスケーリングを重視し、Ollama を使用した Gemma 2 などのモデルのデプロイ手順について説明します。

LLM GPU Ollama コストの最適化

ユースケース
ユースケース

Cloud Storage FUSE を使用して、大規模なモデルファイルをコンテナ イメージから切り離します。切り離しにより、ビルド時間が短縮され、更新が簡素化されて、スケーラブルなサービング アーキテクチャが実現します。

モデルのパッケージ化 Cloud Storage FUSE ベスト プラクティス 大規模モデル

ユースケース
ユースケース

ML サービング用に最適化された Cog フレームワークを使用して、コンテナの Cloud Run へのパッケージ化とデプロイを簡素化します。

Cog モデルのパッケージ化 デプロイ チュートリアル

ユースケース
ユースケース

Cloud Run を使用して軽量の ML 推論を行い、Cloud Logging や BigQuery などのネイティブ GCP サービスを使用して費用対効果の高いモニタリング スタックを構築します。

モニタリング MLOps 費用対効果 推論

ユースケース
ユースケース

Vertex AI 生成 AI API を呼び出すシンプルな Flask アプリケーションを、スケーラブルな Cloud Run サービスにデプロイします。

生成 AI Vertex AI Flask デプロイ

ユースケース
ユースケース

AI Studio の Gemma Python コードを使用して、Cloud Run インスタンスに直接デプロイし、Secret Manager を活用して API キーを安全に処理します。

AI Studio Gemma デプロイ チュートリアル

関連動画