English
Deutsch
Español – América Latina
Français
Português – Brasil
中文 – 简体
日本語
한국어

コンソール

お問い合わせ無料で利用開始

Cloud Run ドキュメントの AI / ML オーケストレーション

Cloud Run は、AI/ML ワークロードなどのコンテナ化されたアプリケーションを Google のスケーラブルなインフラストラクチャ上で直接実行できるフルマネージドプラットフォームです。インフラストラクチャは Google Cloud が処理するため、Cloud Run リソースの運用、構成、スケーリングに時間を費やすことなく、コードの作成に集中できます。Cloud Run の機能により、次のことが実現します。

ハードウェアアクセラレータ: 推論用の GPU に大規模にアクセスして管理します。
フレームワークのサポート: Hugging Face、TGI、vLLM など、既知の信頼できるモデル提供フレームワークと統合します。
マネージドプラットフォーム: マネージドプラットフォームのすべてのメリットを活用して、柔軟性を維持しながら、AI/ML ライフサイクル全体の自動化、スケーリング、セキュリティの強化を実現します。

チュートリアルとベストプラクティスで、Cloud Run が AI/ML ワークロードを最適化する方法をご確認ください。

無料で開始

$300 分の無料クレジットを使用して概念実証を始める

Gemini 2.0 Flash Thinking をご利用いただけます。
AI API や BigQuery などの人気プロダクトの毎月の無料使用枠をご利用いただけます。
自動請求は行われず、契約も不要です。

無料のプロダクトオファーを見る

常に無料で利用可能な 20 以上のプロダクトを確認する

AI API、VM、データウェアハウスなど、一般的なユースケース向けの 20 以上のプロダクトを無料でご利用いただけます。

ドキュメントリソース

クイックスタートやガイド、主なリファレンス、一般的な問題のヘルプをご覧いただけます。

AI ソリューションを実行する

GPU を使用した推論

チュートリアル
Gemma 3 と Ollama を使用して Cloud Run GPU で LLM 推論を実行する
入門
Cloud Run で Gemma 3 モデルを実行する
チュートリアル
Hugging Face TGI を使用して Cloud Run GPU で LLM 推論を実行する
ベストプラクティス
ベストプラクティス: GPU を使用した Cloud Run サービス
チュートリアル
Cloud Run ジョブで GPU を使用して LLM をファインチューニングする
チュートリアル
Cloud Run ジョブでの FFmpeg を使用した GPU アクセラレーションによる動画のコード変換
ベストプラクティス
ベストプラクティス: GPU を使用した Cloud Run ジョブ
ベストプラクティス
ベストプラクティス: GPU を使用した Cloud Run ワーカープール

トラブルシューティング

セルフペーストレーニング、ユースケース、リファレンスアーキテクチャ、コードサンプル、 Google Cloud サービスの使用方法と接続方法の例をご覧ください。

ユースケース

NVIDIA GPU を使用して Cloud Run で AI 推論アプリケーションを実行する

Cloud Run で NVIDIA L4 GPU を使用して、大規模言語モデル（LLM）の高速コールドスタートやゼロへのスケーリングなどのメリットを活用したリアルタイム AI 推論を実現します。

GPU LLM

ユースケース

Cloud Run: AI アプリケーションを本番稼働させるための最速の手段

プロダクションレディな AI アプリケーションに Cloud Run を使用する方法を学習します。このガイドでは、A/B テストプロンプトのトラフィック分割、RAG（検索拡張生成）パターン、ベクトルストアへの接続などのユースケースについて説明します。

AI アプリケーション A/B テストのトラフィック分割 RAG パターンベクトルストアベクトルストアへの接続

ユースケース

AI のデプロイが簡単に: AI Studio または MCP 対応 AI エージェントからアプリを Cloud Run にデプロイ

Google AI Studio から Cloud Run と Cloud Run MCP（Model Context Protocol）サーバーへのワンクリックデプロイにより、IDE またはエージェント SDK で AI エージェントを有効にしてアプリをデプロイできます。

MCP サーバーデプロイ Cloud Run

ユースケース

GPU のパワーで Cloud Run を強化: AI ワークロードの新時代

NVIDIA L4 GPU を Cloud Run と統合して、費用対効果の高い LLM サービングを実現します。このガイドでは、ゼロへのスケーリングを重視し、Ollama を使用した Gemma 2 などのモデルのデプロイ手順について説明します。

LLM GPU Ollama コストの最適化

ユースケース

まだ AI モデルをコンテナにパッケージ化していますか？代わりに Cloud Run で行う

Cloud Storage FUSE を使用して、大規模なモデルファイルをコンテナイメージから切り離します。切り離しにより、ビルド時間が短縮され、更新が簡素化されて、スケーラブルなサービングアーキテクチャが実現します。

モデルのパッケージ化 Cloud Storage FUSE ベストプラクティス大規模モデル

ユースケース

Cog を使用して機械学習モデルをパッケージ化して Google Cloud にデプロイする

ML サービング用に最適化された Cog フレームワークを使用して、コンテナの Cloud Run へのパッケージ化とデプロイを簡素化します。

Cog モデルのパッケージ化デプロイチュートリアル

ユースケース

Cloud Run を使用した ML モデルのデプロイとモニタリング - 軽量、スケーラブル、優れた費用効率

Cloud Run を使用して軽量の ML 推論を行い、Cloud Logging や BigQuery などのネイティブ GCP サービスを使用して費用対効果の高いモニタリングスタックを構築します。

モニタリング MLOps 費用対効果推論

ユースケース

Cloud Run を使用した Google Cloud の生成 AI アプリのウェブサイトへのデプロイ

Vertex AI 生成 AI API を呼び出すシンプルな Flask アプリケーションを、スケーラブルな Cloud Run サービスにデプロイします。

生成 AI Vertex AI Flask デプロイ

ユースケース

AI Studio から Cloud Run への Gemma の直接デプロイ

AI Studio の Gemma Python コードを使用して、Cloud Run インスタンスに直接デプロイし、Secret Manager を活用して API キーを安全に処理します。

AI Studio Gemma デプロイチュートリアル

関連動画

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2025-11-13 UTC。