Cloud Run で GPU の一般提供を開始: AI ワークロードの実行が誰にとっても簡単に

Steren Giannini
Director, Product Management
Yunong Xiao
Director of Engineering, Google Cloud
※この投稿は米国時間 2025 年 6 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud のサーバーレス ランタイムである Cloud Run は、そのシンプルさ、柔軟性、スケーラビリティから、デベロッパーに人気を博しています。このたび、Cloud Run での NVIDIA GPU のサポートが一般提供となり、さまざまなユースケースに対応するパワフルなランタイムを非常にコスト効率の高い形で提供できることになりました。
今後は、GPU と CPU の両方で次のメリットを享受できます。
-
秒単位の課金: 使用した GPU リソースに対してのみ、秒単位で課金されます。
-
ゼロへのスケーリング: Cloud Run は、リクエストが届かない間は GPU インスタンスを自動的にゼロにスケールダウンすることで、アイドル状態の費用を排除します。散発的または予測不可能なワークロードには朗報です。
-
迅速な起動とスケーリング: GPU とドライバをインストールしたインスタンスが 5 秒以内にゼロから起動するため、アプリケーションは非常に迅速に需要に対応できます。たとえば、ゼロからスケール(コールド スタート)した場合、最初のトークンまでの時間が gemma3:4b モデルで約 19 秒という驚異的な数値を達成しました(これには、起動時間、モデルの読み込み時間、推論の実行時間が含まれます)。
-
完全なストリーミングのサポート: HTTP と WebSocket ストリーミングのサポートがすぐに使える状態で組み込まれているため、真にインタラクティブなアプリケーションを構築して、LLM の回答が生成されたらすぐにユーザーに提供できます。
Cloud Run での GPU のサポートは重要なマイルストーンであり、GPU で高速化されたアプリケーションをこれまで以上にシンプル、高速、費用対効果の高いものにする取り組みにおける Google のリーダー的地位を実証しています。
「サーバーレス GPU アクセラレーションは、最先端の AI コンピューティングをより利用しやすくするための大きな進歩です。NVIDIA L4 GPU へのシームレスなアクセスにより、デベロッパーはこれまで以上に費用対効果の高い方法で迅速に AI アプリケーションを本番環境に展開できるようになりました。」- NVIDIA、アクセラレーテッド コンピューティング プロダクト担当ディレクター Dave Salvator 氏
誰もが利用できる AI 推論
この一般提供版リリースで最も注目すべき点は、Cloud Run の GPU として NVIDIA L4 GPU が誰でも利用できるようになったことです。割り当てリクエストは不要であるため、導入への大きなハードルが解消され、Cloud Run サービスで GPU アクセラレーションをすぐに活用できます。Cloud Run コマンドラインから --gpu 1 を使用するか、コンソールで [GPU] チェックボックスをオンにするだけで、割り当てをリクエストする必要はありません。


プロダクション レディ
一般提供が開始されたことにより、Cloud Run での GPU のサポートは、Cloud Run のサービスレベル契約(SLA)の対象となり、信頼性と稼働時間が保証されるようになりました。Cloud Run はデフォルトでゾーン冗長性を提供しており、ゾーン停止に耐えるために十分な容量をサービスに確保できます。これは、Cloud Run で GPU を使用した場合にも適用されます。また、ゾーン冗長性をオフにして、ゾーン停止が発生した場合に GPU ワークロードのベスト エフォート フェイルオーバーを行うことにすれば、料金を低く抑えられるメリットがあります。
マルチリージョン GPU
グローバルなアプリケーションをサポートするため、Cloud Run の GPU は 5 つの Google Cloud リージョン(us-central1(米国アイオワ)、europe-west1(ベルギー)、europe-west4(オランダ)、asia-southeast1(シンガポール)、asia-south1(インド、ムンバイ))で利用可能で、今後さらに拡大する予定です。
また、Cloud Run は複数のリージョンにわたるサービスのデプロイを簡素化しています。たとえば、1 つのコマンドで米国、ヨーロッパ、アジアにサービスをデプロイし、低レイテンシと高い可用性をグローバル ユーザーに提供できます。例として、オープンモデルを実行する最も簡単な方法の一つである Ollama を、3 つのリージョンにわたって Cloud Run にデプロイする方法を以下に示します。
実際の動作を確認する: 4 分で NVIDIA GPU を 0 個から 100 個へ
GPU を使用した Cloud Run の驚異的なスケーラビリティを、Google Cloud Next 25 のこちらのライブデモで実際に確認できます。わずか 4 分で GPU を 0 個から 100 個までスケールする様子を紹介しています。


Cloud Run の GPU で実行されている Stable Diffusion サービスの負荷テスト。4 分間で GPU インスタンス 100 個に到達している。
Cloud Run ジョブで NVIDIA GPU を使用して新たなユースケースを実現
Cloud Run での GPU の使用がメリットとなるのは、リクエスト ドリブン型の Cloud Run サービスを使用するリアルタイム推論だけではありません。Cloud Run ジョブでも GPU が利用可能になったため、特にバッチ処理や非同期タスクの新しいユースケースが実現します。
-
モデルのファインチューニング: 基盤となるインフラストラクチャを管理することなく、事前トレーニング済みモデルを特定のデータセットで簡単にファインチューニングできます。GPU を活用したジョブをスピンアップし、データを処理し、完了したらゼロまでスケールダウンできます。
-
AI 推論のバッチ処理: 大規模なバッチ推論タスクを効率的に実行できます。画像の分析、自然言語の処理、推奨事項の生成など、GPU を使用した Cloud Run ジョブは、さまざまな負荷に対応できます。
-
メディアのバッチ処理: 動画のコード変換、サムネイルの生成、複雑な画像操作を大規模に行うことができます。
Cloud Run ジョブの GPU の限定公開プレビュー版にご登録ください。
Cloud Run のお客様の声
Google の説明だけでなく、Cloud Run の GPU を早期に導入したお客様の声もご紹介します。
「Cloud Run は、vivo が AI アプリケーションのイテレーションを迅速に行うのに役立ち、運用とメンテナンスの費用を大幅に削減します。自動スケーリングが可能な GPU サービスは、AI の海外展開の効率も大幅に向上させます。」- vivo、AI アーキテクト Guangchao Li 氏
「L4 GPU は、リーズナブルな費用で非常に優れたパフォーマンスを提供します。高速な自動スケーリングと組み合わせることで、費用を最適化し、85% の費用削減を実現できました。Cloud Run で GPU が利用できるようになったことを非常に嬉しく思っています。」- Wayfair、シニア ソフトウェア エンジニア John Gill 氏(Next '25 にて)
「Midjourney では、Cloud Run の GPU が当社の画像処理タスクに非常に有用であることがわかりました。Cloud Run は開発者エクスペリエンスがシンプルであるため、インフラストラクチャの管理に時間を取られることなく、イノベーションに集中できます。また、Cloud Run の GPU のスケーラビリティにより、数百万もの画像を簡単に分析、処理できます。」- Midjourney、データチーム リーダー Sam Schickler 氏
使ってみる
Cloud Run の GPU は、次世代のアプリケーションを強化する準備が整っています。ドキュメント、クイックスタート、モデル読み込みの最適化に関するベスト プラクティスをご覧ください。皆様が構築されるアプリケーションを楽しみにしております。
-プロダクト マネジメント担当ディレクター、Steren Giannini
-エンジニアリング担当ディレクター、Yunong Xiao