Cloud Run で Gemma 3 を使用してサーバーレス AI をデプロイする方法
James Ma
Sr Product Manager
Vlad Kolesnikov
Developer Relations Engineer
※この投稿は米国時間 2025 年 3 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。
このたび、Gemini 2.0 の基盤となる最先端テクノロジーで構築された軽量のオープンモデル ファミリー、Gemma 3 が導入されました。Gemma 3 ファミリーのモデルは速度とポータビリティを重視して設計されており、高度な AI アプリケーションを大規模に構築することが可能になります。Cloud Run と組み合わせると、AI モデルを使用したサーバーレス ワークロードをこれまで以上に簡単にデプロイできます。
この投稿では、Gemma 3 の機能と、Cloud Run で Gemma 3 を実行する方法について説明します。
Gemma 3: クラウド デプロイのためのパフォーマンスと効率
Gemma 3 は、優れたパフォーマンスを実現しながらメモリ使用量を低く抑えるように設計されており、費用対効果の高い推論ワークロードに最適です。
-
世界最高水準のシングル アクセラレータ モデルで構築: Gemma 3 は、LMArena のリーダーボードでの暫定的な人間の嗜好評価において、Llama-405B、DeepSeek-V3、o3-mini を上回る性能を発揮しており、サイズに対して最適なパフォーマンスを実現しています。これにより、単一の GPU または TPU に収まる魅力的なユーザー エクスペリエンスを作成できます。
-
高度なテキストおよび視覚的推論機能を持つ AI を作成: 画像、テキスト、短い動画を分析するアプリケーションを簡単に構築し、インタラクティブなアプリケーションの可能性を広げることができます。
- 大きなコンテキスト ウィンドウで複雑なタスクを処理: Gemma 3 は 128,000 トークンのコンテキスト ウィンドウを備えているため、アプリケーションは膨大な量の情報を処理して理解できます。小説全体を処理することも可能で、より高度な AI 機能を実現します。
Gemma 3 と Cloud Run を使用したサーバーレス推論
Gemma 3 は、Nvidia L4 GPU を使用した Cloud Run での推論ワークロードに最適です。Cloud Run は Google Cloud のフルマネージド サーバーレス プラットフォームであり、デベロッパーは基盤となるインフラストラクチャを気にすることなくコンテナ ランタイムを活用できます。モデルは非アクティブ時にはゼロまでスケールダウンし、需要に応じて動的にスケールします。これにより、費用とパフォーマンスが最適化されるだけでなく、使用した分のみが課金対象になります。
たとえば、LLM を 1 つの Cloud Run サービス上にホストし、チャット エージェントを別のサービス上にホストすることで、それぞれを独立してスケールおよび管理できるようになります。さらに、GPU アクセラレーションを活用すれば、Cloud Run サービスは 30 秒以内に最初の AI 推論結果を提供でき、インスタンスの起動にかかる時間はわずか 5 秒です。この迅速なデプロイにより、アプリケーションは応答性の高いユーザー エクスペリエンスを提供できます。また、Cloud Run の GPU の料金も 1 時間あたり約 0.6 ドルに引き下げられています。もちろん、サービスがリクエストを受信しなければ、料金はゼロになります。
使ってみる
Cloud Run と Gemma 3 を組み合わせることで、高度な AI アプリケーションをデプロイするための、費用対効果が高く、スケーラブルで強力なソリューションを構築できます。Gemma 3 は、Hugging Face Transformers、Ollama、vLLM などのさまざまなツールとフレームワークでサポートされています。
使用を開始するには、こちらのガイドをご覧ください。Ollama を使用して Cloud Run 上の Gemma 3 でサービスを構築する方法が紹介されています。
-シニア プロダクト マネージャー James Ma
-デベロッパーリレーションズ エンジニア Vlad Kolesnikov