Google Cloud での Gemma 3 の実践

Olivier Bourgeois
Developer Relations Engineer
※この投稿は米国時間 2025 年 11 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。
生成 AI の状況は日々変化しています。独自の API は強力ですが、アーキテクチャと重み付けが一般公開されているオープンモデルに対する需要が高まっています。この変化により、再び制御が開発者の手に戻り、透明性とデータ プライバシーがもたらされるとともに、特定のユースケースに合わせた微調整が可能になります。
こうした状況を把握していただくため、Google は、軽量かつ最先端のオープンモデルの最新ファミリー、Gemma 3 に関する 2 つの新しいハンズオンラボをリリースします。
Gemma を選ぶ理由
Gemini と同じ研究とテクノロジーに基づいて構築された Gemma モデルは、責任ある AI 開発を目的として設計されています。Gemma 3 が特に期待されるのは、マルチモーダル機能(テキストと画像)を備え、小さなハードウェア フットプリントに効率的に適合しながら、優れたパフォーマンスを発揮できるためです。
しかし、ノートパソコンでモデルを実行するのと、本番環境で実行するのとは大きく異なります。スケーリング、信頼性、ハードウェア アクセラレーション(GPU)が必要です。問題は、どこにデプロイするべきかということです。
インフラストラクチャのニーズに応じて、Cloud Run と Google Kubernetes Engine(GKE)の 2 つの異なるパスをご用意しました。
パス 1: サーバーレス アプローチ(Cloud Run)
最適な対象: インフラストラクチャを管理することなく API を即座に稼働させたいデベロッパー。使用しないときはゼロにスケールダウンできます。
ステートレス ワークロードのシンプルさと費用対効果を重視する場合は、Cloud Run が最適な選択肢です。サーバー管理は一切不要になります。Cloud Run で GPU のサポートが追加されたことで、クラスタをプロビジョニングせずに最新の LLM をサービングできるようになりました。
パス 2: プラットフォーム アプローチ(GKE)
最適な用途: 高スループット、カスタム オーケストレーション、またはより広範なマイクロサービス エコシステムとの統合を必要とする複雑な AI プラットフォームを構築するエンジニアリング チーム向け。
アプリケーションがプロトタイプから高トラフィックの本番環境システムに移行すると、Kubernetes の制御が必要になります。GKE Autopilot では、その制御が可能になるとともに、手間のかかるノード管理も処理できます。このパスは、ローカルテスト環境からクラウド本番環境までシームレスな移行を実現します。
どちらのパスを選ぶか?
Cloud Run のサーバーレスのシンプルさを求める場合でも、GKE の堅牢なオーケストレーションを求める場合でも、Google Cloud には Gemma 3 をコンセプトからデプロイされたアプリケーションに移行するためのツールが揃っています。
今すぐラボを試して、構築を始めましょう。
ハッシュタグ #ProductionReadyAI で成果を共有し、仲間とつながりましょう。ご利用をお待ちしております。
ご紹介したラボは、Google の公式プログラムである「Google Cloud でプロダクション レディ AI を構築する」のオープンモデルモジュールの一部です。有望なプロトタイプから本番環境向けの AI アプリケーションへの移行に役立つコンテンツについては、カリキュラム全体をご覧ください。
-デベロッパーリレーションズ エンジニア Olivier Bourgeois



