コンテンツに移動
AI & 機械学習

Google Cloud で利用できる Gemma 4 の概要: Google の最も高性能なオープンモデル

2026年4月13日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Gemma_4_Cloud_Blog_Header.max-2000x2000.png
Richard Seroter

Chief Evangelist, Google Cloud

Try Gemini Enterprise Business Edition today

The front door to AI in the workplace

Try now

※この投稿は米国時間 2026 年 4 月 3 日に、Google Cloud blog に投稿されたものの抄訳です。

今回、Google Cloud での Gemma 4 をリリースいたしました。

最新情報: これは、サイズに対して最も高性能なオープンモデル ファミリーです。Gemini 3 と同じ研究に基づいて構築され、商用利用の自由度が高い Apache 2.0 ライセンスでリリースされたこれらのモデルは、チャットの枠を超えて進化しています。最大 256K のコンテキスト ウィンドウ、ネイティブのビジョンと音声処理、140 以上の言語での流暢な対応を実現しており、特に複雑なロジック、オフラインのコード生成、エージェント ワークフローに優れたモデルとなっています。モデルについて詳しくは、こちらをご覧ください。 

ビジネスにとって重要である理由: エンタープライズ AI には、データを安全な境界内に保持しながら複雑なロジックを実行するモデルが必要です。Gemma 4 ではこれを両立できます。組織は、Sovereign Cloud ソリューションを含む厳格なコンプライアンス保証を満たすために、Google Cloud 全体でこれらのモデルをデプロイできます。これにより、デジタル主権の基盤が提供され、チームはデータ、インフラストラクチャ、モデルを完全に制御できるようになります。

Gemma 4 を使い始めるには

Vertex AIGemma 4 を独自の Vertex AI エンドポイントにデプロイします。Model Garden からモデルを選択し、アプリケーションに必要な特定のコンピューティング リソースをプロビジョニングします。このセルフデプロイ モデルでは、Google Cloud 環境内にデータを保持しながら、サービング インフラストラクチャと費用を直接管理できます。

また、 Vertex AI Training Clusters(VTC)を使用して Gemma 4 をファインチューニングすることもできます。VTC は、NVIDIA NeMo Megatron を通じて、最適化された SFT レシピと高スケールなレジリエンスを提供します。これにより、エッジタスク向けの効率的な 2B(E2B)モデルから、複雑なエンタープライズ オーケストレーション向けの 31B 高密度モデルまで、あらゆるバリアントを効率的に適応させることができます。 Vertex AI で Gemma 4 31B モデルを効率的にファインチューニングしてサービングするためのエンドツーエンド ガイドをご覧ください。

さらに、Google は、Vertex AI で利用可能な自社モデル、オープンモデル、サードパーティ モデルの厳選されたコレクションにより、お客様の選択肢を増やし、イノベーションを推進できるよう取り組んでいます。そこでこのたび、Gemma 4 26B MoE モデルが今後数日以内に Model Garden でフルマネージドのサーバーレスとして利用可能になることを発表いたします。

Agent Development Kit(ADK)ADK は、AI エージェントの開発とデプロイを目的として設計された、柔軟性の高いモジュール型オープンソース フレームワークです。Gemma 4 は、推論、関数呼び出し、コード生成、構造化出力などの高度なエージェント機能を備えています。ADK を使用すれば、Gemma 4 で完全に機能する AI エージェントを構築できます。Gemma 4 と Google ADK を使用して AI エージェントの構築を今すぐ開始しましょう。

Cloud RunNVIDIA RTX PRO 6000(Blackwell)GPU のパワーを活用して、要求の厳しい Gemma 4 推論ワークロードを Cloud Run で効率的に実行できるようになりました。96 GB の vGPU メモリにより、Gemma-4-31B-it などのモデルをサーバーレス GPU に簡単にデプロイできます。

基盤となるインフラストラクチャは Cloud Run で処理されるため、ユーザーはアプリケーションに集中できます。モデルは非アクティブ時にはゼロまでスケールダウンし、需要に応じて動的に調整されます。使用した分のみが課金対象となるため、費用が最適化されます。さらに、推論ワークロードごとに CPU とメモリの構成を柔軟に調整できます。us-central1 または europe-west4 では、予約なしでオンデマンドでご利用いただけます。今すぐお試しください

Google Kubernetes Engine(GKE)GKE は、Gemma 4 をデプロイするためのスケーラビリティとカスタマイズ性に優れた環境を提供します。これは AI インフラストラクチャをきめ細かく制御する必要があるチームに最適です。GKE で独自のインフラストラクチャを管理することで、コンピューティング リソースを柔軟に調整し、特定の GPU または TPU アクセラレータを選択し、トラフィック パターンに正確に一致するカスタムの自動スケーリング指標を実装できます。この制御レベルにより、AI ワークロードを既存のマイクロサービスとシームレスに統合しながら、組織の厳格なセキュリティとデータ コンプライアンスの要件を遵守できます。

このたび、高スループットでメモリ効率の高い LLM サービング エンジンである vLLM を使用して、GKE で Gemma 4 モデルを効率的にサービングできるようになりました。GKE を活用することで、リソース使用率と費用を最適化しながら、推論ワークロードをゼロからピーク需要までシームレスにスケールできます。使い始めるにあたって、GKE で Gemma 4 をサービングする方法に関する最新のチュートリアルをご覧ください。

将来に向けて、Gemma 4 は、Google Cloud 上で次世代のエージェント アプリケーションを強化できる独自の立場にあります。Gemma 4 のマルチステップ プランニング機能と新しい GKE Agent Sandbox を組み合わせることで、開発者は LLM で生成されたコードとツール呼び出しを、高度に分離された Kubernetes ネイティブ環境内で安全に実行できます。この環境では、1 秒未満のコールド スタートと、1 秒あたり最大 300 のサンドボックスが提供され、安全かつ効率的なマルチステップ プランニングが実現します。さらに、GKE Inference Gatewayllm-d の高度な分散推論機能(予測レイテンシ ベースのスケジューリングなど)を活用することで、これらの複雑なワークフローは、キャッシュの再利用とサーバー負荷を動的にバランスさせるインテリジェントなルーティングの恩恵を受けます。GKE Inference Gateway と予測レイテンシ ブーストを組み合わせると、ヒューリスティックな推測をリアルタイムの容量認識ルーティングに置き換えることで、最初のトークンまでの時間(TTFT)のレイテンシを最大 70% 削減できます。手動によるチューニングは必要ありません。

Google Cloud TPUGemma 4 は、GKE、GCE、Vertex AI を通じて Google Cloud 全体の TPU で利用可能になります。このたび、一般的によく使用されるさまざまなオープンソース TPU プロジェクトを使用して、Gemma-4-31B Dense と Gemma-4-26B-A4B MoE のサービング、事前トレーニング、事後トレーニングが可能になりました。

  • 事前トレーニングと事後トレーニングのテストには MaxText を活用し、事後トレーニングを実施して、テキスト分析と生成、推論、画像分析のユースケースに合わせてカスタマイズできます。

  • オンライン サービングとバッチ推論では、本番環境ワークロード対応の vLLM TPU を使用できます。これには Google の事前構築済み Docker コンテナ、クイックスタート ビジョン、テキストデモ チュートリアルが使用されます。

コミュニティから提供される SGLang-JAX チュートリアルにもご期待ください。

Sovereign CloudGemma 4 は、すべてのSovereign Cloud サービスでご利用いただけます。これには、Data Boundary を活用したパブリック クラウド、Google Cloud Dedicated(フランスの S3NS など)、エアギャップとオンプレミスのデプロイ向け Google Distributed Cloud が含まれます。この拡大は、組織がデータ、暗号化、運用環境を完全に制御できる、オープンな主権のあるデジタル世界の実現という Google のコミットメントを強化するものです。

Gemma 4 は、オープン ウェイトを提供することで、デベロッパーが機密性の高い環境向けの特別なソリューションを構築できるようにしています。企業や政府機関は、データ所在地とデータ主権に関する厳格なルールを満たしながら、地域ごとの違いやドメインの専門知識を尊重するローカライズされたサービスをデプロイできるようになりました。このアプローチにより、組織は国内および業界の要件を完全に遵守しながら、AI を活用して迅速にイノベーションを実現できます。

使ってみる 

Vertex AI から Sovereign Cloud まで、Gemma 4 を使用した構築を今すぐ始めましょう。Google Cloud で Gemma 4 を選択することで、企業や主権組織は、最高水準のセキュリティと信頼性を満たしながら最先端の機能を提供する、信頼できる透明性の高い基盤が手に入ります。

- Google Cloud、チーフ エバンジェリスト、Richard Seroter

投稿先