コンテンツに移動
AI & 機械学習

生成 AI を加速: AI Hypercomputer に Llama4 と DeepSeek をデプロイする新しいレシピ

2025年6月16日
Deepak Patil

Group Product Manager

※この投稿は米国時間 2025 年 6 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。

Meta の Llama4 や DeepSeek AI の DeepSeek といったモデルの登場により、オープンソース AI のイノベーションは驚異的に加速しました。しかし、大規模で強力なモデルのデプロイや最適化は複雑であり、リソースを大量に消費する場合があります。開発者や ML エンジニアは、利用可能なアクセラレータでモデルを試すための手順を明確に示した、再現性のある検証済みのレシピを必要としています。

このたび、最新の Llama4 モデルと DeepSeek モデルのサポートを強化し、これらのモデル向けに最適化された、Google の最先端の AI Hypercomputer プラットフォームを活用する新しいレシピを公開いたしました。AI Hypercomputer は、トレーニングや推論などの AI ワークロード用に連携して機能するように設計された専用のインフラストラクチャ コンポーネント セットを使用して、強力な AI インフラストラクチャ基盤を構築するのに役立ちます。AI Hypercomputer は、何十億ものユーザーに AI エクスペリエンスを提供してきた Google の長年の経験から生まれたシステムレベルでのアプローチであり、専用のハードウェア、最適化されたソフトウェアとフレームワーク、柔軟性の高い消費モデルが融合しています。Google は、これらのレシピのハブとなる GitHub の AI Hypercomputer リソースリポジトリを今後も拡充していく予定です。

このブログ記事では、AI Hypercomputer で Llama4 モデルと DeepSeek モデルを利用する方法をご紹介します。

新しい Llama4 モデルのサポートを追加

Meta は最近、Llama4 のモデル群として Scout と Maverick をリリースしました。Llama 4 Scout は 170 億のアクティブ パラメータと 16 のエキスパートを持つモデルで、Llama 4 Maverick は 170 億のアクティブ パラメータと 128 のエキスパートを持つモデルです。これらのモデルは、混合エキスパート(MoE)アーキテクチャに基づいてイノベーションと最適化を実現し、マルチモーダル機能と長いコンテキストに対応しています。

しかし、これらのモデルのサービングには、デプロイとリソース管理の面で課題が発生することもあります。Google は、こうしたプロセスを簡素化するために、Google Cloud Trillium TPU、A3 Mega GPU、A3 Ultra GPU で Llama4 モデルをサービングするための新しいレシピを公開します。

  • JetStream は、XLA デバイスでの LLM 推論向けスループットとメモリ最適化の Google のエンジンで、第 6 世代の TPU である Trillium での Llama-4-Scout-17B-16E と Llama-4-Maverick-17B-128E の推論に対応しています。新しいレシピは、Trillium TPU GKE クラスタで JetStream や MaxText を使用してこれらのモデルをデプロイする手順を示します。vLLM は、LLM 用の高スループットでメモリ効率の高い推論およびサービング エンジンです。新しいレシピは、vLLM を使用して A3 Mega および A3 Ultra GPU GKE クラスタで Llama4 Scout モデルと Maverick モデルをサービングする方法を説明しています。

  • TPU で Maverick モデルをサービングするには、Pathways on Google Cloud を利用します。Pathways は、単一の JAX クライアントで複数の大規模な TPU スライスにまたがるワークロードをオーケストレートすることで、大規模な ML 計算を簡素化するシステムです。推論のコンテキストでは、Pathways によって、複数の TPU スライスにまたがるマルチホスト サービングが可能になります。Pathways は、Gemini のような大規模モデルのトレーニングとサービング用に Google 社内で使用されています。

  • MaxText は、OSS モデル向けに、高パフォーマンスでスケーラビリティに優れたオープンソースの LLM リファレンス実装を提供します。ピュア Python / JAX で記述されており、トレーニングや推論の際に Google Cloud TPU と GPU をターゲットにします。MaxText には、Llama4 の Scout モデルと Maverick モデルのリファレンス実装が含まれるようになり、また、Llama4 モデルのチェックポイント変換、トレーニング、デコードを行う方法に関する情報も含まれています。

DeepSeek モデルのサポートを追加

今年初め、Deepseek は 2 つのオープンソース モデル(DeepSeek-V3DeepSeek-R1)を相次いでリリースしました。V3 モデルは、MoE ベースのアーキテクチャに基づき、モデルのイノベーションと最適化を実現します。R1 モデルは、Chain-of-Thought 思考プロセスを通じて推論機能を提供します。

Google は、デプロイとリソース管理を簡素化するために、Google Cloud Trillium TPU、A3 Mega GPU、A3 Ultra GPU で DeepSeek モデルをサービングするための新しいレシピを公開いたします。

  • JetStream は現在、Trillium での DeepSeek-R1-Distill-Llama70B の推論に対応しています。新しいレシピは、Trillium TPU VM で JetStream と MaxText を使用して DeepSeek-R1-Distill-Llama-70B をデプロイする手順を示しています。Google Cloud TPU を使用できるようになったことにより、vLLM ユーザーはいくつかの構成変更を行うだけで TPU のパフォーマンスと費用のメリットを活用できます。現在、TPU での vLLM は、Trillium ですべての DeepSeek R1 Distilled モデルに対応しています。高スループットの推論エンジンである vLLM を使用して、Trillium TPU で DeepSeek の Llama 蒸留モデルをサービングする方法は、こちらのレシピで紹介しています。

  • 8 個の NVIDIA H200 GPU を搭載した A3 Ultra VM では、SGLang 推論スタックを使用して DeepSeek モデルをデプロイすることもできます。詳しくは、こちらのレシピをご覧ください。 SGLang を使用する A3 Mega VM のレシピも利用可能です。このレシピでは、2 つの A3 Mega ノードを使用してマルチホスト推論をデプロイする方法を紹介しています。vLLM 推論エンジンを使用する Cloud GPU ユーザーは、A3 Mega VM(レシピ)および A3 Ultra VM(レシピ)に DeepSeek モデルをデプロイすることもできます。

  • MaxText は、DeepSeek のアーキテクチャのイノベーションにも対応するようになりました。これには、MLA(Multi-Head Latent Attention)、ロスフリー ロード バランシングを使用した MoE Shared / Routed Experts、ドロップレスなエキスパート並列処理のサポート、混合デコーダレイヤ(Dense、MoE)、YARN RoPE エンベディングなどが含まれます。DeepSeek ファミリー モデルのリファレンス実装を使用すると、これらの新しいアーキテクチャの拡張機能の一部を組み込んで、モデルを迅速にテストできます。

レシピの例

これらのレシピは、新しい Llama4 モデルと DeepSeek モデルを使用して推論をデプロイし、ベンチマークを行う手順を示しており、再現性があります。たとえば、この TPU レシピは、Trillium TPU を使用して JetStream MaxText Engine で Llama-4-Scout-17B-16E モデルをデプロイする手順を示しています。TPU クラスタのプロビジョニング、モデルの重みのダウンロード、JetStream と MaxText の設定の手順を紹介した後、チェックポイントを MaxText 対応の形式に変換し、JetStream サーバーにデプロイして、ベンチマークを実行する方法について説明しています。

レシピの主な内容: 

  1. 前提条件が満たされていることを確認する

  2. 開発環境を設定する

  3. Trillium TPU と CPU ノードプールを使用して GKE クラスタをプロビジョニングする

  4. 依存関係を含むコンテナ イメージを作成する

  5. チェックポイントを変換する

    • HuggingFace からモデルの重みをダウンロードする

    • チェックポイントを Hugging Face 形式から JAX Orbax 形式に変換する

    • 高パフォーマンスのサービングのためにチェックポイントのスキャンを解除する

  6. JetStream と Pathways をデプロイする(マルチホスト サービング用)

  7. MMLU ベンチマークを実行する

以下の構成で JetStream Engine を使用して Llama4 サーバーを起動します。

lang-py
読み込んでいます...

このサーバーでさまざまなベンチマークを実行します。たとえば、MMLU を実行するには、以下のような JetStream ベンチマーク スクリプトを使用します。

lang-py
読み込んでいます...

Google と共同で開発

Llama4 の Scout モデルおよび Maverick モデル、DeepSeekV3 / R1 モデルは、AI Hypercomputer GitHub リポジトリから推論レシピを使用して、今すぐデプロイできます。これらのレシピは、Google Cloud で Llama4 モデルをデプロイおよびテストするための出発点となります。以下のレシピとリソースをご確認ください。今後のアップデートにもご期待ください。ぜひお試しいただき、フィードバックをお寄せください。

DeepSeek や Llama などのオープンモデルのデプロイに関して、そのセキュリティと法令遵守はお客様の責任となります。お客様は、責任ある AI のベスト プラクティスに従い、モデル固有のライセンス条項を遵守し、デプロイが安全で、お住まいの地域のすべての規制を遵守していることを確認する必要があります。

モデル

アクセラレータ

フレームワーク

推論レシピのリンク

Llama-4-Scout-17B-16E

Trillium(TPU v6e)

JetStream Maxtext

レシピ

Llama-4-Maverick-17B-128E

Trillium(TPU v6e)

JetStream Maxtext + Pathways on Cloud

レシピ

Llama-4-Scout-17B-16E

Llama-4-Scout-17B-16E-Instruct

Llama-4-Maverick-17B-128E

Llama-4-Maverick-17B-128E-Instruct

A3 Ultra(8xH200)

vLLM

レシピ

A3 Mega(8xH100)

vLLM

レシピ

 

モデル

アクセラレータ

フレームワーク

推論レシピのリンク

DeepSeek-R1-Distill-Llama-70B

Trillium(TPU v6e)

JetStream Maxtext

TPU-VM レシピGKE + TPU レシピ

DeepSeek-R1-Distill-Llama-70B

Trillium(TPU v6e)

vLLM

レシピ

DeepSeek R1 671B

A3 Ultra(8xH200)

vLLM

レシピ

DeepSeek R1 671B

A3 Ultra(8xH200)

SGLang

レシピ

DeepSeek R1 671B

A3 Mega(16xH100)

vLLM

レシピ

DeepSeek R1 671B

A3 Mega(16xH100)

SGLang

レシピ

ー グループ プロダクト マネージャー、Deepak Patil

投稿先