AI & 機械学習

生成 AI を加速: AI Hypercomputer に Llama4 と DeepSeek をデプロイする新しいレシピ

2025年6月16日

Deepak Patil

Group Product Manager, Google Cloud

※この投稿は米国時間 2025 年 6 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。

Meta の Llama4 や DeepSeek AI の DeepSeek といったモデルの登場により、オープンソース AI のイノベーションは驚異的に加速しました。しかし、大規模で強力なモデルのデプロイや最適化は複雑であり、リソースを大量に消費する場合があります。開発者や ML エンジニアは、利用可能なアクセラレータでモデルを試すための手順を明確に示した、再現性のある検証済みのレシピを必要としています。

このたび、最新の Llama4 モデルと DeepSeek モデルのサポートを強化し、これらのモデル向けに最適化された、Google の最先端の AI Hypercomputer プラットフォームを活用する新しいレシピを公開いたしました。AI Hypercomputer は、トレーニングや推論などの AI ワークロード用に連携して機能するように設計された専用のインフラストラクチャコンポーネントセットを使用して、強力な AI インフラストラクチャ基盤を構築するのに役立ちます。AI Hypercomputer は、何十億ものユーザーに AI エクスペリエンスを提供してきた Google の長年の経験から生まれたシステムレベルでのアプローチであり、専用のハードウェア、最適化されたソフトウェアとフレームワーク、柔軟性の高い消費モデルが融合しています。Google は、これらのレシピのハブとなる GitHub の AI Hypercomputer リソースリポジトリを今後も拡充していく予定です。

このブログ記事では、AI Hypercomputer で Llama4 モデルと DeepSeek モデルを利用する方法をご紹介します。

新しい Llama4 モデルのサポートを追加

Meta は最近、Llama4 のモデル群として Scout と Maverick をリリースしました。Llama 4 Scout は 170 億のアクティブパラメータと 16 のエキスパートを持つモデルで、Llama 4 Maverick は 170 億のアクティブパラメータと 128 のエキスパートを持つモデルです。これらのモデルは、混合エキスパート（MoE）アーキテクチャに基づいてイノベーションと最適化を実現し、マルチモーダル機能と長いコンテキストに対応しています。

しかし、これらのモデルのサービングには、デプロイとリソース管理の面で課題が発生することもあります。Google は、こうしたプロセスを簡素化するために、Google Cloud Trillium TPU、A3 Mega GPU、A3 Ultra GPU で Llama4 モデルをサービングするための新しいレシピを公開します。

JetStream は、XLA デバイスでの LLM 推論向けスループットとメモリ最適化の Google のエンジンで、第 6 世代の TPU である Trillium での Llama-4-Scout-17B-16E と Llama-4-Maverick-17B-128E の推論に対応しています。新しいレシピは、Trillium TPU GKE クラスタで JetStream や MaxText を使用してこれらのモデルをデプロイする手順を示します。vLLM は、LLM 用の高スループットでメモリ効率の高い推論およびサービングエンジンです。新しいレシピは、vLLM を使用して A3 Mega および A3 Ultra GPU GKE クラスタで Llama4 Scout モデルと Maverick モデルをサービングする方法を説明しています。
TPU で Maverick モデルをサービングするには、Pathways on Google Cloud を利用します。Pathways は、単一の JAX クライアントで複数の大規模な TPU スライスにまたがるワークロードをオーケストレートすることで、大規模な ML 計算を簡素化するシステムです。推論のコンテキストでは、Pathways によって、複数の TPU スライスにまたがるマルチホストサービングが可能になります。Pathways は、Gemini のような大規模モデルのトレーニングとサービング用に Google 社内で使用されています。
MaxText は、OSS モデル向けに、高パフォーマンスでスケーラビリティに優れたオープンソースの LLM リファレンス実装を提供します。ピュア Python / JAX で記述されており、トレーニングや推論の際に Google Cloud TPU と GPU をターゲットにします。MaxText には、Llama4 の Scout モデルと Maverick モデルのリファレンス実装が含まれるようになり、また、Llama4 モデルのチェックポイント変換、トレーニング、デコードを行う方法に関する情報も含まれています。

DeepSeek モデルのサポートを追加

今年初め、Deepseek は 2 つのオープンソースモデル（DeepSeek-V3、DeepSeek-R1）を相次いでリリースしました。V3 モデルは、MoE ベースのアーキテクチャに基づき、モデルのイノベーションと最適化を実現します。R1 モデルは、Chain-of-Thought 思考プロセスを通じて推論機能を提供します。

Google は、デプロイとリソース管理を簡素化するために、Google Cloud Trillium TPU、A3 Mega GPU、A3 Ultra GPU で DeepSeek モデルをサービングするための新しいレシピを公開いたします。

JetStream は現在、Trillium での DeepSeek-R1-Distill-Llama70B の推論に対応しています。新しいレシピは、Trillium TPU VM で JetStream と MaxText を使用して DeepSeek-R1-Distill-Llama-70B をデプロイする手順を示しています。Google Cloud TPU を使用できるようになったことにより、vLLM ユーザーはいくつかの構成変更を行うだけで TPU のパフォーマンスと費用のメリットを活用できます。現在、TPU での vLLM は、Trillium ですべての DeepSeek R1 Distilled モデルに対応しています。高スループットの推論エンジンである vLLM を使用して、Trillium TPU で DeepSeek の Llama 蒸留モデルをサービングする方法は、こちらのレシピで紹介しています。
8 個の NVIDIA H200 GPU を搭載した A3 Ultra VM では、SGLang 推論スタックを使用して DeepSeek モデルをデプロイすることもできます。詳しくは、こちらのレシピをご覧ください。 SGLang を使用する A3 Mega VM のレシピも利用可能です。このレシピでは、2 つの A3 Mega ノードを使用してマルチホスト推論をデプロイする方法を紹介しています。vLLM 推論エンジンを使用する Cloud GPU ユーザーは、A3 Mega VM（レシピ）および A3 Ultra VM（レシピ）に DeepSeek モデルをデプロイすることもできます。
MaxText は、DeepSeek のアーキテクチャのイノベーションにも対応するようになりました。これには、MLA（Multi-Head Latent Attention）、ロスフリーロードバランシングを使用した MoE Shared / Routed Experts、ドロップレスなエキスパート並列処理のサポート、混合デコーダレイヤ（Dense、MoE）、YARN RoPE エンベディングなどが含まれます。DeepSeek ファミリーモデルのリファレンス実装を使用すると、これらの新しいアーキテクチャの拡張機能の一部を組み込んで、モデルを迅速にテストできます。

レシピの例

これらのレシピは、新しい Llama4 モデルと DeepSeek モデルを使用して推論をデプロイし、ベンチマークを行う手順を示しており、再現性があります。たとえば、この TPU レシピは、Trillium TPU を使用して JetStream MaxText Engine で Llama-4-Scout-17B-16E モデルをデプロイする手順を示しています。TPU クラスタのプロビジョニング、モデルの重みのダウンロード、JetStream と MaxText の設定の手順を紹介した後、チェックポイントを MaxText 対応の形式に変換し、JetStream サーバーにデプロイして、ベンチマークを実行する方法について説明しています。

レシピの主な内容:

前提条件が満たされていることを確認する
開発環境を設定する
Trillium TPU と CPU ノードプールを使用して GKE クラスタをプロビジョニングする
依存関係を含むコンテナイメージを作成する
チェックポイントを変換する

HuggingFace からモデルの重みをダウンロードする
チェックポイントを Hugging Face 形式から JAX Orbax 形式に変換する
高パフォーマンスのサービングのためにチェックポイントのスキャンを解除する

JetStream と Pathways をデプロイする（マルチホストサービング用）
MMLU ベンチマークを実行する

以下の構成で JetStream Engine を使用して Llama4 サーバーを起動します。

lang-py

読み込んでいます...

このサーバーでさまざまなベンチマークを実行します。たとえば、MMLU を実行するには、以下のような JetStream ベンチマークスクリプトを使用します。

lang-py

読み込んでいます...

Google と共同で開発

Llama4 の Scout モデルおよび Maverick モデル、DeepSeekV3 / R1 モデルは、AI Hypercomputer GitHub リポジトリから推論レシピを使用して、今すぐデプロイできます。これらのレシピは、Google Cloud で Llama4 モデルをデプロイおよびテストするための出発点となります。以下のレシピとリソースをご確認ください。今後のアップデートにもご期待ください。ぜひお試しいただき、フィードバックをお寄せください。

DeepSeek や Llama などのオープンモデルのデプロイに関して、そのセキュリティと法令遵守はお客様の責任となります。お客様は、責任ある AI のベストプラクティスに従い、モデル固有のライセンス条項を遵守し、デプロイが安全で、お住まいの地域のすべての規制を遵守していることを確認する必要があります。

モデル	アクセラレータ	フレームワーク	推論レシピのリンク
Llama-4-Scout-17B-16E	Trillium（TPU v6e）	JetStream Maxtext	レシピ
Llama-4-Maverick-17B-128E	Trillium（TPU v6e）	JetStream Maxtext + Pathways on Cloud	レシピ
Llama-4-Scout-17B-16E Llama-4-Scout-17B-16E-Instruct Llama-4-Maverick-17B-128E Llama-4-Maverick-17B-128E-Instruct	A3 Ultra（8xH200）	vLLM	レシピ
	A3 Mega（8xH100）	vLLM	レシピ

モデル	アクセラレータ	フレームワーク	推論レシピのリンク
DeepSeek-R1-Distill-Llama-70B	Trillium（TPU v6e）	JetStream Maxtext	TPU-VM レシピ GKE + TPU レシピ
DeepSeek-R1-Distill-Llama-70B	Trillium（TPU v6e）	vLLM	レシピ
DeepSeek R1 671B	A3 Ultra（8xH200）	vLLM	レシピ
DeepSeek R1 671B	A3 Ultra（8xH200）	SGLang	レシピ
DeepSeek R1 671B	A3 Mega（16xH100）	vLLM	レシピ
DeepSeek R1 671B	A3 Mega（16xH100）	SGLang	レシピ

ーグループプロダクトマネージャー、Deepak Patil

投稿先

https://storage.googleapis.com/gweb-cloudblog-publish/images/hero_image_trustbank_horizontal_1.max-700x700.jpg

Customers

トラストバンク: BigQuery と Looker によるデータドリブン戦略の推進で、「ふるさとチョイス」の運用効率化と各自治体や寄付者へのさらなる価値提供を実現

執筆者: Google Cloud Japan Team • 所要時間: 3 分

Data Analytics

Dataproc ML ライブラリを使用して Spark データパイプラインを Gemini やその他の AI モデルに接続

執筆者: Brad Miro • 所要時間: 2 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/generative_media_momentum.max-700x700.jpg

AI & Machine Learning

Google Cloud の生成メディアモデルの勢いを活かす

執筆者: Michael Gerstenhaber • 所要時間: 3 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/1-2-Hero.max-700x700.png

Data Analytics

データとの対話と予測生成を効率化する BigQuery の新しい MCP＆ADK ツール

執筆者: Ganesh Kumar Gella • 所要時間: 2 分