AI & 機械学習

Vertex AI 上の Gemma 3 の発表

2025年3月21日

Ivan Nardini

Developer Relations Engineer

Erwin Huizenga

AI engineering and evangelism manager

Try Gemini 3

Our most intelligent model is now available on Vertex AI and Gemini Enterprise

Try now

※この投稿は米国時間 2025 年 3 月 13 日に、Google Cloud blog に投稿されたものの抄訳です。

このたび、新しい Gemma 3 モデルが Vertex AI Model Garden で利用可能になったことをお知らせします。これにより、すぐにアクセスしてファインチューニングやデプロイを行うことができます。Vertex AI のビルド済みコンテナとデプロイツールを使用して、Gemma 3 をユースケースに迅速に適応させることができます。

この投稿では、Vertex AI で Gemma 3 をファインチューニングし、プロダクションレディなエンドポイントとしてデプロイする方法を説明します。

Vertex AI 上の Gemma 3: PEFT と vLLM のデプロイ

大規模言語モデルのチューニングとデプロイは、コンピューティング費用が高額になり、時間がかかることがあります。このたびこの問題に対処できる、パラメータエフィシエントファインチューニング（PEFT）と、Vertex AI Model Garden の vLLM を使用した最適化されたデプロイに対する Gemma 3 のサポート開始を発表いたします。

Gemma 3 のファインチューニングでは、フルファインチューニングよりも大幅に少ないコンピューティングリソースでパフォーマンスの向上を実現できます。vLLM ベースのデプロイは使いやすく、高速です。vLLM の最適化された推論エンジンは、スループットを最大化し、レイテンシを最小限に抑え、Vertex AI 上の Gemma 3 アプリケーションにレスポンシブでスケーラブルなエンドポイントを確保します。

Vertex AI 上の Gemma 3 モデルをファインチューニングしてデプロイする方法を見てみましょう。

Vertex AI 上の Gemma 3 のファインチューニング

Vertex AI Model Garden では、Hugging Face の PEFT（LoRA）を使用して Gemma 3 をわずか数ステップでファインチューニングし、デプロイできます。ノートブックを実行する前に、ノートブックに記載されている最初の手順をすべて完了していることを確認してください。

Vertex AI 上の Gemma 3 をユースケースに合わせてファインチューニングするには、カスタムデータセットが必要です。推奨される形式は JSONL ファイルです。これは、各行が有効な JSON 文字列になっているファイルです。timdettmers/openassistant-guanaco データセットを参考にした例をご紹介します。

読み込んでいます...

JSON オブジェクトには、text というキーがあり、これは train_column と一致する必要があります。値は 1 つのトレーニングデータポイント（文字列）である必要があります。データセットは Google Cloud Storage（推奨）または Hugging Face のデータセットにアップロードできます。

ニーズに最適な Gemma 3 のバリアントを選択してください。たとえば、10 億パラメータモデルを使用するには、次のように指定します。

読み込んでいます...

モデルのパラメータとジョブの引数を柔軟にカスタマイズできます。主な設定をいくつか見てみましょう。LoRA（Low-Rank Adaptation）は、トレーニング可能なパラメータの数を大幅に削減する PEFT 手法です。LoRA の動作は、次のパラメータによって制御されます。lora_rank は更新行列の次元を制御します（ランクが小さいほどパラメータが少なくなります）。lora_alpha は LoRA の更新をスケールします。lora_dropout は正則化を追加します。次の設定が、妥当な出発点となります。

読み込んでいます...

大規模言語モデル（LLM）をファインチューニングする際、適合率はメモリ使用量とパフォーマンスの両方に影響する重要な考慮事項です。4 ビット量子化などの適合率の低いトレーニングでは、メモリ使用量が削減されます。ただし、8 ビットや float16 などの高適合率の場合と比較して、パフォーマンスが若干低下する可能性があります。train_precision パラメータは、トレーニングプロセスで使用する数値適合率を指定します。適切な適合率を選択するには、リソースの制限と望ましいモデルの精度のバランスを取る必要があります。

読み込んでいます...

モデルのパフォーマンスを最適化するには、速度、安定性、機能に影響するトレーニングパラメータをチューニングする必要があります。必須のパラメータには、GPU ごとのバッチサイズを決定する per_device_train_batch_size があります。バッチサイズを大きくするとトレーニングが加速されますが、必要なメモリが多くなります。gradient_accumulation_steps を使用すると、小さいバッチで勾配を蓄積することで、より大きなバッチサイズをシミュレーションできます。メモリ効率の高い代替手段ですが、トレーニング時間が長くなります。learning_rate は最適化のステップサイズを決定します。学習率が高すぎると発散が生じ、低すぎると収束が遅くなる可能性があります。lr_scheduler_type は、線形減衰などによって、トレーニング全体を通して学習率を動的に調整し、収束と精度を向上させます。トレーニングの合計時間は、トレーニングステップの合計数を指定する max_steps か、num_train_epochs のいずれかによって定義されます。両方が指定されている場合は、max_steps が優先されます。以下は、公式ノートブックに記載されているトレーニングレシピの全文です。

読み込んでいます...

train_job_args = [
   "--config_file=vertex_vision_model_garden_peft/deepspeed_zero2_8gpu.yaml",
   "--task=instruct-lora",
   "--input_masking=True",
   f"--pretrained_model_name_or_path={pretrained_model_id}",
   f"--train_dataset={train_dataset}",
   f"--train_split={train_split}",
   f"--train_column={train_column}",
   f"--output_dir={lora_output_dir}",
   f"--merge_base_and_lora_output_dir={merged_model_output_dir}",
   f"--per_device_train_batch_size={per_device_train_batch_size}",
   f"--gradient_accumulation_steps={gradient_accumulation_steps}",
   f"--lora_rank={lora_rank}",
   f"--lora_alpha={lora_alpha}",
   f"--lora_dropout={lora_dropout}",
   f"--max_steps={max_steps}",
   f"--max_seq_length={max_seq_length}",
   f"--learning_rate={learning_rate}",
   f"--lr_scheduler_type={lr_scheduler_type}",
   f"--precision_mode={finetuning_precision_mode}",
   f"--train_precision={train_precision}",
   f"--gradient_checkpointing={gradient_checkpointing}",
   f"--num_train_epochs={num_train_epochs}",
   f"--attn_implementation={attn_implementation}",
   f"--optimizer={optimizer}",
   f"--warmup_ratio={warmup_ratio}",
   f"--report_to={report_to}",
   f"--logging_output_dir={base_output_dir}",
   f"--save_steps={save_steps}",
   f"--logging_steps={logging_steps}",
   f"--train_template={template}",
   f"--huggingface_access_token={HF_TOKEN}",
]

最後に、CustomContainerTrainingJob を作成し、実行して、ファインチューニングジョブを開始します。

読み込んでいます...

Tensorboard を使用して、ファインチューニングの進行状況をモニタリングできます。ジョブが完了したら、チューニング済みのモデルを Vertex AI Model Registry にアップロードし、推論用のエンドポイントとしてデプロイできます。次にデプロイについて詳しく見ていきましょう。

Vertex AI への Gemma 3 のデプロイ

Vertex AI に Gemma 3 をデプロイするために必要なステップは、このノートブックで説明されている 3 つのみです。

まず、Gemma 3 モデル専用のエンドポイントをプロビジョニングする必要があります。これにより、モデルをホストするためのスケーラブルなマネージド環境が提供されます。create 関数を使用してエンドポイント名（display_name）を設定し、モデル専用のリソース（dedicated_endpoint_enabled）を確保します。

読み込んでいます...

次に、Vertex AI Model Registry 内に Gemma 3 モデルを登録します。Model Registry は、モデルを管理するための一元化されたハブのようなものと考えてください。（後で改善する場合に備えて）Gemma 3 モデルのさまざまなバージョンを追跡し、デプロイの中心となる場所です。

読み込んでいます...

vllm_serving_image_uri = "us-docker.pkg.dev/vertex-ai/vertex-vision-model-garden-dockers/pytorch-vllm-serve:20250312_0916_RC01"

env_vars = {
    "MODEL_ID": "google/gemma-3-1b-it",
    "DEPLOY_SOURCE": "notebook",
    "HF_TOKEN": "your-hf-token"
}

vllm_args = [
    "python",
    "-m",
    "vllm.entrypoints.api_server",
    "--host=0.0.0.0",
    "--port=8080",
    "--model='gs://vertex-model-garden-restricted-us/gemma3/gemma-3-1b-it'",
    "--tensor-parallel-size=1",
    "--swap-space=16",
    "--gpu-memory-utilization=0.95",
    "--max-model-len=32768",
    "--dtype="auto",
    "--max-loras=1",
    "--max-cpu-loras=8",
    "--max-num-seqs=256",
    "--disable-log-stats",
    "--trust-remote-code",
    "--enforce-eager",
    "--enable-lora",
    "--enable-chunked-prefill",
    "--enable-prefix-caching"
]

model = aiplatform.Model.upload(
    display_name="gemma-3-1b",
    serving_container_image_uri=vllm_serving_image_uri,
    serving_container_args=vllm_args,
    serving_container_ports=[8080],
    serving_container_predict_route="/generate",
    serving_container_health_route="/ping",
    serving_container_environment_variables=env_vars,
    serving_container_shared_memory_size_mb=(16 * 1024),
    serving_container_deployment_timeout=7200,
    model_garden_source_model_name="publishers/google/models/gemma3",
)

このステップでは、Gemma 3 をデプロイするためのサービングコンテナなど、いくつかの重要な構成を行います。

Vertex AI で Gemma 3 をサービングする際は、迅速かつ効率的なモデル提供のために、Vertex AI Model Garden の事前構築済みの vLLM Docker イメージを使用します。vLLM が Gemma 3 をどのようにサービングするかを設定するための vLLM レシピに含まれるものとして、--tensor-parallel-size では、追加のコンピューティングリソースが必要な場合にモデルを複数の GPU に分散させることができます。--gpu-memory-utilization は、使用する GPU メモリの量を制御します。--max-model-len は、モデルが一度に処理できるテキストの最大長を設定します。また、--enable-chunked-prefill や --enable-prefix-caching などの高度な設定を使用して、特に、長いテキストを扱う場合に、パフォーマンスを最適化することもできます。

また、Vertex AI がモデルをサービングするために必要なデプロイ構成もあります。サービングコンテナがリッスンするポート（この場合は 8080）や、予測リクエストを行うための URL パス（例: /generate）、ヘルスチェックの URL パス（例: /ping）の定義などです。これにより、Vertex AI でモデルのステータスをモニタリングできるようになります。

最後に、upload() を使用して、この構成（サービングコンテナ、モデル固有の設定、モデルの実行方法の指示）を Vertex AI Model Registry 内で管理しやすい単一のユニットにまとめます。これにより、デプロイとバージョン管理がはるかに簡単になります。

これでモデルをデプロイする準備が整いました。登録したモデルをエンドポイントにデプロイするには、以下に示すように deploy メソッドを使用します。

読み込んでいます...

ここでは、デプロイのコンピューティング能力を選択します。これには、仮想マシンのタイプ（「a3-highgpu-2g」や machine_type など）、アクセラレータの種類（例: 「NVIDIA_L4」GPU、accelerator_type）、使用するアクセラレータの数（accelerator_count）などが含まれます。

モデルのデプロイには時間がかかります。デプロイのステータスは Cloud Logging でモニタリングできます。エンドポイントを実行したら、ChatCompletion API を使用してモデルを呼び出し、以下に示すようにアプリケーションに統合できます。

読み込んでいます...

デプロイする Gemma モデルに応じて、ChatCompletion API を使用して、マルチモーダル入力（画像）でモデルを呼び出すことができます。詳細については、モデルカードのノートブックの「Deploy Gemma 3 4B, 12B and 27B multimodal models with vLLM on GPU」セクションをご覧ください。

次のステップ

Vertex AI Model Garden の Gemma 3 モデルカードにアクセスして、今すぐ使い始めましょう。モデルのアーキテクチャとパフォーマンスについて詳しくは、Gemma 3 のデベロッパーガイドをご覧ください。

-Cloud AI、AI / ML DevRel エンジニア Ivan Nardini
-Google Cloud、ML 担当エンジニア Erwin Huizenga

投稿先

AI & 機械学習

https://storage.googleapis.com/gweb-cloudblog-publish/images/0_4pNkUXx.max-700x700.jpg

Data Analytics

Data Cloud の TimesFM: BigQuery と AlloyDB における予測の未来

執筆者: Haiyang Qi • 所要時間: 6 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/Waze-Memorystore-Hero.max-700x700.png

Databases

Waze、Memorystore で 1 秒あたり 100 万件以上のリアルタイム読み取りでトラフィックの流れを維持

執筆者: Eden Levin • 所要時間: 3 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/hero_image_workman_horizontal.max-700x700.jpg

Customers

ワークマン、Gemini と Veo で EC コンテンツ制作を変革──「少数精鋭」で挑む新たな顧客体験

執筆者: Google Cloud Japan Team • 所要時間: 2 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/Gemini_3_Blog_1_1.max-700x700.jpg

AI & Machine Learning

エンタープライズ向け Gemini 3 を公開

執筆者: Saurabh Tiwary • 所要時間: 9 分

Vertex AI 上の Gemma 3 の発表

Ivan Nardini

Erwin Huizenga

Try Gemini 3

関連記事

Data Cloud の TimesFM: BigQuery と AlloyDB における予測の未来

Waze、Memorystore で 1 秒あたり 100 万件以上のリアルタイム読み取りでトラフィックの流れを維持

ワークマン、Gemini と Veo で EC コンテンツ制作を変革──「少数精鋭」で挑む新たな顧客体験

エンタープライズ向け Gemini 3 を公開