オープンモデルを発見して Vertex AI のプロダクション レディのエンドポイントに移行するためのガイド
Erwin Huizenga
AI engineering and evangelism manager
Julie Zhu
Startup Customer Engineer
※この投稿は米国時間 2025 年 7 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。
生成 AI を使用して構築するデベロッパーは、その能力と柔軟性からオープンモデルにますます魅力を感じています。しかし、オープンモデルをカスタマイズしてデプロイする際に、大きな問題に直面する場合があります。複雑な依存関係の処理、インフラストラクチャの管理、高価な GPU アクセスの確保に苦労することがよくあります。
複雑さにより、ビジネスが失速してはなりません。
このガイドでは、Vertex AI 上でオープンモデルを発見して、プロダクション レディのエンドポイントに移行するまでのエンドツーエンドのライフサイクルを説明します。
このブログ投稿では、例として Qwen3 のファインチューニングとデプロイを取り上げ、手間のかかる作業を処理し、イノベーションに集中できるようにする方法を紹介します。
パート 1: 適切なベースモデルをすばやく選択する
プロジェクトにオープンモデルを使用することに決めたら、モデル、ハードウェア、実行するサービング フレームワークを決定する必要があります。オープンモデルの世界は多岐にわたり、「従来の方法」で適切なモデルを見つけるには時間がかかります。1 回のテストを実行するだけで、環境の設定、重みのダウンロード、requirements.txt ファイルの処理に何日も費やしてしまう可能性があります。
これは、プロジェクトが停滞するよくある原因です。しかし、Vertex AI を使用すれば、Vertex AI Model Garden というより良い環境で始めることができます。これは、最先端のオープンモデルの発見、ファインチューニング、デプロイを簡素化するキュレートされたハブです。Gemma、Qwen、DeepSeek、Llama などの人気モデルを含む 200 以上の検証済みオプション(今後も増加予定)が用意されています。包括的なモデルカードには、最適なパフォーマンスを実現するための推奨ハードウェア(GPU の種類やサイズなど)の詳細を含む重要な情報が記載されています。さらに、Vertex AI には、最新の Google Cloud アクセラレータの専用オンデマンド容量のデフォルトの割り当てが設定されているため、簡単に使い始められます。


Vertex AI Model Garden の Qwen 3 モデルカード
重要な点として、Vertex AI はこれらのモデルとそのコンテナに対してセキュリティ スキャンを実施します。これにより、信頼性が高まり、潜在的な脆弱性を最初から軽減できます。ユースケースに適したモデル(Qwen3 など)を見つけたら、Model Garden でワンクリック デプロイ オプションまたは事前構成済みのノートブック(コード)を利用できます。これにより、Vertex AI Inference サービスを使用してモデルをエンドポイントとして簡単にデプロイし、アプリケーションに統合できます。


Model Garden からの Qwen3 のデプロイ オプション
さらに、Model Garden では、パフォーマンスの高いモデルのサービング専用に設計された、最適化されたサービング コンテナ(多くの場合、vLLM、SGLang、または高スループット推論用の Hex-LLM を活用)が提供されます。モデルをデプロイ(試験運用エンドポイントまたはノートブック経由)したら、テストを開始して、ユースケースのベースラインを確立できます。このベースラインは、後でファインチューニングしたモデルのベンチマークを行うために使用します。


モデル推論フレームワークのオプション


エンドポイントでの Qwen3 の迅速なデプロイ
プロセスの早い段階で評価を取り入れることが重要です。Vertex AI の Gen AI Evaluation Service を利用して、独自のデータと基準に基づいてモデルを評価したり、オープンソース フレームワークを統合したりできます。この重要な初期検証により、適切なベースモデルを自信を持って選択できます。
このテストと調査のフェーズを終える頃には、モデルの発見から初期評価までを効率的に進め、次のステップの準備が整っているはずです。
パート 2: データを使用してパラメータ エフィシエント ファインチューニング(PEFT)を開始する
ここでは、ベースモデルとして Qwen3 が見つかりました。魔法を実現するために、特定のデータでファインチューニングして、自分だけのものにしましょう。ここで、モデルに独自の個性を与えたり、専門的なスキルを教えたり、ドメインに適応させたりできます。
ステップ 1: データを準備する
まず、データを準備します。データの読み取りはボトルネックになることが多いですが、Vertex AI では簡単です。データセットを Google Cloud Storage(GCS)と BigQuery(BQ)からシームレスに直接取り込むことができます。より複雑なデータ クリーニングと準備のタスクについては、自動化された Vertex AI Pipeline を構築して、前処理作業をオーケストレートできます。
ステップ 2: ノートブックでハンズオン チューニングを行う
Qwen3 モデルのファインチューニングを開始します。Qwen3 の場合、Model Garden には、ファインチューニング用の一般的なフレームワークである Axolotl を使用する事前構成済みのノートブックが用意されています。このノートブックには、次のような手法の最適化された設定がすでに含まれています。
- QLoRA: メモリ効率の高いチューニング手法で、大規模な GPU を必要とせずにテストを実行するのに最適です。
- FSDP(完全にシャーディングされたデータ並列処理): 大規模なトレーニングのために、大規模なモデルを複数の GPU に分散する手法です。
Qwen3 のファインチューニング プロセスは、ノートブック内で直接実行できます。これは、ファインチューニング ジョブに適した構成を見つけるための迅速なテストに最適な「ラボ環境」です。
ステップ 3: Vertex AI Training でスケールアップする
ノートブックでテストし始めるのは良いことですが、カスタマイズにはより多くの GPU リソースと柔軟性が必要になる場合があります。この段階で、ノートブックから正式な Vertex AI Training ジョブに移行します。
単一のノートブック インスタンスに制限されるのではなく、トレーニング構成(同じコンテナを使用)を Vertex AI のマネージド トレーニング サービスに送信します。これにより、スケーラビリティ、柔軟性、制御性が向上します。これにより、次のことが可能になります。
- オンデマンド アクセラレータ: 最新のアクセラレータ(H100 など)のオンデマンド プールに、必要なときにアクセスできます。また、DWS Flex Start、Spot GPU、BYO 予約オプションを選択して、柔軟性や安定性を高めることもできます。
- マネージド インフラストラクチャ: サーバーやコンテナのプロビジョニングや管理は不要です。Vertex AI がすべて処理します。ジョブを定義するだけで実行されます。
- 再現性: トレーニング ジョブは再現可能なアーティファクトであるため、MLOps ワークフローで簡単に使用できます。
ジョブの実行中は、TensorBoard でリアルタイムに進行状況をモニタリングし、モデルの損失と精度が向上するのを確認できます。チューニング パイプラインの状況も確認できます。


Vertex AI Training ジョブを使用する以外に、Ray on Vertex を使用するか、必要な柔軟性と制御性に応じて GKE または GCE を選択してカスタマイズできます。
パート 3: ファインチューニングしたモデルを評価する
Vertex AI で Qwen3 モデルをファインチューニングした後、その準備状況を評価するには、堅牢な評価手法が不可欠です。評価結果を、テスト中に作成したベースラインと比較します。
複雑な生成 AI タスクの場合、Vertex AI の Gen AI Evaluation Service は「判定」モデルを使用して、細かい品質(一貫性、関連性、根拠性)とタスク固有の基準を評価し、並列(SxS)の人間によるレビューをサポートします。GenAI SDK を使用すると、モデルをプログラムで評価および比較できます。このサービスは、モデルのパフォーマンスに関する詳細で実用的な分析情報を提供します。自動的な並列比較や人間によるレビューも組み込まれているため、パープレキシティなどの単純な指標をはるかに超える分析が可能です。
評価ノートブックでは、GenAI Evaluation Service を使用して、ファインチューニングした Qwen3 モデルをベースモデルと比較して評価しました。各クエリについて、両方のモデルからの回答を提供し、pairwise_summarization_quality 指標を使用して、判定モデルがどちらのパフォーマンスが優れているかを判断できるようにしました。
他の一般的なモデルの評価については、こちらのノートブック をご覧ください。
パート 4: 本番環境のエンドポイントにデプロイする
モデルのファインチューニングと検証が完了しました。最後は、最もやりがいのあるステップです。モデルをエンドポイントとしてデプロイします。多くのプロジェクトが複雑さの壁にぶつかるのは、このフェーズです。Vertex AI Inference を使用すると、プロセスが合理化されます。Vertex AI エンドポイントにデプロイすると、サーバーだけでなく、2 つの重要な要素に最適化された、フルマネージドの本番環境グレードのサービング スタックが手に入ります。
- 高速なパフォーマンス
- 最適化されたサービング: モデルは、vLLM などの最先端のフレームワークで構築されたコンテナを使用してサービングされるため、高スループットと低レイテンシが保証されます。
- 迅速な起動: VM の高速起動、コンテナ イメージのストリーミング、モデルの重みのストリーミング、プレフィックス キャッシュなどの手法により、モデルを迅速に起動できます。
- 費用対効果に優れた柔軟なスケーリング
GPU の予算を完全に管理できます。次のことが可能です。
- 標準的なワークロードにはオンデマンド GPU を使用する。
- 既存の確約利用割引(CUD)と予約を適用して、費用を削減する。
- Dynamic Workload Scheduler(DWS)Flex Start を使用して、最大 7 日間の容量を割引料金で取得する。
- フォールト トレラントなワークロードに Spot VM を活用して、コンピューティングを大幅な割引料金で利用する。
つまり、Vertex AI Inference で、スケーリング、インフラストラクチャ、パフォーマンスの最適化を処理できるので、アプリケーションに専念できます。
始める
Vertex AI 上の Qwen のようなオープンモデルのライフサイクルを、最初のアイデアからプロダクション レディのエンドポイントまで、うまく乗り切ることは大きな成果です。このプラットフォームが、テスト、ファインチューニング、評価、デプロイをどのように強力にサポートするかを見てきました。
独自のオープンモデル ワークロードを試してみませんか?Vertex AI Model Garden は、まず試してみるのに最適な環境です。
ー AI エンジニアリングおよびエバンジェリズム マネージャー、Erwin Huizenga
ー スタートアップ カスタマー エンジニア、Julie Zhu