大規模なトレーニング向けの Vertex AI Training の新機能を発表
Sunny Tahilramani
Product Lead, Vertex AI
※この投稿は米国時間 2025 年 10 月 28 日に、Google Cloud blog に投稿されたものの抄訳です。
生成 AI モデルの構築とスケーリングには膨大なリソースが必要ですが、このプロセスは退屈になってきます。開発者が一貫した結果を確保するためには、ジョブキューの管理、クラスタのプロビジョニング、依存関係の解決が必要です。このインフラストラクチャのオーバーヘッドと、最適なトレーニング レシピを見つけることの難しさ、ハイパーパラメータとモデル アーキテクチャの選択の複雑さが、本番環境グレードのモデル トレーニングへの進行を遅くします。
このたび、 Vertex AI Training の能力が拡張されたことを発表します。これにより、大規模で高度に差別化されたモデルの開発までの道のりが簡素化され、加速できるようになりました。
数百から数千の AI アクセラレータを使用してトレーニングを行う場合を対象とした新しいマネージド トレーニング機能は、フルマネージドで復元力のある Slurm 環境を実現する Cluster Director など、Google Cloud の AI インフラストラクチャ サービスの優れた機能を基盤として構築されており、高度な管理ツールを追加しています。これには、事前構築済みのデータ サイエンス ツールや、NVIDIA NeMo などのフレームワークと統合され、最適化されたレシピが含まれており、専門的な大規模モデルの構築が可能です。
カスタマイズとスケーリングを考慮した設計
Vertex AI Training は、モデルのカスタマイズの全範囲にわたって選択肢を提供します。この範囲は、Gemini などのモデルの動作を迅速に改良するための LoRA のような費用対効果の高い軽量なチューニングから、ドメインを完全に専門化するためのクラスタ上でのオープンソース モデルやカスタムモデルの大規模なトレーニングまで多岐にわたります。
Vertex AI のトレーニング機能は、次の 3 つの分野を中心に構成されています。
1. 柔軟な自己修復型インフラストラクチャ
Vertex AI Training を使用すると、プロダクション レディな環境を数分で作成できます。Cluster Director の機能が組み込まれているため、大規模なトレーニングを簡素化し、フルマネージドで復元力のある Slurm 環境を活用できます。
自動化された復元機能は、ストラグラーをプロアクティブにチェックして回避し、障害のあるノードを迅速に再起動または交換します。また、パフォーマンスが最適化されたチェックポイント機能を活用して、クラスタの稼働時間を最大化します。
最適な費用対効果を実現するために、Google の Dynamic Workload Scheduler(DWS)を使用して Google Cloud の容量をプロビジョニングできます。カレンダー モードでは、事前予約と同様に、最大 90 日先の日付を指定および予約することができます。Flex Start では、柔軟なオンデマンド容量リクエスト(最大 7 日間)が可能で、リクエストされたすべてのリソースが同時に利用可能になるとすぐにリクエストが満たされます。
2. 包括的なデータ サイエンス ツール
Google の包括的なデータ サイエンス ツールにより、複雑なモデル開発における推測の多くが不要になります。最適なモデル設定を自動的に見つけるハイパーパラメータ調整、データ最適化、高度なモデル評価などの機能が含まれており、専門分野のモデルをより迅速に本番環境に対応できるように設計されています。
3. 統合されたレシピとフレームワーク
事前トレーニング、継続的な事前トレーニング、教師ありファインチューニング(SFT)、直接選好最適化(DPO)まで、モデル開発ライフサイクル全体に対応する厳選された最適化済みのレシピを使用して、トレーニング効率をすぐに最大化できます。また、NVIDIA NeMo や NeMo-RL などの標準化されたフレームワークをシームレスに統合します。
Vertex AI Training がお客様にもたらす影響
Salesforce: Salesforce AI リサーチチームは、Vertex AI Training を活用して大規模アクション モデルの機能を拡張しました。Salesforce は、独自のビジネス オペレーションに合わせてこれらのモデルをファインチューニングすることで、主要な CRM ベンチマークで業界トップの LLM を上回る Gemini モデルを実現しました。これにより、エージェントを構築するための信頼できる基盤を提供し、顧客が複雑な多段階のビジネス プロセスをより正確かつ確実に自動化できるようにしています。
-
「企業環境では、特に重要なユースケースにおいて、AI エージェントが高度な能力と高い一貫性を備えていることが不可欠です。Google Cloud とともに、エージェント企業で可能なことの未来をモデルレベルまで構築するための新しい基準を確立しています。」 - Salesforce、チーフ サイエンティスト、Silvio Savarese 氏
AI Singapore(AISG): AISG は、予約済みクラスタで Vertex AI Training のマネージド トレーニング機能を利用して、270 億のパラメータを持つフラッグシップ モデルをリリースしました。この大規模な専門化プロジェクトでは、東南アジアの多様な市場向けに言語とコンテキストの正確なカスタマイズを実現するため、インフラストラクチャの最高の信頼性とパフォーマンス チューニングが求められました。
-
「AI Singapore は最近、東南アジアのコンテキストと言語を取り入れたオープンソースの基盤モデルである SEA-LION v4 をリリースしました。Vertex AI とそのマネージド トレーニング クラスタは、SEA-LION v4 の開発に不可欠でした。Vertex AI は、大規模なトレーニング ワークロードに対応する安定した復元力のある環境を提供し、簡単にセットアップおよび使用できるようにしました。最適化されたトレーニング レシピにより、トレーニング スループットのパフォーマンスが 30% 近く向上しました。」 - AI Singapore、AI プロダクト ピラー、応用研究責任者、William Tjhi 氏
より詳細な制御が必要な場合
最大限の柔軟性と制御を求めるお客様には、AI 最適化インフラストラクチャは Google Compute Engine または Google Kubernetes Engine 経由でご利用いただけます。いずれも Cluster Director を含み、高度にスケーラブルな AI トレーニング アクセラレータおよびクラスタのプロビジョニングと管理を実現します。Cluster Director は、ハードウェア、ネットワークの最適化、容量管理、運用効率を詳細に制御できるため、上級ユーザーの要求にも応えることができます。
今すぐモデルをレベルアップ
Vertex AI Training は、AI を最も強力な競争力にするためのあらゆるアプローチ、世界クラスのインフラストラクチャ、専門知識を提供します。ご興味をお持ちのお客様は、Google Cloud の営業担当者にお問い合わせください。Vertex AI Training がお客様独自のビジネス上の優位性をどのように実現できるかについて、詳しくご説明いたします。
-Vertex AI、プロダクト リード、Sunny Tahilramani



