必要なときに GPU を: Flex Start VM のご紹介
Ari Liberman
Group Product Manager
Satish Iyer
Senior Product Manager
※この投稿は米国時間 2025 年 9 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。
AI を使用したイノベーションには、需要が極端に高まったときには入手が困難になる可能性がある GPU などのアクセラレータが必要です。この課題に対処するため、Google は Dynamic Workload Scheduler(DWS)を提供しています。これは、必要なときに必要な場所でコンピューティング リソースへのアクセスを最適化するサービスです。7 月に、長期契約なしで短期間の ML 容量を利用できる DWS のカレンダーモードを発表しましたが、このたび、次のステップとして Flex Start VM の一般提供(GA)を開始します。
Compute Engine インスタンス API、gcloud CLI、Google Cloud コンソールから利用できる Flex Start VM は、需要の高い GPU を待機できる単一の VM インスタンスをシンプルかつ直接的に作成する方法を提供します。これにより、この柔軟な使用量オプションを既存のワークフローやスケジューラに簡単に統合できるようになります。
Flex Start VM とは
Dynamic Workload Scheduler を活用した Flex Start VM では、主要なクラウド プロバイダとしては初めてとなる、非常に差別化された消費モデルが導入されています。これにより、GPU に公平かつ改善されたアクセスを提供する単一の VM インスタンスを作成できます。Flex Start VM は、AI モデルのファインチューニング、バッチ推論、HPC、研究実験など、今すぐに開始する必要のない、期間が定義されたタスクに最適です。開始時間を柔軟に設定する代わりに、2 つの大きなメリットが得られます。
- リソースの入手可能性が大幅に向上: 容量リクエストを最長 2 時間キューに保持できるため、独自の再試行ロジックを構築しなくてもリソースを確保できる可能性が高まります。
- 費用対効果の高い料金: Flex Start VM SKU は、標準のオンデマンド料金と比較して大幅な割引が適用されるため、最先端のアクセラレータを利用しやすくなります。
Flex Start VM は最大 7 日間中断なく実行でき、プリエンプティブル割り当てを消費します。
新しい容量リクエスト方法


Flex Start VM では、1 つのパラメータ request-valid-for-duration
を使用して、容量がすぐに利用できない場合にリクエストをどのように処理するかを選択できるようになりました。
このパラメータがない場合、VM の作成時に、Compute Engine はリソースを確保するために短いベスト エフォートの試行(約 90 秒)を行います。容量が利用可能であれば、VM がプロビジョニングされます。利用可能な容量がない場合は、エラーが発生してリクエストがすぐに失敗します。この「フェイルファスト」の動作は、別のゾーンを試す、別のマシンタイプにフォールバックするなど、スケジューリングの決定を行うために回答をすぐに必要とするワークフローに適しています。
ただし、待機可能なワークロードの場合は、request-valid-for-duration フラグを設定することで、永続的な容量リクエストを行うことができます。90 秒から 2 時間の間で期間を選択して、リクエストをキューに保持するよう Compute Engine に指示します。VM は PENDING 状態になり、指定した期間内にリソースが利用可能になると、システムがリソースのプロビジョニングを開始します。この「順番待ち」アプローチにより、ハードウェアに公平かつ管理された方法でアクセスできるようになり、ユーザー エクスペリエンスは、手動での再試行の繰り返しから、1 回の簡単なリクエストになります。
Flex Start VM の主な機能
Flex Start VM には、柔軟性と使いやすさのための重要な機能がいくつかあります。
-
インスタンス API への直接アクセス: instances.insert との統合、または単一の CLI コマンドによる統合により、単一の Flex Start VM を簡単かつ直接的に作成できるため、カスタム スケジューラやワークフローに簡単に統合できます。
-
停止と起動の機能: Flex Start VM を完全に制御できます。たとえば、インスタンスを停止して課金を一時停止し、基盤となるリソースを解放できます。その後、再開する準備ができたら、開始コマンドを発行して新しい容量リクエストを送信するだけです。容量のプロビジョニングが成功すると、7 日間の最大実行時間のタイマーがリセットされます。
-
構成可能な終了アクション: 多くの高度なユースケースでは、
instanceTerminationAction = STOP
を設定して、VM の 7 日間の実行時間が終了したときに、インスタンスが削除されるのではなく停止されるようにできます。これにより、IP アドレスやブートディスクなど、VM の構成が保持されるため、後続の実行のセットアップ時間を節約できます。
お客様の声
研究機関や業界のさまざまなお客様が、Flex Start VM を使用して、希少なアクセラレータへのアクセスを改善しています。
「当社のカスタム スケジューリング環境では、正確な制御と直接的な API アクセスが求められます。インスタンス API の Flex Start の GA は、特に停止/開始機能と構成可能な終了機能により、画期的なものとなっています。この新しい高効率の消費モデルを複雑なワークフローにシームレスに統合できるため、リソース使用率とパフォーマンスの両方を最大化できます。」 - Hudson River Trading(HRT)、システム エンジニア、Ragnar Kjørstad 氏
「当社の重要な不正行為防止モデルのトレーニングでは、Flex Start VM が大きな変革をもたらしました。キューイング メカニズムにより、強力な A100 GPU に確実にアクセスできるため、開発サイクルとセキュリティ サービスが強化され、パフォーマンスと費用の面で大きなメリットが得られます。」- Oz Forensics、ML 責任者 Bakai Zhamgyrchiev 氏
使ってみる
キューに格納された Flex Start VM の使用は簡単です。gcloud コマンドを使用するか、API を直接使用して作成できます。
gcloud の例(キューで待機する場合):
API Request Snippet (JSON):
Instance API の Flex Start VM は、需要の高い AI アクセラレータへのアクセスをより効率的、信頼性、公平性の高いものにするというニーズに直接対応するものです。新しいキューイング メカニズムを導入することで、新しい Flex Start の従量課金モデルを既存のワークフローに簡単に統合できるため、オンデマンド アクセスのための再試行ループの設計に費やす時間を短縮できます。詳細を確認して今すぐ Flex Start VM をお試しになるには、ドキュメントと料金情報をご覧ください。
-グループ プロダクト マネージャー、Ari Liberman
-シニア プロダクト マネージャー、Satish Iyer