GKE の AI/ML ワークロードのアクセラレータ使用オプションについて


このページでは、AI/ML ワークロードの要件に基づいて、GPUTPU などのコンピューティング アクセラレータを取得するために使用できる手法について説明します。これらの手法は、GKE では「アクセラレータ使用オプション」と呼ばれます。さまざまな消費オプションを理解することで、リソース使用率を最適化してリソースの過小使用を回避し、リソースを取得する可能性を高め、費用とパフォーマンスのバランスを取ることができます。

このページは、ML エンジニアと連携して AI/ML ワークロードのデプロイに必要なリソースを取得するプラットフォーム管理者とオペレーターを対象としています。

Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE ユーザーのロールとタスクをご覧ください。

使用オプションについて

GKE でアクセラレータを使用するには、次のオプションから選択できます。

  • オンデマンド: 事前に容量を調整することなく、GKE で TPU または GPU を使用します。リソースをリクエストする前に、特定のタイプと数量のアクセラレータに対して十分なオンデマンド割り当てが必要です。オンデマンドは最も柔軟な使用オプションですが、リクエストを満たすのに十分なオンデマンド リソースが利用可能であることを保証するものではありません。
  • 予約: リソースを一定期間予約します。予約は次のいずれかになります。
    • 将来の予約: 通常、将来の特定の期間にリソースを予約します。この期間中、予約済みリソースに排他的にアクセスできます。将来の予約には、テクニカル アカウント マネージャー(TAM)との連携が必要です。詳細については、TPUGPU のガイダンスをご覧ください。
    • 最大 90 日間の将来の予約(カレンダー モード): 指定した期間の容量をリクエストします。カレンダー アドバイザーが利用可能な日付を提案します。最大 90 日間の将来の予約(カレンダー モード)では、短期間の柔軟性が向上し、セルフサービスで容量を検索できます。詳細については、カレンダー モードでの将来の予約リクエストをご覧ください。
    • オンデマンド予約: オンデマンド オプションと同様に、容量が利用可能になるとすぐにプロビジョニングされるオンデマンド予約をリクエストできます。予約が有効な間は、リソースを使用するかどうかに関係なく料金が発生します。
  • Flex Start: 予約なしで、短期間のワークロード用に高密度で割り当てられたリソースを確保します。特定の数の GPU または TPU をリクエストすると、容量が使用可能になったときに Compute Engine がプロビジョニングします。GPU または TPU は最大 7 日間中断なく実行されます。詳細については、Flex Start プロビジョニングをご覧ください。
  • Spot: Spot VM をプロビジョニングします。これにより、大幅な割引が適用されますが、Spot VM はいつでもプリエンプトされる可能性があります(30 秒前に警告が表示されます)。詳細については、Spot VM をご覧ください。

GKE のアクセラレータ割り当てについて理解する

割り当てとシステム上限により、すべての Google Cloud ユーザーのリソースの可用性を維持するために、 Google Cloud リソースの使用が制限されます。割り当てにはデフォルト値がありますが、通常は調整をリクエストできます。システムの上限は、変更できない固定値です。デフォルトでは、プロジェクトに大きなアクセラレータ割り当ては付与されません。特定のアクセラレータ タイプとリージョンの割り当てをリクエストして承認を受ける必要があります。

ワークロードに必要な割り当てを管理する際は、次の特性を考慮してください。

  • 使用量オプションごとに必要な割り当てをリクエストする必要があります。各使用量オプションに必要な割り当てを確認するには、使用量オプションを選択するの表に記載されている対応する「割り当て」パラメータをご覧ください。割り当てが不足している場合、クラスタ、ノードプール、またはアクセラレータを必要とするワークロードのデプロイを作成しようとすると、Quota exceeded エラーで失敗します。

  • Autopilot でカスタム コンピューティング クラスを使用する場合は、割り当てをリクエストする必要があります。コンピューティング クラスの要件を満たすようにプロビジョニングされたノードは、指定されたアクセラレータのプロジェクトの割り当てを引き続き消費します。

  • Google Cloud 無料トライアル アカウントでは、GPU や TPU などの高価値リソースの割り当て増加をリクエストする際に制限があります。アクセラレータの割り当てにアクセスするには、有料アカウントにアップグレードします。

割り当てを確認してリクエストするには、 Google Cloud コンソールの [割り当て] ページに移動します。アクセラレータの割り当てをフィルタして、増加をリクエストできます。

使用オプションを選択する

次の考慮事項を参考にして、AI/ML ワークロードに最適な消費オプションを選択してください。

  • ワークロード タイプ: 実装するワークロードのタイプを検討します。トレーニング ワークロードと推論ワークロードのどちらを実行しているかによって、GKE の要件は異なります。
    • トレーニング: 大量のメモリを備えたハイ パフォーマンス リソースが必要です。通常、トレーニング ワークロードには明確に定義されたライフサイクルがあります。これらのワークロードは、リソース消費量の急激な増加が発生しにくいため、計画を立てやすい傾向があります。
    • 推論: 通常、スケーラビリティと低コストに最適化されたアクセラレータが必要です。推論ワークロードでは、リソース使用量が急増したときに、大量のアクセラレータ メモリが必要になることがあります。
  • 実装フェーズに基づくライフスパン: 概念実証(POC)、プラットフォーム評価、アプリケーション開発またはテスト、本番環境への移行、最適化を実行する場合は、ビジネス目標を考慮してください。
  • プロビジョニング時間: ワークロードで即時実行が必要かどうか、または将来実行できるかどうかを判断します。将来の実行が可能であれば、開始時刻の柔軟性を判断します。
  • 費用とパフォーマンスのバランス: ワークロードのパフォーマンス要件と予算の制約を評価して、最も費用対効果の高いアクセラレータを選択します。アクセラレータの費用とパフォーマンス特性のトレードオフを考慮します。新しいアクセラレータは費用対効果の向上をもたらす可能性があることを覚えておいてください。

次の表を使用して、使用オプションを選択します。

ワークロード タイプ プロビジョニングにかかる時間 存続期間 推奨される使用オプション
  • 基盤モデルの事前トレーニングやマルチホスト推論など、長時間実行される大規模なワークロード。
  • 本番環境ワークロード。
即時(予約が承認済みの場合) 長期(予約ごと)

A4X、A4、A3 Ultra 以外の GPU または TPU を使用する場合は、オンデマンド予約を使用します。

  • 費用: 予約期間全体に対して課金されます。
  • 割り当て: 容量が提供される前に、割り当てが自動的に増加します。

G2、A2、A3 High、A3 Mega アクセラレータを使用する場合は、将来の予約を使用します。

  • 費用: 予約期間全体に対して課金されます。
  • 割り当て: 容量が提供される前に、割り当てが自動的に増加します。
  • 正確な開始時間が必要な、モデルのファインチューニング、シミュレーション、バッチ推論などの短時間で実行される分散ワークロード。
  • プラットフォームの評価、ベンチマーク、最適化テスト用のワークロード。
即時(予約が承認済みの場合) 最大 90 日間

最大 90 日間の将来の予約(カレンダー モード):

  • 費用: 割引(最大 53%)。予約期間に対して料金が発生します。
  • 割り当て: 割り当ては課金されません。
  • サポートされているアクセラレータ: A4、A3 Ultra、TPU v5e、TPU v5p、TPU Trillium。
  • 開始時間が柔軟な小規模なモデルのトレーニング、ファインチューニング、スケーラブルな推論などのバッチ ワークロード。
  • POC または統合テストのワークロード。
オンデマンド(提供状況は随時変更される可能性があります) 割り当てごとに最大 7 日間

Flex Start プロビジョニング モード:

  • CI/CD、データ分析、ハイ パフォーマンス コンピューティング(HPC)などの優先度の低いフォールト トレラントなワークロード。
  • 中断可能なワークロード。
オンデマンド(提供状況は随時変更される可能性があります) 可変、30 秒前の警告でプリエンプト可能

Spot VM:

  • 直ちに実行する必要がある汎用ワークロード。
即時(提供状況は随時変更される可能性があります) 制限なし

オンデマンド(GPU または TPU:

  • 費用: 従量課金制。
  • 割り当て: GPU または TPU のオンデマンド割り当てが課金されます。
  • サポートされているアクセラレータ: A4X、A4、A3 Ultra を除くすべての GPU ファミリー。すべての TPU バージョン。

次のステップ