このページでは、AI/ML ワークロードの要件に基づいて、GPU や TPU などのコンピューティング アクセラレータを取得するために使用できる手法について説明します。これらの手法は、GKE では「アクセラレータ使用オプション」と呼ばれます。さまざまな消費オプションを理解することで、リソース使用率を最適化してリソースの過小使用を回避し、リソースを取得する可能性を高め、費用とパフォーマンスのバランスを取ることができます。
このページは、ML エンジニアと連携して AI/ML ワークロードのデプロイに必要なリソースを取得するプラットフォーム管理者とオペレーターを対象としています。
Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE ユーザーのロールとタスクをご覧ください。
使用オプションについて
GKE でアクセラレータを使用するには、次のオプションから選択できます。
- オンデマンド: 事前に容量を調整することなく、GKE で TPU または GPU を使用します。リソースをリクエストする前に、特定のタイプと数量のアクセラレータに対して十分なオンデマンド割り当てが必要です。オンデマンドは最も柔軟な使用オプションですが、リクエストを満たすのに十分なオンデマンド リソースが利用可能であることを保証するものではありません。
- 予約: リソースを一定期間予約します。予約は次のいずれかになります。
- 将来の予約: 通常、将来の特定の期間にリソースを予約します。この期間中、予約済みリソースに排他的にアクセスできます。将来の予約には、テクニカル アカウント マネージャー(TAM)との連携が必要です。詳細については、TPU と GPU のガイダンスをご覧ください。
- 最大 90 日間の将来の予約(カレンダー モード): 指定した期間の容量をリクエストします。カレンダー アドバイザーが利用可能な日付を提案します。最大 90 日間の将来の予約(カレンダー モード)では、短期間の柔軟性が向上し、セルフサービスで容量を検索できます。詳細については、カレンダー モードでの将来の予約リクエストをご覧ください。
- オンデマンド予約: オンデマンド オプションと同様に、容量が利用可能になるとすぐにプロビジョニングされるオンデマンド予約をリクエストできます。予約が有効な間は、リソースを使用するかどうかに関係なく料金が発生します。
- Flex Start: 予約なしで、短期間のワークロード用に高密度で割り当てられたリソースを確保します。特定の数の GPU または TPU をリクエストすると、容量が使用可能になったときに Compute Engine がプロビジョニングします。GPU または TPU は最大 7 日間中断なく実行されます。詳細については、Flex Start プロビジョニングをご覧ください。
- Spot: Spot VM をプロビジョニングします。これにより、大幅な割引が適用されますが、Spot VM はいつでもプリエンプトされる可能性があります(30 秒前に警告が表示されます)。詳細については、Spot VM をご覧ください。
GKE のアクセラレータ割り当てについて理解する
割り当てとシステム上限により、すべての Google Cloud ユーザーのリソースの可用性を維持するために、 Google Cloud リソースの使用が制限されます。割り当てにはデフォルト値がありますが、通常は調整をリクエストできます。システムの上限は、変更できない固定値です。デフォルトでは、プロジェクトに大きなアクセラレータ割り当ては付与されません。特定のアクセラレータ タイプとリージョンの割り当てをリクエストして承認を受ける必要があります。
ワークロードに必要な割り当てを管理する際は、次の特性を考慮してください。
使用量オプションごとに必要な割り当てをリクエストする必要があります。各使用量オプションに必要な割り当てを確認するには、使用量オプションを選択するの表に記載されている対応する「割り当て」パラメータをご覧ください。割り当てが不足している場合、クラスタ、ノードプール、またはアクセラレータを必要とするワークロードのデプロイを作成しようとすると、
Quota exceeded
エラーで失敗します。Autopilot でカスタム コンピューティング クラスを使用する場合は、割り当てをリクエストする必要があります。コンピューティング クラスの要件を満たすようにプロビジョニングされたノードは、指定されたアクセラレータのプロジェクトの割り当てを引き続き消費します。
Google Cloud 無料トライアル アカウントでは、GPU や TPU などの高価値リソースの割り当て増加をリクエストする際に制限があります。アクセラレータの割り当てにアクセスするには、有料アカウントにアップグレードします。
割り当てを確認してリクエストするには、 Google Cloud コンソールの [割り当て] ページに移動します。アクセラレータの割り当てをフィルタして、増加をリクエストできます。
使用オプションを選択する
次の考慮事項を参考にして、AI/ML ワークロードに最適な消費オプションを選択してください。
- ワークロード タイプ: 実装するワークロードのタイプを検討します。トレーニング ワークロードと推論ワークロードのどちらを実行しているかによって、GKE の要件は異なります。
- トレーニング: 大量のメモリを備えたハイ パフォーマンス リソースが必要です。通常、トレーニング ワークロードには明確に定義されたライフサイクルがあります。これらのワークロードは、リソース消費量の急激な増加が発生しにくいため、計画を立てやすい傾向があります。
- 推論: 通常、スケーラビリティと低コストに最適化されたアクセラレータが必要です。推論ワークロードでは、リソース使用量が急増したときに、大量のアクセラレータ メモリが必要になることがあります。
- 実装フェーズに基づくライフスパン: 概念実証(POC)、プラットフォーム評価、アプリケーション開発またはテスト、本番環境への移行、最適化を実行する場合は、ビジネス目標を考慮してください。
- プロビジョニング時間: ワークロードで即時実行が必要かどうか、または将来実行できるかどうかを判断します。将来の実行が可能であれば、開始時刻の柔軟性を判断します。
- 費用とパフォーマンスのバランス: ワークロードのパフォーマンス要件と予算の制約を評価して、最も費用対効果の高いアクセラレータを選択します。アクセラレータの費用とパフォーマンス特性のトレードオフを考慮します。新しいアクセラレータは費用対効果の向上をもたらす可能性があることを覚えておいてください。
次の表を使用して、使用オプションを選択します。
ワークロード タイプ | プロビジョニングにかかる時間 | 存続期間 | 推奨される使用オプション |
---|---|---|---|
|
即時(予約が承認済みの場合) | 長期(予約ごと) | A4X、A4、A3 Ultra 以外の GPU または TPU を使用する場合は、オンデマンド予約を使用します。
|
G2、A2、A3 High、A3 Mega アクセラレータを使用する場合は、将来の予約を使用します。
|
|||
|
即時(予約が承認済みの場合) | 最大 90 日間 |
|
|
オンデマンド(提供状況は随時変更される可能性があります) | 割り当てごとに最大 7 日間 |
|
|
オンデマンド(提供状況は随時変更される可能性があります) | 可変、30 秒前の警告でプリエンプト可能 |
|
|
即時(提供状況は随時変更される可能性があります) | 制限なし |
次のステップ
- GKE 上の GPU の詳細を確認する。
- GKE の TPU の詳細を確認する。
- GKE での AI/ML 推論の詳細を確認する。