このページは Cloud Translation API によって翻訳されました。

GKE での AI/ML ワークロードのアクセラレータ使用オプションについて

Autopilot Standard

このページでは、AI/ML ワークロードの要件に基づいて、GPU や TPU などのコンピューティングアクセラレータを取得するために使用できる手法について説明します。これらの手法は、GKE では「アクセラレータ使用オプション」と呼ばれます。さまざまな消費オプションを理解することで、リソース使用率を最適化してリソースの過小使用を回避し、リソースを取得する可能性を高め、費用とパフォーマンスのバランスを取ることができます。

このページは、ML エンジニアと連携して AI/ML ワークロードのデプロイに必要なリソースを取得するプラットフォーム管理者とオペレーターを対象としています。

Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE ユーザーのロールとタスクをご覧ください。

使用オプションについて

GKE でアクセラレータを使用するには、次のオプションから選択できます。

オンデマンド: 事前に容量を調整することなく、GKE で TPU または GPU を使用します。リソースをリクエストする前に、特定のタイプと数量のアクセラレータに対して十分なオンデマンド割り当てが必要です。オンデマンドは最も柔軟な使用オプションですが、リクエストを満たすのに十分なオンデマンドリソースが利用可能であることを保証するものではありません。
予約: リソースを一定期間予約します。予約は次のいずれかになります。
- 将来の予約: 通常、将来の特定の期間にリソースを長期間予約します。この期間中、予約済みリソースに排他的にアクセスできます。将来の予約には、テクニカルアカウントマネージャー（TAM）との連携が必要です。詳細については、TPU と GPU のガイダンスをご覧ください。
- 最大 90 日間の将来の予約（カレンダーモード）: 指定した期間の容量をリクエストします。カレンダーアドバイザーが利用可能な日付を提案します。最大 90 日間の将来の予約（カレンダーモード）では、短期間の柔軟性が向上し、セルフサービス容量検索が可能になります。詳細については、カレンダーモードでの将来の予約リクエストをご覧ください。
- オンデマンド予約: オンデマンドオプションと同様に、容量が利用可能になるとすぐにプロビジョニングされるオンデマンド予約をリクエストできます。予約が有効な間は、リソースを使用するかどうかに関係なく料金が発生します。
Flex Start: 予約なしで、短期間のワークロード用に高密度で割り当てられたリソースを確保します。特定の数の GPU または TPU をリクエストすると、容量が使用可能になったときに Compute Engine がプロビジョニングします。GPU または TPU は最大 7 日間中断なく実行されます。詳細については、Flex Start プロビジョニングをご覧ください。
Spot: Spot VM をプロビジョニングすると、大幅な割引が適用されます。ただし、Spot VM はいつでもプリエンプトされる可能性があります（30 秒前に警告が表示されます）。詳細については、Spot VM をご覧ください。

GKE のアクセラレータ割り当てについて理解する

割り当てとシステム上限により、すべての Google Cloud ユーザーのリソースの可用性を維持するために、 Google Cloud リソースの使用が制限されます。割り当てにはデフォルト値がありますが、通常は調整をリクエストできます。システムの上限は固定値で、変更できません。デフォルトでは、プロジェクトに大きなアクセラレータ割り当ては付与されません。特定のアクセラレータタイプとリージョンの割り当てをリクエストして承認を受ける必要があります。

ワークロードに必要な割り当てを管理する際は、次の特性を考慮してください。

使用量オプションごとに必要な割り当てをリクエストする必要があります。各使用量オプションに必要な割り当てを確認するには、使用量オプションを選択するの表に記載されている対応する「割り当て」パラメータをご覧ください。割り当てが不足している場合、クラスタ、ノードプール、またはアクセラレータを必要とするワークロードのデプロイを作成しようとすると、Quota exceeded エラーで失敗します。
Autopilot でカスタムコンピューティングクラスを使用する場合は、割り当てをリクエストする必要があります。コンピューティングクラスの要件を満たすようにプロビジョニングされたノードは、指定されたアクセラレータのプロジェクトの割り当てを引き続き消費します。
Google Cloud 無料トライアルアカウントでは、GPU や TPU などの高価値リソースの割り当て増加をリクエストする際に制限があります。アクセラレータの割り当てにアクセスするには、有料アカウントにアップグレードします。

割り当てを確認してリクエストするには、 Google Cloud コンソールの割り当てページに移動します。アクセラレータの割り当てをフィルタして、増加をリクエストできます。

使用オプションを選択する

次の考慮事項を参考に、AI/ML ワークロードに最適な使用オプションを選択してください。

ワークロードタイプ: 実装するワークロードのタイプを検討します。トレーニングワークロードと推論ワークロードのどちらを実行しているかによって、GKE の要件は異なります。
- トレーニング: 大量のメモリを備えたハイパフォーマンスのリソースが必要です。通常、トレーニングワークロードには明確に定義されたライフサイクルがあります。これらのワークロードは、リソース消費量の急激な増加が発生しにくいため、計画を立てやすい傾向があります。
- 推論: 通常、スケーラビリティと低コストに最適化されたアクセラレータが必要です。推論ワークロードでは、リソース消費量が急増すると、大量のアクセラレータメモリが必要になることがあります。
実装フェーズに基づくライフスパン: 概念実証（POC）、プラットフォーム評価、アプリケーション開発またはテスト、本番環境への移行、最適化を実行する場合は、ビジネス目標を考慮してください。
プロビジョニング時間: ワークロードで即時実行が必要かどうか、または将来実行できるかどうかを判断します。将来の実行が可能であれば、開始時刻の柔軟性を判断します。
費用とパフォーマンスのバランス: ワークロードのパフォーマンス要件と予算の制約を評価して、最も費用対効果の高いアクセラレータを選択します。アクセラレータの費用とパフォーマンス特性のトレードオフを考慮します。新しいアクセラレータでは、費用対効果が向上する可能性があります。

次の表を使用して、使用オプションを選択します。

ワークロードタイプ	プロビジョニングにかかる時間	存続期間	推奨される使用オプション
基盤モデルの事前トレーニングやマルチホスト推論など、長時間実行される大規模なワークロード。本番環境ワークロード。	即時（予約が承認済みの場合）	長期（予約ごと）	A4X、A4、A3 Ultra 以外の GPU または TPU を使用する場合は、オンデマンド予約を使用します。費用: 予約期間全体に対して課金されます。割り当て: 容量が提供される前に、割り当てが自動的に増加します。
基盤モデルの事前トレーニングやマルチホスト推論など、長時間実行される大規模なワークロード。本番環境ワークロード。	即時（予約が承認済みの場合）	長期（予約ごと）	G2、A2、A3 High、A3 Mega アクセラレータを使用する場合は、将来の予約を使用します。費用: 予約期間全体に対して課金されます。割り当て: 容量が提供される前に、割り当てが自動的に増加します。
正確な開始時間が必要な、モデルのファインチューニング、シミュレーション、バッチ推論などの短時間で実行される分散ワークロード。プラットフォームの評価、ベンチマーク、最適化テスト用のワークロード。	即時（予約が承認済みの場合）	最大 90 日間	最大 90 日間の将来の予約（カレンダーモード）: 費用: 割引（最大 53%）。予約期間に対して料金が発生します。割り当て: 割り当ては課金されません。サポートされているアクセラレータ: A4、A3 Ultra、TPU v5e、TPU v5p、TPU Trillium。
開始時間が柔軟な小規模なモデルのトレーニング、ファインチューニング、スケーラブルな推論などのバッチワークロード。 POC または統合テストのワークロード。	オンデマンド（提供状況は随時変更される可能性があります）	割り当てごとに最大 7 日間	Flex Start プロビジョニングモード: 費用: 割引（最大 53%）。従量課金制です。割り当て: GPU プリエンプティブル割り当てまたは TPU プリエンプティブル割り当てが課金されます。サポートされているアクセラレータ: A4X を除くすべての GPU ファミリー。すべての TPU バージョン。
CI/CD、データ分析、ハイパフォーマンスコンピューティング（HPC）などの優先度の低いフォールトトレラントなワークロード。中断可能なワークロード。	オンデマンド（提供状況は随時変更される可能性があります）	可変、30 秒前の警告でプリエンプトされる可能性がある	Spot VM: 費用: 大幅な割引（60 ～ 91%）。従量課金制です。割り当て: GPU プリエンプティブル割り当てまたは TPU プリエンプティブル割り当てが課金されます。サポートされているアクセラレータ: A4X を除くすべての GPU ファミリー。すべての TPU バージョン。
直ちに実行する必要がある汎用ワークロード。	即時（提供状況は随時変更される可能性があります）	制限なし	オンデマンド（GPU または TPU）: 費用: 従量課金制。割り当て: GPU または TPU のオンデマンド割り当てが課金されます。サポートされているアクセラレータ: A4X、A4、A3 Ultra を除くすべての GPU ファミリー。すべての TPU バージョン。

次のステップ

GKE 上の GPU の詳細を確認する。
GKE の TPU の詳細を確認する。
GKE での AI/ML 推論の詳細を確認する。