ドライバの自動インストールにより、GKE での NVIDIA GPU の使用が容易に
Google Cloud Japan Team
※この投稿は米国時間 2024 年 3 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。
AI / ML モデルが大きく成長するにつれて、トレーニングや推論のアプリケーションには NVIDIA GPU などの高速コンピューティングが必要になります。Google Kubernetes Engine(GKE)は、コンテナのオーケストレーションを簡素化するフルマネージド Kubernetes サービスであるとともに、カスタム ML プラットフォームのデプロイ、スケール、管理に最適なプラットフォームとなっています。GKE で NVIDIA GPU ドライバを自動的にインストールできるようになったため、お客様は GPU をより簡単に利用できます。
これまでは、GKE で GPU を使用するには、DaemonSet を適用して GPU ドライバを手動でインストールする必要がありました。手動による方法には、お客様が環境をより明確に制御できるという利点があるとはいえ、デプロイ ワークフローを遅らせる不要な手間のように感じられるお客様もいました。
今後、GKE はお客様に代わって GPU ドライバを自動的にインストールできます。GKE で GPU ドライバの自動インストール機能が一般提供されるようになったことで、GPU の使用がさらに容易になりました。
「ドライバの自動インストールは、GKE ノードプールに GPU を追加する作業を簡素化するための優れた機能です。当社は、すべての AI ワークロードで使用しています」– AI21、バイス プレジデント Barak Peleg 氏
また、GPU ドライバのインストール管理を Google にオフロードすることで、ドライバを GKE ノード用にプリコンパイルできるため、GPU ノードの起動にかかる時間を短縮できます。
GPU ドライバのインストールの設定
GKE ノードプールの作成時に GPU ドライバの自動インストールを利用するには、DRIVER_VERSION オプションに次のいずれかのオプションを指定します。
-
default
: GKE バージョンに対応する、デフォルトのドライバ バージョンをインストールします。 -
latest
: GKE バージョンに対応する、最新のドライバ バージョンをインストールします。Container-Optimized OS を使用するノードでのみ指定できます。
ドライバを手動でインストールしたい場合は、DRIVER_VERSION に disabled
を指定することで、ドライバの自動インストールをスキップできます。何も指定しない場合、現時点では、手動インストールがデフォルトの動作になります。
gcloud で GPU ドライバのインストールを有効にする方法は次のとおりです。
GKE コンソール UI からも有効にできます。ノードプールのマシンの構成で GPU を選択します。すると、以下のように、[Google-managed](Google が管理)または [User-managed](ユーザーが管理)のオプションが表示されます。
[Google-managed] オプションを選択すると、ノードプールの作成時に必要な GPU ドライバが自動的にインストールされ、追加の手作業が不要になります。当面の間、GPU ドライバのインストールは [User-managed] に設定されますが、将来的には、大半のユーザーがこの新しいアプローチに慣れたところで、GKE のデフォルトの選択を [Google-managed] に切り替える予定です。
GKE で GPU を使用する方法について詳しくは、ドキュメントをご覧ください。
ー ソフトウェア エンジニア Jiaqi Cao
ー AI / ML プロダクト マネージャー Winston Chiang