コンテンツに移動
Containers & Kubernetes

ドライバの自動インストールにより、GKE での NVIDIA GPU の使用が容易に

2024年3月27日
Google Cloud Japan Team

※この投稿は米国時間 2024 年 3 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。

AI / ML モデルが大きく成長するにつれて、トレーニングや推論のアプリケーションには NVIDIA GPU などの高速コンピューティングが必要になります。Google Kubernetes EngineGKE)は、コンテナのオーケストレーションを簡素化するフルマネージド Kubernetes サービスであるとともに、カスタム ML プラットフォームのデプロイ、スケール、管理に最適なプラットフォームとなっています。GKE NVIDIA GPU ドライバを自動的にインストールできるようになったため、お客様は GPU をより簡単に利用できます

これまでは、GKE GPU を使用するには、DaemonSet を適用して GPU ドライバを手動でインストールする必要がありました。手動による方法には、お客様が環境をより明確に制御できるという利点があるとはいえ、デプロイ ワークフローを遅らせる不要な手間のように感じられるお客様もいました。

今後、GKE はお客様に代わって GPU ドライバを自動的にインストールできます。GKE GPU ドライバの自動インストール機能が一般提供されるようになったことで、GPU の使用がさらに容易になりました。

ドライバの自動インストールは、GKE ノードプールに GPU を追加する作業を簡素化するための優れた機能です。当社は、すべての AI ワークロードで使用しています– AI21、バイス プレジデント Barak Peleg 

また、GPU ドライバのインストール管理を Google にオフロードすることで、ドライバを GKE ノード用にプリコンパイルできるため、GPU ノードの起動にかかる時間を短縮できます。

GPU ドライバのインストールの設定

GKE ノードプールの作成時に GPU ドライバの自動インストールを利用するには、DRIVER_VERSION オプションに次のいずれかのオプションを指定します。

  • default: GKE バージョンに対応する、デフォルトのドライバ バージョンをインストールします。

  • latest: GKE バージョンに対応する、最新のドライバ バージョンをインストールします。Container-Optimized OS を使用するノードでのみ指定できます。

ドライバを手動でインストールしたい場合は、DRIVER_VERSION disabled を指定することで、ドライバの自動インストールをスキップできます。何も指定しない場合、現時点では、手動インストールがデフォルトの動作になります。

gcloud GPU ドライバのインストールを有効にする方法は次のとおりです。

読み込んでいます...

GKE コンソール UI からも有効にできます。ノードプールのマシンの構成で GPU を選択します。すると、以下のように、[Google-managed]Google が管理)または [User-managed](ユーザーが管理)のオプションが表示されます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/image2_TQE8Elq.max-1100x1100.png

[Google-managed] オプションを選択すると、ノードプールの作成時に必要な GPU ドライバが自動的にインストールされ、追加の手作業が不要になります。当面の間、GPU ドライバのインストールは [User-managed] に設定されますが、将来的には、大半のユーザーがこの新しいアプローチに慣れたところで、GKE のデフォルトの選択を [Google-managed] に切り替える予定です。

GKE GPU を使用する方法について詳しくは、ドキュメントをご覧ください。

ー ソフトウェア エンジニア Jiaqi Cao

AI / ML プロダクト マネージャー Winston Chiang

投稿先