Anthos と NVIDIA ですべてのクラウドに GPU ワークロードをデプロイ
Google Cloud Japan Team
※この投稿は米国時間 2020 年 8 月 18 日に、Google Cloud blog に投稿されたものの抄訳です。
この度 Google は、ハイブリッド クラウドとオンプレミス環境の Anthos で NVIDIA GPU ワークロードを実行できる NVIDIA との共同ソリューションを発表いたします。このソリューションはベータ版で、すべてのユーザーに一般公開されます。
クラウド間で GPU ワークロードを実行
機械学習は、今日の市場で最も急速に成長しているアプリケーション セグメントの一つであり、バイオテクノロジー、小売、製造など、多くの産業に力を与えています。
このような前例のない成長に伴い、お客様は複数の課題に直面しています。1 つ目は、機械学習と HPC ワークロードを実行する場所の選択が難しいことです。クラウドは機械学習ワークロードに柔軟性を与えますが、一部のアプリケーションは、レイテンシ、データサイズ、規制要件などにより、特定のデータセンター内やエッジ ロケーションに存在する必要があります。
もう 1 つの課題は、オンプレミス GPU リソースの高い需要です。組織がどれだけ迅速に GPU ハードウェアを導入しても、常に需要が供給を上回るため、GPU への投資を最大化し続ける必要があります。
また、組織はクラウド リソースとオンプレミス リソースの両方を最大化するハイブリッド アーキテクチャも求めています。このアーキテクチャでは、モデルの開発とトレーニングをクラウドで短期集中して行いながら、推論と安定したランタイムをオンプレミスで実現することが可能です。また、その逆も可能です。
Anthos と ML ワークロード
Anthos は、顧客がクラウドとオンプレミスの両方でアプリケーションを簡単に実行できるように構築されています。Kubernetes 上に構築された Anthos の高度なクラスタ管理とマルチテナンシー機能により、チーム間で ML インフラストラクチャを共有し、使用率を高め、独自の環境の管理のオーバーヘッドを削減できます。
また、Anthos では、オンプレミス、他のクラウド プロバイダ、エッジなど、アプリケーションの存在場所にかかわらず、どこでもアプリケーションを実行できます。Anthos と TensorFlow や Kubeflow などのオープンソースの ML フレームワークを組み合わせた柔軟なデプロイ オプションにより、まさにクラウドポータブルな ML ソリューションとアプリケーションを構築できます。
社内開発のアプリケーションに加えて、Anthos を使って Vision AI、Document AI などの Google Cloud のクラス最高の ML サービスをデータセンターやエッジ ロケーションにデプロイすると、組織の ML イニシアチブを強化できます。
Google と NVIDIA のコラボレーション
このソリューションは、AI / ML アクセラレーションのリーダーである NVIDIA と Google の強力な関係に基づいて構築されています。Kubernetes で GPU を有効にするために必要な GPU ドライバとソフトウェア コンポーネントは、NVIDIA GPU Operator を使用してデプロイされます。さらに、このソリューションは V100 や T4 など、人気のある多くの NVIDIA データセンター GPU で動作します。この幅広いサポートにより、Anthos を使用しながら NVIDIA GPU への既存および将来の投資を活用できます。サポートされている NVIDIA プラットフォームの詳細については、NVIDIA GPU Operator のドキュメントをご覧ください。また、その他のGoogle Cloud と NVIDIA のコラボレーションの詳細もご覧いただけます。
開始方法
このソリューションはベータ版として提供されており、Anthos オンプレミス 1.4 以降で動作します。Google Cloud の Anthos とサポートされている NVIDIA GPU を使用して NVIDIA GPU を使い始める方法については、こちらのドキュメントをご覧ください。
-Anthos プロダクト マネージャー Amr Abdelrazik