コンテンツに移動
Containers & Kubernetes

フルマネージド GKE で AI を実行: 新たなコンピューティング オプション、料金、リソース予約

2024年3月14日
Google Cloud Japan Team

※この投稿は米国時間 2024 年 3 月 7 日に、Google Cloud blog に投稿されたものの抄訳です。

Kubernetes は、トレーニングや大規模言語モデル(LLM)のサービング(新しいオープンモデルの Gemma にも対応しました)といった AI ワークロードを実行する方法として広く利用されています。Autopilot モードの Google Kubernetes EngineGKE)では、コンピューティング ノードの心配をすることなく Kubernetes のパワーと柔軟性を活用できるフルマネージド Kubernetes プラットフォームが提供されるため、AI を通じて独自のビジネス価値を提供することに集中できます。本日は、Autopilot の新しい Accelerator コンピューティング クラスについてお知らせいたします。このクラスは、リソース予約機能により GPU サポートを向上させ、ほとんどの GPU ワークロードの料金を引き下げます(現在、この料金設定は選択制で、最終的にはすべてのワークロードがこの料金設定に移行されます)。また、新しい Performance コンピューティング クラスも追加されます。これにより、高パフォーマンス ワークロードを Autopilot モードで大規模に実行できるようになります。どちらのコンピューティング クラスもブートディスク上で利用可能なエフェメラル ストレージが増え、AI モデルなどをダウンロードするのに利用できるため、すぐに汎用のエフェメラル ボリュームを追加のストレージとして構成する必要はありません。これらの機能強化により、フルマネージド Kubernetes プラットフォームは、推論などのコンピューティング負荷の高いワークロードでますます活用しやすくなりました。

Autopilot モードで実行される GKE では、ノードの指定やプロビジョニングを前もって行う必要がないため、ワークロードの構築と独自のビジネス価値の創造に集中できます。フルマネージド プラットフォームなので、ワークロードを一度構築すれば、運用上のオーバーヘッドを抑えて実行することが可能になります。今回のニュースは、お客様のメリットをさらに拡大するものです。

より低料金の GPU、さらなる割引

GKE 上で Autopilot モードで実行される大半の GPU ワークロードの料金を引き下げ、Google Cloud の他のプロダクトやエクスペリエンスとの互換性を向上させるため、新しい課金モデルに移行いたします。これにより、GKE Standard モードと Autopilot モード間や、Compute Engine VM 間でワークロードを移動しても、既存の予約や確約利用割引を維持できます。

新しい料金モデルを有効にすると(有効にするには、以下のコードサンプルに示されているように Accelerate コンピューティング クラスを指定します)、リソースは Compute Engine VM リソースに基づいて課金され、そこにフルマネージド エクスペリエンスのための追加料金が加算されます。現在、新しい料金モデルは選択制ですが、4 30 日以降は GPU ワークロードをこの新しいモデルに自動的に移行する GKE のバージョンがリリースされます。この変更により、ほとんどのワークロードの料金が下がります(GPU あたり vCPU 2 個未満の NVIDIA T4 GPU 上のワークロードについては、料金がわずかに高くなります)。

us-central1 リージョンにおける GPUCPU、メモリの各リソースに対する、いくつかのワークロード サイズの 1 時間あたりの料金(ストレージは別途料金)を比較した表を以下に示します。

GPU

Pod のリソース リクエスト

VM リソース

以前の料金GPU Pod

新しい料金(Accelerator コンピューティング クラス Pod

NVIDIA A100 80 GB 

1 個の GPU

11 個の vCPU

148 GB のメモリ

1 個の GPU

12 個の vCPU

170 GB のメモリ

$6.09

$5.59

NVIDIA A100 40 GB

1 個の GPU

11 個の vCPU

74 GB のメモリ

1 個の GPU

12 個の vCPU

85 GB のメモリ

$4.46

$4.09

NVIDIA L4 

1 個の GPU

11 個の vCPU

40 GB のメモリ

1 個の GPU

12 個の vCPU

48 GB のメモリ

$1.61

$1.12

NVIDIA T4 

1 個の GPU

1 個の vCPU

1 GB のメモリ

1 個の GPU

2 個の vCPU

2 GB のメモリ

$0.46

$0.47

NVIDIA T4 

1 個の GPU

20 個の vCPU

40 GB のメモリ

1 個の GPU

22 個の vCPU

48 GB のメモリ

$1.96

$1.37

Accelerator コンピューティング クラスを使用する場合、ワークロードは、システム Pod に割り当てられたリソースへのバーストを含む完全なノード VM 容量に対して課金され、これを利用できます。

この変更を今すぐ有効にするには、バージョン 1.28.6-gke.1095000 以降にアップグレードし、次のように既存の GPU ワークロードにコンピューティング クラス セレクタを追加します。

読み込んでいます...

高パフォーマンス CPU リソース

ワークロードに専用の CPU リソースが必要な場合、Autopilot によって GPU と同様のアプローチを取ることができます。新しい C3、C3D、H3 に加え、C2、C2D などの Compute Engine の主要マシン ファミリーで GKE Autopilot ワークロードを実行できるようになりました。これらのリソースは、Performance コンピューティング クラスの一部としてリクエストできます。次に例を示します。

読み込んでいます...

予約

予約は、プロジェクトで将来の需要増加に備えてリソースを確保するのに役立ちます。以前は Autopilot モードで予約を使用することはできませんでしたが、このたび、それが可能になりました。予約の使用は簡単で、GPU(新モデルを選択した場合)と高パフォーマンス CPU の両方で使用できます。

より大きなブートディスク

GKE を使用すると、コンテナに複数の永続ボリュームをマウントすることができ、各ボリュームの容量はコンテナ内の任意のパスで最大 64 TB までとなりますが、より大きなブートディスクを Pod に提供することで、別のボリュームをマウントせずにエフェメラル ストレージを使用できるようになります。前述の Performance または Accelerator コンピューティング クラスのラベルを使用する場合、ワークロードは最大 122 GiB のエフェメラル ストレージを使用できます。さらに多くの保存容量が必要な場合は、永続ディスクをマウントして、さらに拡張できます。

必要なときはハードウェア、不要なときはシンプルに

「通常の Autopilot Pod はこの新しいモデルのどこに位置づけられるのだろうか?」と疑問に思われるかもしれません。このように考えてみてください。C3 マシンが提供するような専用の高パフォーマンス CPU ハードウェアを必要とするワークロードがある場合、前述のノードセレクタを使用して、その要件を持つワークロードだけにアノテーションを付けることができます。

しかし、プライマリ ワークロードと並行して実行されるものの、同じコンピューティング能力を必要としないサポート ワークロードはどうでしょうか。Autopilot モードが本当に優れているのはこの点です。デフォルトでは、他のすべてのワークロードは標準 Pod モデルで実行され続け、高パフォーマンス CPU を必要としないワークロードで優れたコスト パフォーマンスを実現します。Autopilot モードでは、特定の GPU やマシン ファミリーのような特殊なハードウェアを必要とするワークロードにアノテーションを付けるだけで、後は自動的に処理されます。他のワークロードを空白のままにしておけば、誤って特殊なハードウェアで実行されることはありません。このようにして、Autopilot で広く適用可能なデフォルト設定に加え、必要なときに特殊なハードウェアを使用すれば、それぞれの実行環境でコストを最適化できます。

お客様の声

https://storage.googleapis.com/gweb-cloudblog-publish/images/contextual_ai.max-900x900.jpg

Contextual AI では、次世代の検索拡張生成(RAG)を構築しています。Contextual Language ModelCLM)は、RAG 1.0 の欠点に対処するためにエンドツーエンドで最適化されており、企業のお客様が本番環境グレードのワークフローを構築するのに役立ちます。これを実現するために、当社は、この複雑なアプリケーションの実行に対応できるフルマネージド Kubernetes サービスである GKE Autopilot を利用しています。GKE Autopilot によって、簡単に Pod をスケールし、リソースの利用を最適化して、ノードのセキュリティと可用性を確保できます。また、GPU 以外のサービスには通常の Autopilot Pod を使用する一方で、推論タスクには、より費用対効果の高い GPU を提供する新しい課金モデルを活用しています。GKE Autopilot を利用して CLM を強化し、費用削減とパフォーマンス向上を実現できることを嬉しく思います。」- Contextual AI、技術スタッフ メンバー Soumitr Pandey

https://storage.googleapis.com/gweb-cloudblog-publish/images/hotspring.max-900x900.jpg

GKE Autopilot を当社の ML インフラストラクチャに採用したのは、私たちのチームがクラスタの管理ではなく研究開発に集中できるようにするためです。このアプローチは、リージョン クラスタ全体のリソースのプロビジョニングを自動化するだけでなく、業務の効率化も実現します。Autopilot の最新の機能強化は特にすばらしいです。統合されたリソースプールを提供するだけでなく、予約機能も導入されているので、プロジェクトの納期をより詳細に管理できるようになりました。」- HotspringCEO Jon Mason

先日リリースされた Autopilot の新機能の詳細については、以下のリソースをご覧ください。

-Google Kubernetes Engine、グループ プロダクト マネージャー William Denniss

投稿先