コンテンツに移動
Containers & Kubernetes

新機能 GKE Volume Populator で AI / ML データ転送を効率化

2025年6月6日
Danna Wang

Software Engineer

Akshay Ram

Group Product Manager, GKE

Try Gemini 2.5

Our most intelligent model is now available on Vertex AI

Try now

※この投稿は米国時間 2025 年 6 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

AI / ML 開発者は、インフラストラクチャを選択する際に多くの決断を下す必要があります。この点は、フルマネージドの Google Kubernetes Engine(GKE)環境を利用する場合も同じです。GKE は AI / ML ワークロードの一元的なオーケストレーターとして機能し、コンピューティング リソースの管理、ワークロードのスケーリング、複雑なワークフローの簡素化を行いますが、ML フレームワーク、好みのコンピューティング(TPU または GPU)、スケジューラ(Ray、Kueue、Slurm)、ワークロードのスケーリング方法を選択するのは開発者です。ストレージを構成する頃には、「決断疲れ」していることでしょう。

サイズ、規模、費用効率の観点から Google の Cloud Storage を選択するのもよいでしょう。ただし、Cloud Storage が適していないユースケースもあります。そこで、たとえば Cloud Storage の前に Hyperdisk ML のようなストレージ アクセラレータを配置すると、モデルの重み付けの読み込み時間を短縮できることがあります。しかし、このようなアクセラレータを利用するには、ストレージ システム間でのデータ転送をオーケストレートするカスタム ワークフローを開発する必要があります。

GKE Volume Populator について

GKE Volume Populator は、データを 1 つのデータソースに保存し、GKE でデータ転送をオーケストレートすることを目指す組織向けのソリューションです。そのために、GKE はお客様が現在使用しているものと同じ PersistentVolumeClaim API 経由で Kubernetes Volume Populator 機能を利用します。

GKE Volume Populator と関連 CSI ドライバが連携し、新しい宛先ストレージ ボリュームを動的にプロビジョニングして、Cloud Storage バケットから宛先ストレージ ボリュームにデータを転送します。ワークロード Pod は、データ転送が完了するまでスケジュール設定を待機します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/gke-volume-populator-tech-blog-v4.max-2200x2200.png

GKE Volume Populator を使用すると、次のような多くのメリットがあります。

  • 少ない管理オーバーヘッド: デフォルトで有効になっているマネージド ソリューションに含まれる GKE Volume Populator がデータ転送を処理するため、データ ハイドレーション用のカスタム ソリューションを構築する必要はなく、GKE に処理を任せることができます。

  • きめ細かいアクセス制御: GKE Volume Populator は、名前空間レベルの Cloud Storage バケット アクセス認証に対応しています。

  • リソース使用率の最適化: データ転送が完了するまで、ワークロード Pod のスケジュール設定がブロックされます。データ転送中は、GPU / TPU を他のタスクに使用できます。

  • 進捗状況の簡単な追跡: PVC オブジェクトのイベント メッセージを確認することで、データ転送の進捗状況をモニタリングできます。

お客様からは GKE Volume Populator が AI 開発プロセスの効率化に役立っているという声が寄せられており、たとえば Abridge からは次のような報告がありました。

Abridge は、生成 AI を活用して患者と医療従事者の間の会話をリアルタイムで要約することで、臨床文書に革命をもたらしています。Google Cloud Hyperdisk ML を採用したことで、モデルの読み込み速度が最大 76% 向上し、Pod の初期化時間が短縮されました。また、新しい GKE Volume Populator 機能により、Cloud Storage バケットに保存されている大規模モデルや LoRA アダプタへのアクセスが大幅に効率化されました。こうしたパフォーマンスの向上により、医療従事者の繁忙期には特に、これまでにない高い効率で臨床記録を処理、生成できるようになりました。」- Abridge、ソフトウェア エンジニア、Taruj Goyal 氏

Hyperdisk ML を介してデータを高速化

たとえば、ある AI / ML 推論ワークロードがあり、データが Cloud Storage バケットに保存されているとします。この状況で、データを Cloud Storage バケットから Hyperdisk ML インスタンスに移動して、モデルの重み付けの読み込みの高速化、最大 2,500 個の同時実行ノードへのスケールアップ、Pod のオーバープロビジョニングの削減を行うとします。GKE Volume Populator を使用してこれを実現する方法は次のとおりです。

1. GKE クラスタを準備する: 対応する CSI ドライバを備えた GKE クラスタを作成し、Workload Identity Federation for GKE を有効にします。

2. 必要な権限を設定する: GKE Volume Populator が Cloud Storage バケットに対する読み取りアクセス権を持つように権限を構成します。

3. データソースを定義する: GCPDataSource を作成します。これに、次の内容を指定します。

  • データを含む Cloud Storage バケットの URL

  • バケットへの読み取りアクセス権を持つ、作成済みの Kubernetes サービス アカウント

4. PersistentVolumeClaim を作成する: ステップ 3 で作成した GCPDataSource と、移行先ストレージ向けの対応する StorageClass を参照する PVC を作成します。

5. AI / ML ワークロードをデプロイする: PVC を使用して推論ワークロードを作成します。手順 4 で作成した PVC を使用するようにこのワークロードを構成します。

GKE Volume Populator は一般提供されており、Hyperdisk ML のサポートはプレビュー版です。この機能をコンソールで有効にする場合は、アカウント チームまでお問い合わせください。

-ソフトウェア エンジニア、Danna Wang

-GKE、グループ プロダクト マネージャー、Akshay Ram

投稿先