新しい GKE Cloud Storage FUSE プロファイルにより、AI ストレージの構成における当て推量が不要に
Nishtha Jain
Engineering Manager
Uriel Guzmán-Mendoza
Software Engineer
※この投稿は米国時間 2026 年 4 月 9 日に、Google Cloud blog に投稿されたものの抄訳です。
AI / ML の世界では、データはトレーニングと推論のワークロードに欠かせない要素です。Google Kubernetes Engine(GKE)ユーザーは、Cloud Storage FUSE を使用して Google Cloud Storage に保存されているデータに高いパフォーマンスでスケーラブルにアクセスできます。しかし、Cloud Storage FUSE のパフォーマンスを最大限に引き出すのは複雑な場合がある、というお客様の声が寄せられていました。
このたび、GKE Cloud Storage FUSE プロファイルが導入されました。この新機能は、運用オーバーヘッドを最小限に抑えながら、パフォーマンス調整を自動化し、AI / ML ワークロード(トレーニング、チェックポイント、推論)のデータアクセスを高速化するように設計されています。特定のワークロードのニーズに合わせて調整されたこれらのプロファイルを使用すると、Cloud Storage FUSE の高いパフォーマンスをすぐに活用できます。
導入前(手動調整)
導入後(Cloud Storage FUSE のマウント オプション、CSI 構成、ファイル キャッシュ メディアが自動的に構成されます)
Cloud Storage FUSE の最適化に伴う課題
高パフォーマンスのワークロード向けに Cloud Storage FUSE を最適化することは、多次元的な問題です。従来、ユーザーは数十ページに及ぶ手動構成ガイドを読み解く必要がありました。AI / ML の進化に伴い、Cloud Storage FUSE の機能も強化され、ワークロードを高速化するための新しいマウント オプションが利用できるようになりました。設定が「適切」かどうかは静的なものではなく、さまざまな動的要因に大きく左右されるものでした。
-
バケットの特性: データセットの合計サイズとオブジェクトの数は、メタデータとファイル キャッシュの要件に大きく影響します。
-
インフラストラクチャの多様性: GPU、TPU、汎用コンピューティングのいずれを使用するかによって、最適な構成は異なります。
-
ノードリソース: Cloud Storage への費用のかかるラウンドトリップを最小限に抑えるためにローカルにキャッシュ保存できるデータの量は、利用可能な RAM とローカル SSD の容量によって決まります。
-
ワークロード パターン: トレーニング ワークロード(大規模データセットの高スループット読み取り)では、チェックポイント ワークロード(バースト性が高い、高スループット書き込み)やサービング ワークロード(レイテンシの影響を受けやすいモデルの読み込み)とは異なる調整が必要です。
実際、多くのお客様は、Cloud Storage FUSE の設定が最適化されていないか、誤って構成されているために、利用可能なパフォーマンスを十分に活用できていないか、信頼性の問題(Pod のメモリ不足による強制終了など)に直面しています。
GKE 向け Cloud Storage FUSE プロファイルの概要
GKE Cloud Storage FUSE プロファイルは、特定の AI / ML パターンに合わせてカスタマイズされた、事前定義された動的管理の StorageClass を使用して、この複雑さを簡素化します。数十ものマウント オプションを手動で調整する必要はなく、ワークロードのタイプに一致するプロファイルを選択するだけでかまいません。
これらのプロファイルは、階層化されたモデルで機能します。Cloud Storage FUSE の基本的なベスト プラクティスをベースに、GKE 固有のインテリジェンス レイヤを追加します。プロファイルを使用して Pod をデプロイすると、GKE は自動的に次の処理を行います。
-
バケット(または特定のディレクトリ)をスキャンして、そのサイズとオブジェクト数を把握します。
-
ターゲット ノードを分析して、利用可能な RAM、ローカル SSD、アクセラレータ タイプを確認します。
-
最適なキャッシュ サイズを計算し、最適なバッキング メディア(RAM またはローカル SSD)を自動的に選択します。
リリース時には、次の 3 つの主要なプロファイルが用意されています。
-
gcsfusecsi-training: GPU と TPU にデータを供給し続ける高スループットの読み取りに最適化されています。 -
gcsfusecsi-serving: モデルの読み込みと推論に最適化され、自動化された Rapid Cache 統合が可能です。 -
gcsfusecsi-checkpointing: 数ギガバイトの大きなチェックポイント ファイルを高速かつ確実に書き込むように最適化されています。
GKE Cloud Storage FUSE プロファイルを使用すると、次のようなメリットがあります。
-
調整の簡素化: 複雑でエラーが発生しやすい手動構成が、3 つのシンプルな専用 StorageClass に置き換えられます。
-
リソースを認識した動的な最適化: CSI ドライバは、リアルタイムの環境シグナルに基づいてキャッシュ サイズを自動的に調整するため、ノードの安定性を損なうことなくパフォーマンスを最大化できます。
-
読み取りパフォーマンスの向上: サービング プロファイルは Rapid Cache を自動的にトリガーし、データをコンピューティングの近くに配置して、コールド スタートモデルの読み込みを高速化します。
-
きめ細かなパフォーマンス分析情報: 構造化されたログを通じて自動調整の決定を可視化し、特定のキャッシュ サイズとメディアが Pod に対して選択された理由を正確に把握できます。


GKE Cloud Storage FUSE プロファイルの推論プロファイルを使用することで、TPU(480 GB)上の Qwen3-235B-A22B ワークロードのモデル読み込み時間を 39 時間からわずか 14 分に短縮できました。これにより、お客様は Cloud Storage FUSE GCSFuse をすぐに使用して最大限のメリットを得ることができます。
GKE で Cloud Storage FUSE プロファイルを使用する方法
まず、Cloud Storage FUSE CSI ドライバが有効になっている GKE バージョン 1.35.1-gke.1616000 以降がクラスタで実行されていることを確認します。
1. StorageClass を特定する
GKE には、プロファイル ベースの StorageClass がプリインストールされています。次のコマンドで確認できます。
2. PV と PVC を作成する
PersistentVolume を作成する際、Cloud Storage バケットを参照するようにします。GKE は、最適な構成を判断するためにバケット スキャンを自動的に開始します。
3. デプロイを作成する
PersistentVolumeClaim(PVC)がバインドされたら、他のボリュームと同様に Deployment で使用するだけです。GKE は、ハードウェアとデータセットに必要となる正確な設定でボリュームをマウントします。
デプロイ後、CSI ドライバは、GPU や TPU、メモリ、ローカル SSD、バケットまたはサブディレクトリのサイズ、サイドカーのリソース上限など、ノードのリソースに基づいて最適なキャッシュ サイズとマウント オプションを自動的に計算します。
使ってみる
GKE Cloud Storage FUSE プロファイルを使用すると、高パフォーマンスなクラウド ストレージを構成する際に当て推量が不要になります。手動の「ノブ調整」からワークロードを認識する自動プロファイルに移行することで、ストレージ スループットのデバッグに費やす時間を減らし、次世代の AI の構築に多くの時間を費やすことができます。
ぜひご利用ください。GKE Cloud Storage FUSE プロファイルは、バージョン 1.35.1-gke.1616000 で一般提供されています。AI / ML ワークロード向けに GKE で Cloud Storage FUSE プロファイルを構成する方法については、公式ドキュメントをご覧ください。
- エンジニアリング マネージャー、Nishtha Jain
- ソフトウェア エンジニア、Uriel Guzmán-Mendoza


