コンテンツに移動
ストレージとデータ転送

Parallelstore の一般提供が始まり、次世代の AI と HPC のワークロードを推進する

2024年10月17日
Barak Epstein

Product Manager

Chinmayee Rathi

Product Manager

※この投稿は米国時間 2024 年 10 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。

多くの組織は、人工知能(AI)とハイ パフォーマンス コンピューティング(HPC)アプリケーションを使用して、膨大なデータセットを処理し、複雑なシミュレーションを実行しています。また何十億ものパラメータを持つ生成モデルをトレーニングして、LLM、ゲノム解析、定量分析、リアルタイムのスポーツ分析など多様なユースケースに対応しています。このようなワークロードは、ストレージ システムのパフォーマンスに大きな負荷をかけます。何千個ものクライアントが同じ共有ファイルを同時に読み書きする場合にも、レイテンシをミリ秒以下に抑えながら、スケーリング可能な高スループットと I/O パフォーマンスが求められるのです。

このような次世代 AI HPC のワークロードを強化するために、Google Cloud Next 2024 にて Parallelstore 発表しました。そしてこのたび、Parallelstore の一般提供開始をお知らせすることになりました。Parallelstore Distributed Asynchronous Object StorageDAOS)アーキテクチャを構築基盤とし、完全な分散型メタデータと Key-Value アーキテクチャを組み合わせることで、高パフォーマンスのスループットと IOPS を実現します。

ここでは、Parallelstore がどのように AI HPC の複雑なワークロード ニーズに応えるのかをお伝えします。グッドプット GPU / TPU 使用率の最大化、Parallelstore へのプログラムによるデータ出入力、Google Kubernetes Engine Compute Engine のリソースのプロビジョニングについて、知識を深めましょう。

グッドプットと GPU / TPU 使用率を最大化する

従来の並列ファイル システムのパフォーマンス上の限界を打破するために、Parallelstore では分散型のメタデータ管理システムと Key-Value ストア アーキテクチャを採用しています。Parallelstore の高スループット並列データアクセスは、レイテンシと I/O ボトルネックを最小限に抑え、各コンピューティング クライアントのネットワーク帯域幅を飽和状態にします。効率的にデータを配信することで、GPU / TPU へのグッドプット(AI ワークロードのコスト最適化に欠かせない要素)を最大化できるのです。Parallelstore は、数千もの VMGPU / TPU に継続的な読み取り / 書き込みアクセスを提供し、規模の小さなものから大規模なものまで、AI HPC のさまざまなワークロード要件を満たします。

100 TiB のデプロイ(Parallelstore の最大デプロイ量)であれば、スループットは 115 GiB/秒まで、読み取り IOPS 300 万回まで、書き込み IOPS 100 万回までのスケーリングが可能で、レイテンシは 0.3 ミリ秒まで下げられます。つまり Parallelstore は、小規模ファイルにも、大量のクライアントからのランダムな分散アクセスにも適したプラットフォームであるということです。AI ユースケースの場合、小規模ファイルとメタデータ オペレーションを使用した Parallelstore のパフォーマンスにより、ネイティブな ML フレームワークのデータローダと比較してトレーニング時間が最大 3.9 倍高速化し、トレーニング スループットが最大 3.7 倍向上します(Google Cloud ベンチマークによる測定)。

プログラムで Parallelstore へのデータ出入力を行う

多くの AI HPC のワークロードで使用するデータは、準備とアーカイブのために Cloud Storage に保存されています。データを Parallelstore にインポートして処理するには、Parallelstore のインポート / エクスポート統合 API をご利用ください。データの移動を自動化できます。この API を使用すると、32 MB を超えるファイルは 20 GB/秒、32 MB 以下のファイルは 5,000 ファイル/秒の速さで、Cloud Storage の大規模なデータセットを Parallelstore に取り込むことができます。

読み込んでいます...

図 1: Parallelstore Import gCloud API

AI トレーニング ジョブまたは HPC ワークロードが完了すると、結果をプログラムで Cloud Storage にエクスポートして、評価を進めたり長期保存したりすることができます。API 経由でデータ移転を自動化し、手動の介入を最小限に抑えてデータ パイプラインを能率化することも可能です。

読み込んでいます...

図 2: Parallelstore Export gCloud API

CSI ドライバを使用して GKE リソースをプログラムでプロビジョニングする

Parallelstore GKE CSI ドライバを使用すると、コンテナ化されたワークロード用の高性能ストレージを効率的に管理しやすくなります。Parallelstore ファイル システムを永続ボリュームとして動的にプロビジョニングおよび管理できるほか、Kubernetes ワークロードにある既存の Parallelstore インスタンスにアクセスできます。これらの操作は、使い慣れた Kubernetes API を使用して GKE クラスタ内で直接実行します。これにより、別のストレージ システムを習得して管理する必要性が低減し、リソースの最適化と TCO の削減に注力できます。

読み込んでいます...

図 3: Parallelstore CSI ドライバによるストレージ クラスの作成例

今後数か月で、フルマネージドの GKE Volume Populator を介して Cloud Storage からデータをプリロードできるようになります。これにより、PersistentVolumeClaim プロビジョニングのプロセス中、Cloud Storage から Parallelstore への直接的なデータのプリロードが自動で行われるようになります。これによりトレーニング データの即時利用が可能になり、コンピューティング リソースがアイドル状態となる時間を最小限に抑えるとともに、GPU / TPU の使用率を最大まで高めることができます。

Cluster Toolkit を使用して Compute Engine リソースをプログラムでプロビジョニングする

Cluster Toolkit のサポートがあれば、Compute Engine 用の Parallelstore インスタンスをデプロイするのは簡単ですCluster Toolkit(以前の Cloud HPC Toolkit)は、HPC AI のワークロードをデプロイするためのオープンソース ソフトウェアです。Cluster Toolkit は、ベスト プラクティスに従ってクラスタ / ワークロード用のコンピューティング、ネットワーク、ストレージのリソースをプロビジョニングします。ブループリントを 4 行だけ変更して Parallelstore モジュールを組み込めば、今日から Cluster Toolkit をご利用いただけます。便利なスターター ブループリントも用意しています。Cluster Toolkit に加えて、Terraform テンプレートもご利用ください。これは、Parallelstore をデプロイしてコードによるオペレーションとプロビジョニングをサポートするほか、手動によるオペレーションのオーバーヘッドを最小限に抑えます。

読み込んでいます...

図 4: Terraform を使用して Parallelstore を構成し、管理する

現実世界への影響: Respo.vision Parallelstore で新たな可能性を開拓する

スポーツ映像分析を牽引する Respo.Vision は、リアルタイム システムに Parallelstore を活用し、4K 動画から 8K 動画へのアップグレードを促進しています。Parallelstore をトランスポート層として使用することで、細かいデータマーカーをキャプチャして、それにラベルを付け、コーチ、スカウト、ファンに実用的な分析情報を提供するのに役立ちます。Respo.vision は、Parallelstore を活用してコンピューティングのレイテンシを低く抑えながら、高額なインフラに投資することなく、急増する高パフォーマンス動画を処理できました。

「当社の目標は、8K 動画ストリームを 25 フレーム/秒で処理し、お客様に高品質なスポーツ分析データを提供することでした。Parallelstore は必要量を難なく処理し、0.3 ミリ秒という見事な読み取りレイテンシを実現することで、期待以上の成果を上げてくれました。当社システムへの統合も非常にスムーズで、Parallelstore の分散性によりシステムのスケーラビリティと復元力が大幅に向上しています。」 - Respo.visionCTOWojtek Rosinski

HPC AI の利用は急速に拡大しています。革新的なアーキテクチャやパフォーマンスを組み合わせ、Cloud StorageGKECompute Engine と統合した Parallelstore は、困難な GPU / TPU とワークロードの対応に欠かせないストレージ ソリューションです。Parallelstore の詳細についてはドキュメントをご確認いただき、セールスチームにお問い合わせください。

プロダクト マネージャー Barak Epstein

プロダクト マネージャー Chinmayee Rathi

投稿先