コンテンツに移動
ストレージとデータ転送

Next '24 で発表された生成 AI の基盤となるクラウド ストレージのイノベーション

2024年4月19日
https://storage.googleapis.com/gweb-cloudblog-publish/images/Next24_Blog_blank_2-03.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2024 年 4 月 11 日に、Google Cloud blog に投稿されたものの抄訳です。

生成 AI により、ソリューションを生み出す方法、イノベーションの進め方、世界とかかわり方が大きく変化しようとしています。まるで本物のような画像や動画を生成する、音楽を作曲する、コードを記述するなど、生成 AI モデルによりこれまでは考えられなかったことが可能になっています。ですが、AI の威力を十分に活用するためには、スケーラブルなストレージ基盤が欠かせません。

Google Cloud では、企業が生成 AI の潜在能力を活かすためのインフラストラクチャを提供できるよう取り組みを進めています。Google Cloud Next '24 では、ストレージのポートフォリオに加わった一連の新機能を発表しました。

Google Cloud のストレージによる AI のトレーニングと推論の高速化

生成 AI モデルでは、コンピューティング負荷が高く、時間のかかるプロセスを通して、データセットに対するトレーニングが行われます。このようなトレーニングにより、トレーニング データに似た新しいコンテンツを生成する能力が徐々に高められます。同様に、本番環境における AI による推論(サービング)では、低レイテンシでのモデルへのアクセスが必要です。Next '24 では、アクセラレータを最大限に利用しつつ、モデルの負荷を低減し、トレーニングや推論の時間を短縮するという課題に対応するための新しいストレージ ソリューションを発表しました。

ファイル キャッシュを備えた Cloud Storage FUSE: ローカル データアクセスによりトレーニングと推論を高速化

Cloud Storage FUSE を使用すると、Cloud Storage バケットをファイルシステムとしてマウントできます。多くの場合にファイルベースのデータアクセスが必要なフレームワークに依存する AI / ML ワークロードにとって、これは革新的な機能です。トレーニングと推論において、低費用などのメリットを備えた Cloud Storage にファイルシステム API を介してアクセスできます。さらに、ファイル キャッシュ機能が追加されたため、Cloud Storage FUSE によりトレーニングのスループットを 2.9 倍向上できます。Cloud Storage FUSE のファイル キャッシュ機能では、頻繁にアクセスされるデータがコンピューティング インスタンスに近い場所に保存されます。これによりネイティブな ML フレームワークのデータローダと比較してトレーニング時間を短縮できるため、短時間で繰り返しテストを実施し、生成 AI モデルを迅速に市場に展開できます。

Parallelstore: 要求の厳しいトレーニング ワークロードのための超低レイテンシとキャッシュ機能

Parallelstore はハイ パフォーマンス コンピューティングや AI / ML ワークロードに最適な Google Cloud の並列ファイル システムです。このたび、Parallelstore のプレビュー版にキャッシュ機能が搭載されました。高いパフォーマンスを実現できるため、トレーニングや複雑な生成 AI モデルに最適です。キャッシュ機能により、ネイティブな ML フレームワークのデータローダと比較して、トレーニング時間を最大 3.9 倍高速化し、トレーニングのスループットを最大 3.7 倍向上させることができます。Parallelstore は、Cloud Storage との間での最適化されたデータのインポートとエクスポート機能も備えており、トレーニングのさらなる高速化につながります。

Hyperdisk ML: トレーニングと推論に特化した高パフォーマンスなストレージ サービス

トレーニングや、本番環境での推論のサービングには、高速で信頼性のあるデータへのアクセスが欠かせません。Hyperdisk ML は、AI ワークロードに特化した新しいブロック ストレージ サービスです。現在プレビュー版のこのサービスは、卓越したパフォーマンスを実現し、トレーニング時間を短縮できるだけでなく、他の一般的な選択肢と比較してモデルの読み込み時間を最大 11.9 倍高速化できます。Hyperdisk ML では、同じボリュームに最大 2,500 個のインスタンスをアタッチでき、1 つのボリュームで他の競合するブロック ストレージ ボリュームと比べて 150 倍以上のコンピューティング インスタンスを提供できるため、アクセラレータのニーズに応じてストレージ アクセスをスケールできます。

Gemini による分析情報生成ツールで大規模にストレージを管理

Google Cloud は、大規模言語モデル(LLM)を使用して大規模にクラウド ストレージを管理できるようイノベーションを進めています。Gemini による分析情報生成ツールは、Google 管理で BigQuery ベースのストレージ メタデータ ウェアハウスである Insights Datasets を基盤として構築されています。数十億個にのぼるオブジェクトを管理している場合でも、シンプルな自然言語を使用して、簡単で迅速にストレージのフットプリントを分析し、費用を最適化して、セキュリティを強化することができます。

Google Cloud では、優れたユーザー エクスペリエンスを提供できるよう配慮して設計する伝統がありますが、Gemini による分析情報生成ツールにおいても、以下のような現代の組織が求める厳しい要件に対応できるソリューションを提供しています。

  • お客様からよく寄せられる質問に対する十分に検証済みの回答: あらかじめ用意された定型のプロンプトに対して、検証済みの回答データを返すことができるため、チームが抱える最も重要な質問に対して迅速かつ正確に回答を得ることができます。

  • ビジュアル要素による理解の促進: 複雑なデータをわかりやすいビジュアル表現に変換することで、主な検出結果を簡単に理解し、分析して、チーム間で共有できます。

  • マルチターン チャットによる深い分析: さらにコンテキストが必要な場合や、続けて質問したい場合でも、Gemini による分析情報生成ツールにはマルチターン チャット機能が備わっているため、対話を通して分析を進め、環境についてきめ細かく理解することができます。

現在、Gemini による分析情報生成ツールは、許可リストによる試験運用版として Google Cloud コンソールからご利用になれます。

その他注目のストレージに関する発表

Next '24 では、AI / ML 以外にも幅広いユースケースに役立つさまざまなストレージのイノベーションが発表されました。

  • Google Cloud NetApp Volumes: NetApp Volumes は、高度なデータ マネジメント機能とスケーラビリティに優れたパフォーマンスを備えたフルマネージド型の SMB および NFS ストレージ サービスで、Windows および Linux ワークロードの費用対効果とパフォーマンス向上に役立ちます。このたび NetApp Volumes では、アクセス頻度に応じ、ポリシーに従って低費用のストレージにファイルを動的に移行する機能が搭載されました(2024 年第 2 四半期にプレビュー版として公開)。さらに、NetApp Volumes のプレミアムとエクストリームのサービスレベルでは、1 PB までのサイズのボリュームがサポートされ、スループットのパフォーマンスがそれぞれ最大 2 倍と 3 倍向上します(2024 年第 2 四半期にプレビュー版として公開)。また、1 GiB といった小さいボリュームもサポートされるフレックス サービスレベルが新たに用意され、2024 年第 2 四半期に 15 Google Cloud リージョンに新たに展開されます(GA)。

  • Filestore: Google Cloud のフルマネージド ファイル ストレージ サービス Filestore で、Filestore 永続ボリュームと Google Kubernetes EngineGKE)のシングルシェア バックアップ(一般提供)、NFS v4.1(プレビュー版)、および Filestore Enterprise の最大 100 TiB までの容量拡張がサポートされるようになりました。

  • Hyperdisk ストレージ プール: Hyperdisk Advanced Capacity(一般提供)および Advanced Performance(プレビュー版)を使用すると、ブロック ストレージ容量を購入し、ワークロード間で共有するプール内で管理することができます。個々のボリュームは、これらのプールからシン プロビジョニングされます。データが実際にディスクに書き込まれるときにのみ容量が消費され、重複排除や圧縮などのデータ削減のメリットがあります。これにより、ストレージ使用率が大幅に向上し、主要なクラウド プロバイダと比較して、一般的なシナリオでストレージ TCO 50% 以上削減できます。Google はストレージ容量プーリングを提供する最初にして唯一のクラウド ハイパースケーラーです

  • Anywhere Cache: Cloud Storage バケットはマルチリージョンに対応しており、このたび Cloud Storage Anywhere Cache が登場しました。このプロダクトでは、大陸内の複数のリージョンにわたりゾーンごとに用意された SSD 読み取りキャッシュを使用して、分析、AI / ML のトレーニングや推論などのキャッシュ可能なワークロードを高速化できるようになりました(許可リストによる一般提供)。

  • 削除(復元可能): Cloud Storage のこの機能では、削除されたアイテムが構成可能な一定期間にわたり保持されるため、データが誤って削除されたり、悪意を持って削除されたりした場合でもデータを保護できます(一般提供)。

  • マネージド フォルダ: この新しい Cloud Storage リソース タイプにより、きめ細かな IAM 権限をオブジェクトのグループに適用できます(一般提供)。

  • タグベースの大規模なバックアップ: Google Cloud のタグを利用して、Compute Engine VM のデータ保護を管理できます(一般提供)。

  • SAP HANA の高パフォーマンス バックアップ: Compute Engine VM で実行される SAP HANA データベースに新しいバックアップ オプションが用意され、データベース対応バックアップで永続ディスク(PD)スナップショット機能を利用できるようになりました(一般提供)。

  • バックアップおよび DR サービス レポート マネージャー: お客様は、Cloud MonitoringCloud LoggingBigQuery を使用して、Google Cloud のバックアップと DR のデータによるレポートをカスタマイズできるようになりました(一般提供)。

Google Cloud のストレージを活用して取り組みを加速

Google Cloud では、企業の皆様が AI / ML ワークロード、エンタープライズ ワークロード、クラウド ファースト ワークロードに秘められた力を十分活用できるようお手伝いすることを目指し日々取り組みを進めています。Google Cloud は、大規模な生成 AI モデルのトレーニング、大規模な推論のサービング、Windows または GKE ワークロードの実行など、さまざまな用途に適した、ビジネスを成功へと導く機能を備えたストレージをご用意しています。Google Cloud のストレージを利用して生成 AI の力を十分に活かせるようサポートいたしますので、詳しくはお気軽に Google のアカウント担当者までお問い合わせください。Next '24 で以下のセッションにライブでご参加いただくこともできます。参加できなかった場合は後日視聴することもできます。

-ストレージ、シニア ディレクター兼 PM Nathan Thomas

-ストレージ、グループ PM Sean Derrington

投稿先