デベロッパー

Vertex AI Workbench Notebooks で Cloud Storage をファイルシステムとして利用

2022年6月10日

Google Cloud Japan Team

※この投稿は米国時間 2022 年 6 月 1 日に、Google Cloud blog に投稿されたものの抄訳です。

Vertex AI Workbench User Managed Notebooks で Cloud Storage をファイルシステムとして利用

「gsutil cp -r 」が不要ということになったら、どう感じられるでしょうか？

機械学習モデルを開発されたことがある方なら、データ品質とガバナンスの課題を経験されていることでしょう。モデル開発の際には、Vertex AI Workbench の Jupyter Notebook を立ち上げ、Cloud Storage からデータをコピーします。データセットが大きい場合は、すべてのデータがノートブックにコピーされるまで、しばらく待つことになります。これで、データのコピーが 2 つになります。この数 x 組織内のデータサイエンティスト数を考えてみると、どうやってそれだけのデータを調整するのかという問題が発生します。

Cloud Storage FUSE により、Vertex AI Workbench Notebooks や Vertex AI トレーニングジョブに Cloud Storage バケットをファイルシステムとしてマウントできるようになりました。こうすることで、すべてのデータを単一のリポジトリ（Cloud Storage）に保管し、信頼できる唯一の情報源として複数のチーム間で利用できるようになります。

Cloud Storage FUSE

Cloud Storage FUSE は Vertex AI システムにマウントされる File System in User Space（FUSE）です。これは従来の Cloud Storage へのアクセス方法に比べ、3 つのメリットを提供します。

データをダウンロードすることなく、ジョブをすばやく開始することが可能。
Cloud Storage API の呼び出し、レスポンスの処理、クライアントサイドライブラリとの統合などの操作を行わなくても、ジョブで大規模かつ簡単に I/O を実行可能。
ジョブは、Cloud Storage FUSE の最適化されたパフォーマンスを活用可能。

Cloud Storage FUSE の詳細とベストプラクティスについては、こちらをご覧ください。

すべてのカスタムトレーニングジョブで、Vertex AI はアクセス可能な Cloud Storage バケットを各トレーニングノードのファイルシステムの /gcs/ ディレクトリにマウントします。ローカルファイルシステムに直接読み書きを行い、Cloud Storage のデータを読み書きできます。

Vertex AI Workbench Notebooks の場合、数ステップで Cloud Storage FUSE に対応します。次にその方法を説明します。では、さっそく始めましょう。

Vertex AI Workbench Notebooks を開始する

Vertex AI Workbench は、Jupyter Notebooks を実行するためのフルマネージド、スケーラブル、エンタープライズ対応のコンピューティングインフラストラクチャです。Workbench Notebooks にはディープラーニングパッケージスイートがプリインストールされています。また、TensorFlow、PyTorch、scikit-learn など複数のフレームワークをサポートしています。さらにカスタマイズが必要な場合も、問題ありません。お気に入りのフレームワークと依存関係を持つカスタムコンテナも構築できます。