クラウドデータによる効率的な PyTorch トレーニング

Vertex AI Neural Architecture Search には、トレーナーの設計方法に関する要件はありません。したがって、トレーナーを構築するためのトレーニング フレームワークを選択します。

大量のデータを使用して PyTorch トレーニングを行うためのおすすめの方法は、分散トレーニング パラダイムを使用して、Cloud Storage からデータを読み取ることです。トレーニングのパフォーマンスを向上させる方法については、ブログ投稿の Vertex AI による効率的な PyTorch トレーニングをご覧ください。WebDataset を使用して DistributedDataParallel または FullyShardedDataParallel の分散トレーニング戦略を選択することにより、Cloud Storage のデータでパフォーマンス全体が 6 倍向上したことを確認できます。Cloud Storage 上のデータを用いたトレーニング パフォーマンスは、ローカル ディスク上のデータを用いたトレーニング パフォーマンスとほぼ同等です。

ビルド済みの MNasNet 分類サンプルでは、これらのメソッドがトレーニング パイプラインに組み込まれています。