この古いバージョンの AI Platform Training は非推奨になりました。2025 年 1 月 31 日を過ぎると Google Cloud で使用できなくなります。リソースを Vertex AI カスタムトレーニングに移行することで、AI Platform にはない新しい機械学習機能を利用できます。

PyTorch 用の分散トレーニングの構成

このドキュメントでは、分散 PyTorch トレーニングジョブを作成する方法を説明します。分散トレーニングジョブを作成すると、AI Platform Training は、分散 PyTorch トレーニングをサポートする環境変数を使用して、仮想マシン（VM）インスタンスのクラスタ（ノードとも呼ばれる）でコードを実行します。nodesこれにより、トレーニングジョブをスケーリングして大量のデータを処理できるようになります。

このガイドでは、PyTorch スタートガイドで説明されているように、トレーニングに事前に構築された PyTorch コンテナを使用することを前提としています。分散トレーニングに PyTorch コードを適応させるには、最小限の変更が必要です。

トレーニングクラスタ構造の指定

分散 PyTorch トレーニングでは、1 つのマスターワーカーノードと 1 つ以上のワーカーノードを使用するようにジョブを構成します。これらのロールは、次のように動作します。

マスターワーカー: ランクが 0 の VM。このノードはクラスタ内のノード間の接続を設定します。
ワーカー: クラスタ内の残りのノード。各ノードは、トレーニングアプリケーションコードで指定されているように、トレーニングの一部を実行します。

トレーニングクラスタのマスターワーカーノードとワーカーノードを指定する方法については、マシンタイプまたはスケール階層の指定をご覧ください。

コンテナイメージの指定

トレーニングジョブを作成するときに、マスターワーカーの Docker コンテナのイメージを trainingInput.masterConfig.imageUri フィールドで使用するように指定し、各ワーカーの Docker コンテナのイメージを trainingInput.workerConfig.imageUri フィールドで使用するように指定します。事前に構築された PyTorch コンテナのリストをご覧ください。

gcloud ai-platform jobs submit training コマンドを使用してトレーニングジョブを作成する場合、--master-image-uri フラグと --worker-image-uri フラグを使用してこれらのフィールドを指定できます。

ただし、trainingInput.workerConfig.imageUri フィールドを指定しない場合、値はデフォルトの trainingInput.masterConfig.imageUri になります。多くの場合、すべてのノードで同じ事前に構築された PyTorch コンテナを使用します。

トレーニングコードの更新

トレーニングアプリケーションで次のコードを追加して、トレーニングクラスタを初期化します。

import torch

torch.distributed.init_process_group(
    backend='BACKEND',
    init_method='env://'
)

BACKEND は、サポートされている分散トレーニングバックエンドのいずれかに置き換えます（次のセクションを参照）。init_method='env://' キーワード引数は、環境変数を使用してクラスタ内の通信を初期化するよう PyTorch に指示します。詳しくは、このガイドの環境変数セクションをご覧ください。

また、torch.nn.parallel.DistributedDataParallel クラスを使用するようにトレーニングコードを更新します。たとえば、コード内に model という PyTorch モジュールを作成した場合は、次の行を追加します。

model = torch.nn.parallel.DistributedDataParallel(model)

分散トレーニングの構成の詳細については、PyTorch のドキュメントの分散トレーニングガイドをご覧ください。

分散トレーニングのバックエンド

AI Platform Training では、分散 PyTorch のトレーニング用に次のバックエンドがサポートされます。

gloo: CPU トレーニングジョブで推奨
nccl: GPU トレーニングジョブで推奨

バックエンドの違いをご覧ください。

環境変数

分散 PyTorch トレーニングジョブを作成すると、AI Platform Training は各ノードに次の環境変数を設定します。

WORLD_SIZE: クラスタ内のノードの合計数。この変数の値は、すべてのノードで同じです。
RANK: 各ノードの一意の識別子。マスターワーカーでは、この識別子は 0 に設定されます。各ワーカーでは、1 から WORLD_SIZE - 1 までの異なる値に設定されます。
MASTER_ADDR: マスターワーカーノードのホスト名。この変数の値は、すべてのノードで同じです。
MASTER_PORT: マスターワーカーノードが通信するポート。この変数の値は、すべてのノードで同じです。

PyTorch ではこれらの環境変数を使用してクラスタを初期化します。

次のステップ

PyTorch スタートガイドのチュートリアルで、AI Platform Training の PyTorch を使用したトレーニングについて学ぶ。
PyTorch のドキュメントの分散トレーニングガイドで、分散型 PyTorch トレーニングの全般について学ぶ。

PyTorch 用の分散トレーニングの構成 コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

トレーニング クラスタ構造の指定

コンテナ イメージの指定

トレーニング コードの更新