この古いバージョンの AI Platform Training は非推奨になりました。2025 年 1 月 31 日を過ぎると Google Cloud で使用できなくなります。リソースを Vertex AI カスタムトレーニングに移行することで、AI Platform にはない新しい機械学習機能を利用できます。

このページは Cloud Translation API によって翻訳されました。

分散型 XGBoost 組み込みアルゴリズムを使用したトレーニング

AI Platform Training での組み込みアルゴリズムを使用したトレーニングでは、データセットを送信し、トレーニングコードを一切作成せずに、モデルをトレーニングできます。このページでは、分散型 XGBoost 組み込みアルゴリズムの仕組みと使用方法について説明します。

概要

分散型 XGBoost 組み込みアルゴリズムは、AI Platform 上で実行できる互換性を備えた XGBoost アルゴリズムのラッパーです。

XGBoost 単一レプリカ組み込みアルゴリズムとは異なり、このアルゴリズムでは複数の仮想マシンを並列に使用して大規模なデータセットをトレーニングできます。このアルゴリズムでは、GPU をトレーニングに使用することもできます。これにより、トレーニングプロセスをスピードアップできます。

AI Platform Training は、ユーザーのデータセットとユーザーが指定したモデルパラメータに基づき、XGBoost 分散型アルゴリズムを使用したトレーニングを実行します。現在の実装は XGBoost の 0.81 バージョンに基づいています。

制限事項

次の機能は、分散型 XGBoost 組み込みアルゴリズムを使用したトレーニングではサポートされていません。

前処理。このアルゴリズムは自動前処理には対応していません。トレーニングデータと検証データは、入力データの書式設定に関するセクションで説明されている要件を満たす個別のファイルグループに手動で作成する必要があります。
単一レプリカトレーニング。このアルゴリズムは、トレーニングに複数の仮想マシンを使用するように設計されています。単一の仮想マシンを使用してトレーニングを行う場合は、XGBoost 単一レプリカ組み込みアルゴリズムを使用します。

サポートされているマシンタイプ

構成が次の要件を満たしていれば、このアルゴリズムとともに、任意の AI Platform トレーニングスケール階層または有効なマシンタイプの組み合わせを使用できます。

1 つのマスターワーカーと、1 つ以上のワーカーを指定します。
最適なパフォーマンスを得るために、マスターワーカーとワーカーには同じマシンタイプを指定します。
パラメータサーバーは指定しないでください。
指定した仮想マシンの合計メモリが、トレーニングデータの合計ファイルサイズより、少なくとも 20% 大きくなるようにしてください。これにより、仮想マシンはすべてのトレーニングデータをメモリに読み込むことができるようになり、トレーニング用に追加のメモリも使用できるようになります。
GPU を使用する場合は、各仮想マシンで 1 つの GPU のみが使用され、マスターワーカーとワーカーには同じタイプの GPU が使用されていることを確認します。指定したマシンタイプで GPU 構成がサポートされていることを確認します。
TPU は使用しないでください。

入力データを整形する

分散型 XGBoost 組み込みアルゴリズムは、表形式の数値データに対応しています。データセットでは、各行が 1 つのインスタンスを表し、各列が特徴値を表します。ターゲット列は予測対象の値を表します。

CSV ファイルを準備する

入力データは、UTF-8 でエンコードされた 1 つ以上の CSV ファイルでなければなりません。各ファイルは次の要件を満たす必要があります。

CSV ファイルにヘッダー行を含めることはできません。各列にラベルを付けるヘッダー行が CSV ファイルにある場合は、各ファイルからその最初の行を削除します。
ターゲット列は 1 列目にする必要があります。
分類トレーニングジョブの場合、ターゲット列には数値以外の値を含めることができます。他のすべての列には、数値データのみを含める必要があります。
回帰トレーニングジョブでは、各値が 0～1 になるようにターゲット値を正規化します。他のすべての列には、数値データのみを含める必要があります。

分散トレーニング用のデータの分割

トレーニングジョブを送信するときに複数の CSV ファイルからデータを提供するには、training_data_path 引数と validation_data_path 引数に対して指定する Cloud Storage パス内にワイルドカードを使用します。すべての CSV ファイルは、前のセクションで説明されている要件を満たす、同じ列スキーマを使用する必要があります。

分散型 XGBoost 組み込みアルゴリズムは、次のいずれかの方法で仮想マシン間でトレーニングデータを分散します。

CSV ファイルの数が仮想マシンの数以上である場合は、アルゴリズムにより、ラウンドロビン順でファイルごとにデータが分散されます。つまり、マスターワーカーは最初の CSV ファイルを読み込み、1 番目のワーカーは 2 番目の CSV ファイルを読み込むというように続きます。各仮想マシンがほぼ同じ数のファイルを読み込むように、ファイルを割り当てるこの方法はループします。
CSV ファイルの数が仮想マシンの数より少ない場合は、アルゴリズムにより、ラウンドロビン順でインスタンスごとにデータが分散されます。つまり、マスターワーカーは各 CSV ファイルの 1 行目を読み込み、最初のワーカーは各 CSV ファイルの 2 行目を読み込むというように続きます。各仮想マシンがほぼ同じ数のインスタンスを読み込むように、インスタンスを割り当てるこの方法はループします。

validation_data_path 引数を指定すると、次のいずれかの方法で検証データも読み込まれます。ただし、このアルゴリズムではトレーニングデータと検証データが独立して読み込まれることに注意してください。たとえば、トレーニングデータファイルを多数提供していて、検証データファイルは 1 つしか提供していない場合、アルゴリズムによって、ファイルごとにトレーニングデータが読み込まれ、インスタンスごとに検証データが読み込まれる場合があります。

最適なパフォーマンスを得るには、トレーニングデータを次のガイドラインに準拠する複数の CSV ファイルに分割します。

各ファイルのサイズは 1 GB 未満である。
各ファイルにはほぼ同じ数のインスタンスが含まれている。
ファイルの数は、仮想マシンの合計数で割り切れる。たとえば、1 つのマスターと 2 つのワーカーでトレーニングする場合、ファイルの数は 3 の倍数になります。

Cloud Storage バケットの権限を確認する

データを保存するには、AI Platform Training ジョブの実行に使用している Google Cloudプロジェクトの Cloud Storage バケットを使用します。それ以外の場合は、データが保存されている Cloud Storage バケットへのアクセス権を AI Platform Training に付与します。

GPU の使用

マシンタイプに関する前のセクションの説明のとおり、分散型 XGBoost 組み込みアルゴリズムでは、仮想マシンごとに単一の GPU を使用してトレーニングを実施できます。

GPU を活用するために、トレーニングジョブを送信するときに、tree_method ハイパーパラメータを gpu_exact または gpu_hist に設定します。

GPU に対する XGBoost のサポートについて学習します。

XGBoost 分散型トレーニングジョブを送信する

このセクションでは、分散型 XGBoost 組み込みトレーニングジョブを送信する方法について説明します。Google Cloud コンソールまたは Google Cloud CLI を使用して、ジョブを送信します。

分散型 XGBoost 組み込みアルゴリズムのリファレンスでこのアルゴリズムに関して調整できるその他の引数とハイパーパラメータの包括的な説明を確認できます。

次の例では、3 つのトレーニングデータファイルと 3 つの検証データファイルに分割した Census データの分類子をトレーニングすることを想定しています。

train-0.csv
train-1.csv
train-2.csv
eval-0.csv
eval-1.csv
eval-2.csv

これらのファイルにはいずれもヘッダー行がなく、それらを Cloud Storage にアップロードするとします。この例では、個々に NVIDIA Tesla P100 GPU を採用している 3 つの仮想マシンを使用したトレーニングジョブを作成します。ジョブは us-central1 リージョンで実行されます。

Google Cloud コンソール

Google Cloud コンソールで AI Platform Training の [ジョブ] ページに移動します。

AI Platform Training の [ジョブ] ページ
[新規トレーニングジョブ] ボタンをクリックします。下に表示されたオプションから、[組み込みアルゴリズムによるトレーニング] をクリックします。
[新しいトレーニングジョブの作成] ページで、[アルゴリズムを選択] プルダウンリストを選択して [Distributed XGBoost] をクリックします。[次へ] をクリックします。
[トレーニングデータ] セクションでプルダウンリストから [1 つの Cloud Storage ディレクトリに保存されている複数のファイルを使用する] を選択します。[ディレクトリパス] フィールドを使用して、トレーニングファイルが格納されている Cloud Storage ディレクトリを選択します。[ワイルドカードの名前] フィールドに train-*.csv を入力します。
[検証データ（オプション）] セクションでプルダウンリストから [1 つの Cloud Storage ディレクトリに保存されている複数のファイルを使用する] を選択します。[ディレクトリパス] フィールドを使用して、検証ファイルが格納されている Cloud Storage ディレクトリを選択します。[ワイルドカードの名前] フィールドに eval-*.csv を入力します。
[トレーニング出力] セクションで [出力ディレクトリ] フィールドを使用して、Cloud Storage バケットの個別のディレクトリを選択して、トレーニング出力を保管します。[次へ] をクリックします。
トレーニングジョブ用に [アルゴリズムの引数] をカスタマイズするか、デフォルト値をそのまま使用します。引数の詳細については、Google Cloud コンソール内のリンクをたどって、分散型 XGBoost 組み込みのリファレンスをご覧ください。[次へ] をクリックします。
[ジョブ ID] フィールドに任意の名前を入力してください。[リージョン] プルダウンリストで、us-central1 を選択します。

[スケール階層] プルダウンリストで、CUSTOM を選択します。[カスタムクラスタ構成] セクションの [マスタータイプ] と [ワーカータイプ] のプルダウンリストで、standard_p100 を選択します。[ワーカー数] フィールドに 2 を入力します。[完了] をクリックします。
[ジョブ] ページで新しいジョブの ID をクリックすると、その [ジョブの詳細] ページが表示されます。[ログを表示] をクリックして、トレーニングログを表示します。

gcloud ツール

ジョブの環境変数を設定します。BUCKET は、Cloud Storage バケットの名前に置き換えます。DATA_DIRECTORY は、データが含まれているバケットのディレクトリへのパスに置き換えます。

# Specify the Docker container for your built-in algorithm selection.
IMAGE_URI='gcr.io/cloud-ml-algos/xgboost_dist:latest'

# Specify the Cloud Storage wildcard paths to your training and validation data.
TRAINING_DATA='gs://BUCKET/DATA_DIRECTORY/train-*.csv'
VALIDATION_DATA='gs://BUCKET/DATA_DIRECTORY/eval-*.csv'

# Variables for constructing descriptive names for JOB_ID and JOB_DIR
DATASET_NAME='census'
ALGORITHM='xgboost_dist'
MODEL_TYPE='classification'
DATE='date '+%Y%m%d_%H%M%S''
MODEL_NAME="${DATASET_NAME}_${ALGORITHM}_${MODEL_TYPE}"

# Specify an ID for this job
JOB_ID="${MODEL_NAME}_${DATE}"

# Specify the directory where you want your training outputs to be stored
JOB_DIR="gs://BUCKET/algorithm_training/${MODEL_NAME}/${DATE}"

gcloud ai-platform jobs training submit コマンドを使用して、トレーニングジョブを送信します。

gcloud ai-platform jobs submit training $JOB_ID \
  --region=us-central1 \
  --master-image-uri=$IMAGE_URI \
  --job-dir=$JOB_DIR \
  --scale-tier=CUSTOM \
  --master-machine-type=n1-standard-4 \
  --master-accelerator count=1,type=nvidia-tesla-p100 \
  --worker-machine-type=n1-standard-4 \
  --worker-count=2 \
  --worker-accelerator count=1,type=nvidia-tesla-p100 \
  -- \
  --training_data_path=$TRAINING_DATA \
  --validation_data_path=$VALIDATION_DATA \
  --objective=binary:logistic \
  --tree_method=gpu_hist

gcloud でログを確認して、トレーニングジョブのステータスをモニタリングします。gcloud ai-platform jobs describe と gcloud ai-platform jobs stream-logs を参照します。
```
gcloud ai-platform jobs describe ${JOB_ID}
gcloud ai-platform jobs stream-logs ${JOB_ID}
```

次のステップ

XGBoost について学習する。
分散型 XGBoost 組み込みのリファレンスで他のパラメータについて調べる。

XGBoost 組み込みアルゴリズムを使用したトレーニング

XGBoost アルゴリズムリファレンス