Cloud TPU での ResNet のトレーニング

このチュートリアルのモデルは、残余ネットワーク(ResNet)アーキテクチャを最初に導入する画像認識のためのディープ残余ラーニングに基づいています。このチュートリアルでは、50 層のバリアントの ResNet-50 を使用して、TPUEstimator を使ったモデルのトレーニング方法を説明します。

目標

  • データセットとモデルの出力を格納する Cloud Storage バケットを作成します。
  • fake_imagenet データセットと呼ばれる ImageNet データセットのテスト版を準備します。
  • トレーニング ジョブを実行します。
  • 出力結果を確認します。

費用

このチュートリアルでは、Google Cloud Platform の課金対象となる以下のコンポーネントを使用します。

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

料金計算ツールを使うと、予想使用量に基づいて費用の見積もりを出すことができます。 初めて GCP を使用される場合は、無料トライアルをご利用いただけます。

始める前に

このチュートリアルを開始する前に、Google Cloud Platform プロジェクトが正しく設定されていることを確認してください。

  1. Google アカウントにログインします。

    Google アカウントをまだお持ちでない場合は、新しいアカウントを登録します。

  2. GCP Console のプロジェクト セレクタのページで、GCP プロジェクトを選択または作成します。

    プロジェクト セレクタのページに移動

  3. Google Cloud Platform プロジェクトに対して課金が有効になっていることを確認します。 プロジェクトに対して課金が有効になっていることを確認する方法を学習する

  4. このチュートリアルでは、Google Cloud Platform の課金対象となるコンポーネントを使用します。費用を見積もるには、Cloud TPU の料金ページを確認してください。不要な課金を回避できるよう、このチュートリアルを完了したら、作成したリソースを必ずクリーンアップしてください。

リソースを設定する

このセクションでは、チュートリアルで使用する Cloud Storage のストレージ、VM、Cloud TPU の各リソースを設定する方法を説明します。

  1. Cloud Shell ウィンドウを開きます。

    Cloud Shell を開く

  2. プロジェクト名の変数を作成します。

    export PROJECT_NAME=project_name
    
  3. Cloud TPU を作成するプロジェクトを使用するように gcloud コマンドライン ツールを構成します。

    gcloud config set project ${PROJECT_NAME}
    
  4. 次のコマンドを使用して Cloud Storage バケットを作成します。

    gsutil mb -p ${PROJECT_NAME} -c standard -l europe-west4 -b on gs://bucket-name/
    

    この Cloud Storage バケットには、モデルのトレーニングに使用するデータとトレーニング結果が格納されます。このチュートリアルで使用する ctpu up ツールは、Cloud TPU サービス アカウントのデフォルトの権限を設定します。権限の詳細な設定が必要な場合は、アクセスレベル権限をご覧ください。

    バケットのロケーションは、仮想マシン(VM)および TPU ノードと同じリージョンにする必要があります。VM と TPU ノードは、リージョン内のサブディビジョンである特定のゾーンに配置されます。

  5. ctpu up コマンドを使用して、このために必要な Compute Engine リソースと Cloud TPU リソースを起動します。

    ctpu up --zone=europe-west4-a \
    --vm-only \
    --disk-size-gb=300 \
    --machine-type=n1-standard-8 \
    --tf-version=1.14 \
    --name=resnet-tutorial

    CTPU ユーティリティの詳細については、CTPU リファレンスを参照してください。

  6. プロンプトが表示されたら、y キーを押して Cloud TPU リソースを作成します。

ctpu up コマンドの実行が終了したら、shell プロンプトが username@project から username@tpuname に変更されたことを確認します。変更されていれば、Compute Engine VM にログインしていることになります。Compute Engine インスタンスに接続していない場合は、次のコマンドを実行して接続できます。

gcloud compute ssh resnet-tutorial --zone=europe-west4-a

これ以降、接頭辞 (vm)$ は Compute Engine VM インスタンスでコマンドを実行する必要があることを意味します。

データを準備する

次の環境変数を作成します。bucket-name の部分は、Cloud Storage バケットの名前に置き換えてください。

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export MODEL_BUCKET=${STORAGE_BUCKET}/resnet

トレーニング アプリケーションでは、Cloud Storage でトレーニング データにアクセスできる必要があります。また、トレーニング アプリケーションでは、Cloud Storage バケットを使用してトレーニング中にチェックポイントを保存します。

fake_imagenet を使用して ResNet モデルのトレーニングと評価を行う

ImageNet は画像データベースです。このデータベース内では画像が階層に編成されていて、階層の各ノードを数百、数千もの画像で表しています。

このチュートリアルでは、ImageNet の完全版のデータセットの fake_imagenet と呼ばれるデモバージョンを使用しています。このデモバージョンを使用すると、ストレージ容量と所要時間を ImageNet の完全版のデータセットに対してモデルを実行する際に通常必要となるものより抑えながらチュートリアルを試すことができます。

fake_imagenet データセットは Cloud Storage の次のロケーションにあります。

gs://cloud-tpu-test-datasets/fake_imagenet

fake_imagenet データセットは、Cloud TPU の使用方法を理解し、エンドツーエンドのパフォーマンスを検証する場合にのみ役立ちます。精度の数値と保存されたモデルは意味がありません。

ImageNet データセット全体をダウンロードして処理する方法については、ImageNet データセットのダウンロード、前処理、アップロードをご覧ください。

  1. ctpu ユーティリティを使用して Cloud TPU リソースを起動します。

    (vm)$ ctpu up --tpu-only --tpu-size=v2-8 --name=resnet-tutorial
    
  2. 次のコマンドを使用して、Python パスに最上位の /models フォルダを追加します。

    (vm)$ export PYTHONPATH="$PYTHONPATH:/usr/share/tpu/models"
    

    ResNet-50 モデルは、Compute Engine VM にプリインストールされています。

  3. ディレクトリに移動します。

    (vm)$ cd /usr/share/tpu/models/official/resnet/
    
  4. トレーニング スクリプトを実行します。

    (vm)$ python resnet_main.py \
     --tpu=resnet-tutorial \
     --data_dir=gs://cloud-tpu-test-datasets/fake_imagenet \
     --model_dir=${MODEL_BUCKET} \
     --config_file=configs/cloud/v2-8.yaml
    
    パラメータ 説明
    tpu Cloud TPU の名前を指定します。ctpu はこの名前を環境変数(TPU_NAME)として Compute Engine VM に渡します。
    data_dir トレーニング入力用の Cloud Storage のパスを指定します。この例では、fake_imagenet データセットに設定されています。
    model_dir モデルのトレーニング中にチェックポイントとサマリーが保存されるディレクトリを指定します。該当するフォルダがない場合は、プログラムによって作成されます。Cloud TPU を使用する場合、model_dir を Cloud Storage パスにする必要があります(`gs://...`)。以前のチェックポイントが、同じサイズの TPU と TensorFlow バージョンを使用して作成されていれば、既存のフォルダを再利用して現在のチェックポイント データを読み込んで追加のチェックポイントを保存できます。
    config_file トレーニング中に使用する YAML 構成ファイルを指定します。このファイルの名前は使用される TPU のタイプに対応しています。例: v2-8.yaml

単一の Cloud TPU デバイスを対象とした手順では、ResNet-50 モデルを 90 エポックまでトレーニングし、一定のステップ数ごとに評価します。 このように指定したフラグを使用すると、モデルのトレーニングが約 10 時間で行われます。

トレーニングと評価は fake_imagenet データセットに対して行われているため、出力結果には、実際のデータセットでトレーニングと評価を行った場合の出力は反映されません。

この時点で、このチュートリアルを終了して、GCP リソースをクリーンアップすることも、Cloud TPU Pod でのモデルの実行をさらに詳しく調べることもできます。

Cloud TPU Pod を使用してモデルをスケーリングする

Cloud TPU Pod を使用してモデルをスケーリングすると、より迅速に結果を得ることができます。完全にサポートされている ResNet-50 モデルは、次の Pod スライスに対応しています。

  • v2-32
  • v2-128
  • v2-256
  • v2-512
  • v3-32
  • v3-128
  • v3-256
  • v3-512
  • v3-1024
  • v3-2048

Cloud TPU Pod を使用する場合は、まず Pod を使用してモデルをトレーニングし、単一の Cloud TPU デバイスを使用してモデルを評価します。

Cloud TPU Pod を使用してトレーニングする

  1. 単一のデバイスでモデルをトレーニングするために作成した Cloud TPU リソースを削除します。

    (vm)$ ctpu delete --tpu-only --name=resnet-tutorial
  2. 使用する Pod スライスを指定するための tpu-sizeパラメータを使用して、ctpu up コマンドを実行します。たとえば、次のコマンドは v2-32 Pod スライスを使用します。

    (vm) $ctpu up --tpu-only --tpu-size=v2-32 --name=resnet-pod
    
  3. MODEL_BUCKET ディレクトリを更新してトレーニング データを保存します。

    (vm) $ export MODEL_BUCKET=${STORAGE_BUCKET}/resnet-pod
    
  4. モデルをトレーニングし、使用する Pod スライスに対応する構成ファイルを使用するように、config_file パラメータを更新します。たとえば、次のスクリプトは、v2-32.yaml 構成ファイルを使用しています。

    (vm)$ python resnet_main.py \
      --tpu=resnet-pod \
      --data_dir=gs://cloud-tpu-test-datasets/fake_imagenet \
      --model_dir=${MODEL_BUCKET} \
      --config_file=configs/cloud/v2-32.yaml
    

この手順は、fake_imagnet データセットに対してモデルを 35 エポックまでトレーニングします。このトレーニングは、v3-128 Cloud TPU 上で約 90 分かかります。

モデルを評価する

このステップでは、Cloud TPU を使用して、fake_imagenet 検証データに対して上記でトレーニングしたモデルを評価します。

  1. モデルをトレーニングするために作成した Cloud TPU リソースを削除します。

    (vm)$ ctpu delete --tpu-only --name=resnet-pod
  2. v2-8 Cloud TPU を起動します。

    (vm)$ ctpu up --tpu-only --name=resnet-pod-eval
    
  3. モデルの評価を実行します。今回は、mode フラグを指定し、eval に設定します。

    (vm)$ python resnet_main.py \
     --tpu=resnet-pod-eval \
     --data_dir=gs://cloud-tpu-test-datasets/fake_imagenet \
     --model_dir=${MODEL_BUCKET} \
     --mode=eval
     --config_file=configs/cloud/v2-8.yaml
    

これにより、次のような出力が生成されます。

Eval results: {'loss': 8.255788, 'top_1_accuracy': 0.0009969076, 'global_step': 0, 'top_5_accuracy': 0.005126953}. Elapsed seconds: 76

トレーニングと評価は fake_imagenet データセットに対して行われているため、出力結果には、実際のデータセットでトレーニングと評価を行った場合の出力は反映されません。

クリーンアップ

このチュートリアルで使用したリソースについて、Google Cloud Platform アカウントに課金されないようにする手順は次のとおりです。

  1. Compute Engine インスタンスとの接続を切断していない場合は切断します。

    (vm)$ exit
    

    プロンプトが user@projectname に変わります。これは、現在、Cloud Shell 内にいることを示しています。

  2. Cloud Shell で、Cloud TPU の設定時に使用した --zone フラグを指定して ctpu delete を実行し、Compute Engine VM と Cloud TPU を削除します。

    $ ctpu delete --zone=europe-west4-a
    
  3. TPU の使用に対して不要な料金が発生しないように、ctpu status を実行してインスタンスが割り当てられていないことを確認します。削除には数分かかることがあります。次のようなレスポンスは、割り当てられたインスタンスがないことを示します。

    2018/04/28 16:16:23 WARNING: Setting zone to "europe-west4-a"
    No instances currently exist.
            Compute Engine VM:     --
            Cloud TPU:             --
    
  4. 次に示すように gsutil を実行します。YOUR-BUCKET-NAME の部分は、このチュートリアルで作成した Cloud Storage バケット名に置き換えてください。

    $ gsutil rm -r gs://bucket-name
    

次のステップ

このページは役立ちましたか?評価をお願いいたします。

フィードバックを送信...

ご不明な点がありましたら、Google のサポートページをご覧ください。