ImageNet データセットのダウンロード、前処理、アップロード

このドキュメントでは、Cloud TPU VM アーキテクチャで使用する ImageNet データセットをダウンロード、前処理、アップロードする方法について説明します。

ImageNet は画像データベースです。このデータベース内では画像が階層に編成されていて、階層の各ノードには数百、数千もの画像が含まれています。

ImageNet データベースのサイズによっては、モデルのトレーニングにはかなりの時間がかかる場合があります。代替手段として、このデータセットの fake_imagenet と呼ばれるデモバージョンを使用する方法もあります。このデモバージョンを使用すると、モデルのテストが可能になり、同時に、完全な ImageNet データベースの使用に伴うストレージ要件と時間要件が削減されます。

完全版の ImageNet データセットの前処理

ImageNet データセットは、トレーニングデータ、検証データ、画像ラベルの 3 つの部分で構成されます。

トレーニングデータには 1,000 個のカテゴリと 120 万個の画像が含まれており、ダウンロードしやすいようにパッケージ化されています。検証データとテストデータは、ImageNet トレーニングデータには含まれていません（重複は削除されています）。

検証データとテストデータは、Flickr やその他の検索エンジンから収集された 150,000 枚の写真で構成され、1,000 個のオブジェクトカテゴリの存在または不在のラベルが付いています。1,000 個のオブジェクトカテゴリには ImageNet の内部ノードとリーフノードの両方が含まれますが、両者は重複しません。ラベルの付いた 50,000 枚の画像のランダムなサブセットが、1,000 個のカテゴリのリストとともに検証データとしてリリースされています。残りの画像は評価用に使用され、ラベルなしでリリースされています。

完全な ImageNet データセットの前処理手順

ML モデルで使用する ImageNet の完全なデータセットを準備するには、次の 5 つの操作を行います。

ダウンロード先に空き容量があることを確認します。
ターゲットディレクトリを設定します。
ImageNet サイトに登録して、ダウンロード権限をリクエストします。
データセットをローカルディスクまたは VM インスタンスにダウンロードします。

注: Imagenet データセットを VM インスタンスにダウンロードするには、ローカルマシンにダウンロードする場合よりも大幅に時間がかかります（約 7 時間に対して 40 時間）。データセットをローカルマシンにダウンロードする場合、前処理のためにファイルを VM インスタンスにコピーする必要があります。その後、このファイルを使用してモデルをトレーニングする前に、Cloud Storage にアップロードする必要があります。トレーニングファイルと検証ファイルをローカルマシンから VM インスタンスにコピーするには約 13 時間かかります。データセットを VM インスタンスにダウンロードすることをおすすめします。
前処理スクリプトとアップロードスクリプトを実行します。

容量の要件を確認する

データセットをローカルマシンにダウンロードする場合でも、VM インスタンスにダウンロードする場合でも、ダウンロード先に約 300 GiB の空き容量が必要です。

TPU VM のデフォルトのディスク割り当ては 100 GiB です。TPU VM へのダウンロードには 300 GiB が必要なため、TPU VM インスタンスにダウンロードする場合は、200 GiB の追加容量を持つ耐久性のあるブロックストレージボリュームを追加してからダウンロードする必要があります。TPU VM の場合、df -ha コマンドを実行して空き容量を確認できます。アタッチされたディスクのサイズ変更の詳細については、Google Cloud Hyperdisk ボリュームの設定を変更すると Persistent Disk ボリュームのサイズを増やすをご覧ください。

耐久性のあるブロックストレージを追加するときは、ディスクをマウントしたディレクトリをメモしておいてください。例: /mnt/disks/mnt-dir。

ターゲットディレクトリを設定する

ローカルマシンまたは VM インスタンスで、ダウンロードしたデータを格納するディレクトリ構造を設定します。

データをダウンロードするディレクトリに移動します。永続ディスクを使用している場合は、DATASET_ROOT_DIR をディスクがマウントされているディレクトリに置き換えます（例: /mnt/disks/mnt-dir）。
```
cd DATASET_ROOT_DIR
```
ダウンロードターゲット（ローカルマシンまたは TPU VM）に imagenet などのディレクトリを作成します。
```
mkdir imagenet
```
このディレクトリに、train と validation という 2 つのサブディレクトリを作成します。
```
mkdir imagenet/train
mkdir imagenet/validation
```

imagenet ディレクトリを IMAGENET_HOME としてエクスポートします。

export IMAGENET_HOME=DATASET_ROOT_DIR/imagenet
sudo chown ${USER} ${IMAGENET_HOME}

データセットをダウンロードするための登録と権限をリクエストする

Imagenet ウェブサイトに登録します。ImageNet の登録が確認され、確認メールを届くまで、データセットをダウンロードできません。数日以内に確認メールが届かない場合は、ImageNet サポートに連絡して、登録が確認されていない理由を確認してください。登録が確認されたら、データセットをダウンロードできます。ImageNet データセットを使用する Cloud TPU チュートリアルでは、ImageNet Large Scale Visual Recognition Challenge 2012（ILSVRC2012）の画像を使用します。

ImageNet データセットをダウンロードする

LSRVC 2012 ダウンロードサイトで [Images] セクションに移動し、[Training images (Task 1 & 2)] を右クリックします。トレーニングセットの大部分をダウンロードするための URL。URL を保存します。

[Training images (Task 3)] を右クリックして、2 番目のトレーニングセットの URL を取得します。URL を保存します。

[Validation images (all tasks)] を右クリックして、検証データセットの URL を取得します。URL を保存します。

ImageNet ファイルをローカルマシンにダウンロードする場合、ローカルマシン上のディレクトリを、VM インスタンス上の対応する $IMAGENET_HOME ディレクトリにコピーする必要があります。ImageNet データセットをローカルホストから VM インスタンスにコピーするには、約 13 時間かかります。

ImageNet データセットを TPU VM にコピーする前に、TPU VM インスタンスの名前を特定する必要があります。これを行うには、SSH を使用して TPU VM に接続します。VM インスタンス名は、コマンドプロンプトで @ 記号の後に表示されます。

次のコマンドを使用して、ローカルマシン上の ~/imagenet の下にあるファイルを、VM 上の $IMAGENET_HOME にコピーします。
```
gcloud compute scp --recurse $IMAGENET_HOME username@vm-instance-name:~/imagenet
```
$IMAGENET_HOME で、保存した URL を使用して「Training images (Task 1 & 2)」ファイルをダウンロードします。

「Training images (Task 1 & 2)」は、大規模なトレーニングセットです。これは 138 GiB で、Cloud Shell を使用して TPU VM にダウンロードする場合、ダウンロードは約 40 時間かかります。Cloud Shell と VM との接続が失われた場合は、コマンドの前に nohup を付けるか、screen を使用します。
```
cd $IMAGENET_HOME
nohup wget https://image-net.org/data/ILSVRC/2012/ILSVRC2012_img_train.tar
```
URL は変更されている可能性があるため、以前に保存した「Training images (Task 1 & 2)」の URL に置き換えます。
次のコマンドを使用して、個々のトレーニングディレクトリを $IMAGENET_HOME/train ディレクトリに抽出します。抽出には 1～3 時間かかります。
```
tar xf $IMAGENET_HOME/ILSVRC2012_img_train.tar -C $IMAGENET_HOME/train
```
次のスクリプトに示すように、$IMAGENET_HOME/train ディレクトリにある個々のトレーニング tar ファイルを抽出します。
```
cd $IMAGENET_HOME/train

for f in *.tar; do
    d=basename $f .tar
    mkdir $d
    tar xf $f -C $d
done
```
抽出した後 tar ファイルを削除して、ディスク容量を解放します。
$IMAGENET_HOME で、保存した URL を使用して「Training images (Task 3)」ファイルをダウンロードします。

「Training images (Task 3)」ファイルは 728 MB で、ダウンロードにかかる時間は数分です。Cloud Shell の接続が切断されることを考慮する必要はありません。
```
wget https://image-net.org/data/ILSVRC/2012/ILSVRC2012_img_train_t3.tar
```
URL は変更されている可能性があるため、URL は以前に保存した「Training images (Task 3)」の URL に置き換えます。
次のコマンドを使用して、個々のトレーニングディレクトリを $IMAGENET_HOME/train ディレクトリに抽出します。
```
tar xf $IMAGENET_HOME/ILSVRC2012_img_train_t3.tar -C $IMAGENET_HOME/train
```
次のスクリプトに示すように、$IMAGENET_HOME/train ディレクトリにある個々のトレーニング tar ファイルを抽出します。
```
cd ${IMAGENET_HOME}/train

for f in *.tar; do
    d=`basename $f .tar`
    mkdir $d
    tar xf $f -C $d
done
```
抽出した後 tar ファイルを削除して、ディスク容量を解放します。
$IMAGENET_HOME で、保存した URL を使用して「Validation images (all tasks)」ファイルをダウンロードします。

「Validation images (all tasks)」ファイルをダウンロードするときに、Cloud Shell が切断される可能性があります。nohup または screen を使用すると、Cloud Shell の切断を防ぐことができます。
```
wget https://image-net.org/data/ILSVRC/2012/ILSVRC2012_img_val.tar
```
URL は変更されている可能性があるため、以前に保存した「Validation images (all tasks)」の URL に置き換えます。

このダウンロードには 30 分ほどかかります。
次のコマンドを使用して、個々の検証ファイルを $IMAGENET_HOME/validation ディレクトリに抽出します。
```
tar xf $IMAGENET_HOME/ILSVRC2012_img_val.tar -C $IMAGENET_HOME/validation
```
検証ファイルをローカルマシンにダウンロードした場合は、ローカルマシン上の $IMAGENET_HOME/validation ディレクトリを VM インスタンスの $IMAGENET_HOME/validation ディレクトリにコピーする必要があります。このコピーオペレーションには 30 分ほどかかります。
ラベルファイルをダウンロードします。
```
wget -O $IMAGENET_HOME/synset_labels.txt \
https://raw.githubusercontent.com/tensorflow/models/master/research/slim/datasets/imagenet_2012_validation_synset_labels.txt
```
ラベルファイルをローカルマシンにダウンロードした場合は、VM インスタンス上の $IMAGENET_HOME に対応するローカルマシン上の $IMAGENET_HOME ディレクトリにコピーする必要があります。このコピーオペレーションは数秒で完了します。

トレーニングサブディレクトリ名（例: n03062245）は「WordNet ID」（wnid）です。ImageNet API は、synset_labels.txt ファイル内の WordNet ID とそれに関連する検証ラベルとのマッピングを示します。このコンテキストの synset は、視覚的に似たグループの画像です。

Imagenet データセットを処理し、必要に応じて Cloud Storage にアップロードする

GitHub から imagenet_to_gcs.py スクリプトをダウンロードします。

wget https://raw.githubusercontent.com/tensorflow/tpu/master/tools/datasets/imagenet_to_gcs.py

データセットを Cloud Storage にアップロードする場合:
1. 既存のバケットを使用するか、バケットを作成するの手順に沿って新しいバケットを作成します。
2. ImageNet データセットをアップロードするストレージバケットのロケーションを指定します。
```
export STORAGE_BUCKET=gs://bucket-name
```
データセットをローカルマシンまたは VM にアップロードする場合は、データセットを保持するデータディレクトリを指定します。
```
(vm)$ export DATA_DIR=$IMAGENET_HOME/dataset-directory
```
マシンまたは仮想環境に次のライブラリをインストールします。
```
pip3 install google-cloud-storage
pip3 install tensorflow
```
スクリプトを実行して、元のデータセットを TFRecord として前処理し、次のコマンドを使用して Cloud Storage にアップロードします。
注: Cloud Storage にアップロードしない場合は、--nogcs_upload を別のパラメータとして指定し、--project パラメータと --gcs_output_path パラメータをそのままにしておきます。
```
 python3 imagenet_to_gcs.py \
  --project=$PROJECT \
  --gcs_output_path=$STORAGE_BUCKET  \
  --raw_data_dir=$IMAGENET_HOME \
  --local_scratch_dir=$IMAGENET_HOME/tf_records
```

このスクリプトでは、以下の形式の一連のディレクトリ（トレーニングと検証の両方）が生成されます。

${DATA_DIR}/train-00000-of-01024
${DATA_DIR}/train-00001-of-01024
...
${DATA_DIR}/train-01023-of-01024

と

${DATA_DIR}/validation-00000-of-00128
${DATA_DIR}/validation-00001-of-00128
...
${DATA_DIR}/validation-00127-of-00128

Cloud バケットにデータがアップロードされたら、モデルを実行して --data_dir=${DATA_DIR} を設定します。