TPU の管理

機械学習(ML)モデルを実行するには、Compute Engine VM リソースと Cloud TPU リソースが必要です。このページでは、次のツールを使用してリソースを管理する方法を説明します。

要件

以下の手順を実行するには、Google Cloud Platform(GCP)プロジェクトが設定されている必要があります。プロジェクトがない場合は、プロジェクトの作成と管理を参照してプロジェクトを設定してください。

gcloud コマンドを使用している場合は、Google Cloud Shell を使用するか、gcloud コマンドをローカルにインストールします。Google Cloud Shell を使用すると、ソフトウェアをインストールしなくても Cloud TPU を操作できます。非アクティブな状態が一定期間続くと Google Cloud Shell が切断されることがあります。長時間実行されているコマンドを実行する場合は、ローカルマシンに gcloud をインストールすることをおすすめします。gcloud コマンドは、Google Cloud SDK の一部です。

  1. ローカルのコマンド プロンプトを使用している場合は、Google Cloud SDK をインストールします。
  2. プロジェクトを使用するように gcloud を構成します。

    gcloud config set project project-name
    
  3. Cloud TPU リソースを作成する予定のゾーンを使用するように gcloud を構成します。例: us-central1-b

    $ gcloud config set compute/zone zone
    

gcloud コマンドの詳細については、gcloud リファレンスをご覧ください。

Cloud TPU の作成

Cloud TPU を作成するときは、Compute Engine VM リソースと TPU リソースを作成します。

gcloud を使用して Cloud TPU を作成する

$ gcloud compute tpus execution-groups create --name=tpu-name \
  --zone=zone \
  --tf-version=2.4.1 \
  --machine-type=n1-standard-1 \
  --accelerator-type=v3-8

コマンドフラグの説明

zone
Cloud TPU を作成するゾーン
tf-version
gcloud コマンドが VM にインストールする TensorFlow のバージョン。
machine-type
作成する Compute Engine VM のマシンタイプ
accelerator-type
作成する Cloud TPU のタイプ

Google Cloud Console での Cloud TPU の作成

  1. Google Cloud Console に移動します。
  2. 左側のナビゲーション メニューから、[Compute Engine] > [TPU] を選択します。
  3. [Create TPU Node] をクリックします。
  4. [名前] ボックスに TPU インスタンス名を入力します。
  5. [ゾーン] ボックスで、TPU を作成するゾーンを選択します。
  6. [TPU タイプ] で、作成する TPU タイプを選択します。
  7. [TPU ソフトウェアのバージョン] で、ソフトウェアのバージョンを選択します。TPU ソフトウェア バージョンでは、Cloud TPU VM の作成時に、インストールする TPU ランタイムのバージョンを指定します。Cloud TPU ノードの作成時に、TPU ソフトウェア バージョンを使用すると、ノードの VM にインストールされている ML フレームワークを選択できます。その他の設定は不要です。詳細については、サポートされているモデルをご覧ください。
  8. [作成] をクリックしてリソースを作成します。

Cloud TPU VM への接続

$ gcloud compute ssh tpu-name\
  --zone=zone

Cloud TPU リソースの一覧表示

Cloud TPU は、指定したゾーン内にあるすべてを一覧表示できます。

gcloud を使用した Cloud TPU リソースの一覧表示

$ gcloud compute tpus execution-groups list --zone=zone

このコマンドは、指定されたゾーン内の Cloud TPU リソースを一覧表示します。設定されたリソースがない場合、出力では VM と TPU にダッシュだけが表示されます。 一方のリソースがアクティブで、もう一方がアクティブでなければ、正常なステータスではないことを伝えるメッセージが表示されます。この場合、実行されていないリソースの起動または再起動が必要になります。

GCP Console を使用した Cloud TPU リソースの一覧表示

  1. Google Cloud Console に移動します。

  2. 左側のナビゲーション メニューから、[Compute Engine] > [TPU] を選択します。 コンソールに TPU ページが表示されます。

Cloud TPU に関する情報の取得

指定した Cloud TPU に関する情報を取得できます。

gcloud を使用して Cloud TPU に関する情報を取得する

$ gcloud compute tpus execution-groups describe tpu-name \
  --zone=zone

Google Cloud Console を使用して Cloud TPU に関する情報を取得する

  1. Google Cloud Console に移動します。
  2. 左側のナビゲーション メニューから、[Compute Engine] > [TPU] を選択します。 コンソールに TPU ページが表示されます。
  3. Cloud TPU の名前をクリックすると、Cloud TPU の詳細ページが表示されます。

Cloud TPU リソースの停止

VM の構成とソフトウェアを失うことなく、Cloud TPU を停止して課金を停止できます。

gcloud による Cloud TPU の停止

$ gcloud alpha compute tpus stop tpu-name \
  --zone=zone

GCP Console での Cloud TPU の停止

  1. Google Cloud Console に移動します。

  2. 左側のナビゲーション メニューから、[Compute Engine] > [TPU] を選択します。 コンソールに TPU ページが表示されます。

  3. Cloud TPU の横にあるチェックボックスをオンにして、[停止] をクリックします。

Cloud TPU リソースの起動

停止した Cloud TPU は再開できます。

gcloud を使用した Cloud TPU の起動

$ gcloud alpha compute tpus start tpu-name --zone=zone

GCP Console での Cloud TPU の起動

  1. Google Cloud Console に移動します。

  2. 左側のナビゲーション メニューから、[Compute Engine] > [TPU] を選択します。 コンソールに TPU ページが表示されます。

  3. Cloud TPU の横にあるチェックボックスをオンにして、[開始] をクリックします。

Compute Engine VM および Cloud TPU リソースを削除する

Cloud TPU は、使用が終了すると削除できます。

gcloud を使用した Cloud TPU の削除

$ gcloud compute tpus execution-groups delete tpu-name \
  --zone=zone

コマンドフラグの説明

zone
Cloud TPU を作成するゾーン

GCP Console を使用した Cloud TPU の削除

  1. Google Cloud Console に移動します。

  2. 左側のナビゲーション メニューから、[Compute Engine] > [TPU] を選択します。 コンソールに TPU ページが表示されます。

  3. Cloud TPU の横にあるチェックボックスをオンにして、[削除] をクリックします。