推論ワークロードの TPU コレクションスケジューリング

Trillium（v6e）には、「コレクションスケジューリング」という機能があります。これにより、同じモデルのレプリカを提供する単一ホストまたはマルチホストの TPU スライスのセットをグループ化できます。この機能は、Cloud TPU 構成と GKE 構成の両方で使用できます。

このドキュメントでは、Cloud TPU API でコレクションスケジューリングを使用する方法について説明します。GKE でコレクションスケジューリングを使用する方法の詳細については、GKE のドキュメントをご覧ください。

推論ワークロードのコレクションを作成することで、Google Cloud は推論ワークロードのオペレーションの中断を制限し、効率化します。これは、高可用性が懸念される推論ワークロードに役立ちます。 Google Cloud により、受信トラフィックを管理するコレクションの高可用性が確保されます。コレクション内のスライスの一部は、受信トラフィックの処理に常に使用できます。

コレクション内の各 TPU スライスは、同じアクセラレータタイプとトポロジを使用します。

Cloud TPU API からコレクションを作成する

Cloud TPU API を使用してキューに格納されたリソースをリクエストする場合は、--workload-type=AVAILABILITY-OPTIMIZED フラグを使用してコレクションを作成します。このフラグは、可用性に重点を置いたワークロードに使用することを Cloud TPU インフラストラクチャに示します。

次のコマンドは、Cloud TPU API を使用してコレクションをプロビジョニングします。

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

--node-count フラグは、キューに登録するリソースに必要なスライスの数を指定します。これにより、TPU スライスのコレクションが作成されます。

省略可: --node-prefix フラグは、スライス名の接頭辞を指定します。

推論ワークロードの TPU コレクション スケジューリング

Cloud TPU API からコレクションを作成する

推論ワークロードの TPU コレクションスケジューリング