推論ワークロードの TPU 収集のスケジューリング

Trillium(v6e)には、「コレクション スケジューリング」という機能があります。これにより、同じモデルのレプリカを提供する単一ホストまたはマルチホストの TPU スライスのセットをグループ化できます。この機能は、Cloud TPU 構成と GKE 構成の両方で使用できます。

このドキュメントでは、Cloud TPU API でコレクション スケジューリングを使用する方法について説明します。GKE で収集のスケジュール設定を使用する方法の詳細については、GKE のドキュメントをご覧ください。

推論ワークロードのコレクションを作成することで、Google Cloud は推論ワークロードのオペレーションの中断を制限し、効率化します。これは、高可用性が懸念される推論ワークロードに役立ちます。 Google Cloud により、受信トラフィックを管理するコレクションの高可用性が確保されます。コレクション内のスライスの一部は、受信トラフィックの処理に常に使用できます。

コレクション内の各 TPU スライスは、同じアクセラレータ タイプとトポロジになります。

収集のスケジュール設定は v6e にのみ適用されます。

Cloud TPU API からコレクションを作成する

Cloud TPU API を使用してキューに入れられたリソースをリクエストする場合は、--workload-type = AVAILABILITY-OPTIMIZED フラグを使用してコレクションを作成します。このフラグは、可用性に重点を置いたワークロードに使用することを Cloud TPU インフラストラクチャに示します。

次のコマンドは、Cloud TPU API を使用してコレクションをプロビジョニングします。

gcloud alpha compute tpus queued-resources create serving-QR \
   --project=$PROJECT_ID \
   --zone=${ZONE} \
   --accelerator-type ${ACCELERATOR_TYPE} \
   --node-count ${NODE_COUNT} \
   --node-prefix "servingTPU" \
   --workload-type = AVAILABILITY-OPTIMIZED

--node-count フラグは、キューに登録するリソースに必要なスライス数を指定します。これにより、TPU スライスのコレクションが作成されます。

省略可: --node-prefix フラグは、スライス名の接頭辞を指定します。