Agendamento da recolha de TPU para cargas de trabalho de inferência

O Trillium (v6e) inclui uma funcionalidade denominada "agendamento de recolha" que lhe permite agrupar um conjunto de fatias de TPU, de anfitrião único ou múltiplo, destinadas a publicar réplicas do mesmo modelo. Esta funcionalidade está disponível para configurações do Cloud TPU e do GKE.

Este documento aborda a utilização do agendamento de recolhas com a API Cloud TPU. Consulte a documentação do GKE para mais informações sobre a utilização do agendamento de recolha com o GKE.

Ao criar uma coleção para a sua carga de trabalho de inferência,Google Cloud limita e simplificaGoogle Cloud as interrupções às operações das cargas de trabalho de inferência. Isto é útil para cargas de trabalho de inferência em que a elevada disponibilidade é uma preocupação. Google Cloud garante a elevada disponibilidade para a recolha gerir o tráfego recebido. Uma parte das fatias numa coleção está sempre disponível para processar o tráfego recebido.

Cada fatia de TPU numa coleção tem o mesmo tipo de acelerador e topologia.

Crie uma coleção a partir da API Cloud TPU

Quando pede um recurso em fila através da API Cloud TPU, usa a flag --workload-type=AVAILABILITY-OPTIMIZED para criar uma coleção. Este sinalizador indica à infraestrutura do Cloud TPU que se destina a ser usado para cargas de trabalho focadas na disponibilidade.

O comando seguinte aprovisiona uma coleção através da API Cloud TPU:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

A flag --node-count especifica o número de fatias que quer no seu recurso em fila. Isto cria uma coleção de fatias de TPU.

Opcional: a flag --node-prefix especifica um prefixo para os nomes das divisões.