Programação de coleções de TPU para cargas de trabalho de inferência

O Trillium (v6e) inclui um recurso de programação de coleção que permite agrupar um conjunto de frações de TPU, com um ou vários hosts, destinadas à disponibilização de réplicas do mesmo modelo. Esse recurso está disponível para configurações do Cloud TPU e do GKE.

Este documento explica o uso da programação de coleção com a API Cloud TPU. Consulte a documentação do GKE para saber como usar a programação de coleção com o GKE.

Ao criar uma coleção para uma carga de trabalho de inferência, oGoogle Cloud limita e simplifica as interrupções nas operações dessa carga. Isso é útil no caso das cargas de trabalho de inferência em que a alta disponibilidade é uma preocupação. O Google Cloud garante alta disponibilidade para que a coleção gerencie o tráfego de entrada. Uma parte das frações em uma coleção está sempre disponível para processar o tráfego de entrada.

Todas as frações de TPU em uma coleção terão o mesmo tipo de acelerador e a mesma topologia.

Criar uma coleção usando a API Cloud TPU

Ao solicitar um recurso em fila usando a API Cloud TPU, use a flag --workload-type=AVAILABILITY-OPTIMIZED para criar uma coleção. Essa flag indica à infraestrutura do Cloud TPU que ela deve ser usada para cargas de trabalho com foco em disponibilidade.

O comando abaixo provisiona uma coleção usando a API Cloud TPU:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

A flag --node-count especifica o número de frações que você quer no recurso em fila. Isso cria uma coleção de frações de TPU.

Opcional: a flag --node-prefix especifica um prefixo para os nomes das frações.