Programação de coleta de TPU para cargas de trabalho de inferência
O Trillium (v6e) inclui um recurso chamado "programação de coleta", que permite agrupar um conjunto de frações de TPU, individuais ou de vários hosts, para veicular réplicas do mesmo modelo. Esse recurso está disponível para as configurações do Cloud TPU e do GKE.
Este documento trata do uso da programação de coleta com a API Cloud TPU. Consulte a documentação do GKE para mais informações sobre como usar a programação de coleta com o GKE.
Ao criar uma coleção para sua carga de trabalho de inferência, Google Cloud limita e simplifica as interrupções nas operações de cargas de trabalho de inferência. Isso é útil para cargas de trabalho de inferência em que a alta disponibilidade é uma preocupação. Google Cloud garante alta disponibilidade para que a coleção gerencie o tráfego de entrada. Uma parte das fatias em uma coleção está sempre disponível para processar o tráfego de entrada.
Cada fração de TPU em uma coleção terá o mesmo tipo de acelerador e topologia.
A programação de coleta só se aplica à v6e.
Criar uma coleção com a API Cloud TPU
Ao solicitar um recurso enfileirado usando a API Cloud TPU,
use a flag --workload-type = AVAILABILITY-OPTIMIZED
para criar uma
coleção. Essa flag indica à infraestrutura do Cloud TPU que ela
é destinada a cargas de trabalho com foco na disponibilidade.
O comando a seguir provisiona uma coleção usando a API Cloud TPU:
gcloud alpha compute tpus queued-resources create serving-QR \ --project=$PROJECT_ID \ --zone=${ZONE} \ --accelerator-type ${ACCELERATOR_TYPE} \ --node-count ${NODE_COUNT} \ --node-prefix "servingTPU" \ --workload-type = AVAILABILITY-OPTIMIZED
A flag --node-count
especifica o número de fatias que você quer no recurso
em fila. Isso cria uma coleção de fatias de TPU.
Opcional: a flag --node-prefix
especifica um prefixo para os nomes das fatias.