Agendamento da recolha de TPU para cargas de trabalho de inferência
O Trillium (v6e) inclui uma funcionalidade denominada "agendamento de recolha" que lhe permite agrupar um conjunto de fatias de TPU, de anfitrião único ou múltiplo, destinadas a publicar réplicas do mesmo modelo. Esta funcionalidade está disponível para configurações do Cloud TPU e do GKE.
Este documento aborda a utilização do agendamento de recolhas com a API Cloud TPU. Consulte a documentação do GKE para mais informações sobre a utilização do agendamento de recolha com o GKE.
Ao criar uma coleção para a sua carga de trabalho de inferência,Google Cloud limita e simplificaGoogle Cloud as interrupções às operações das cargas de trabalho de inferência. Isto é útil para cargas de trabalho de inferência em que a elevada disponibilidade é uma preocupação. Google Cloud garante a elevada disponibilidade para a recolha gerir o tráfego recebido. Uma parte das fatias numa coleção está sempre disponível para processar o tráfego recebido.
Cada fatia de TPU numa coleção tem o mesmo tipo de acelerador e topologia.
Crie uma coleção a partir da API Cloud TPU
Quando pede um recurso em fila através da API Cloud TPU, usa a flag --workload-type=AVAILABILITY-OPTIMIZED
para criar uma coleção. Este sinalizador indica à infraestrutura do Cloud TPU que se destina a ser usado para cargas de trabalho focadas na disponibilidade.
O comando seguinte aprovisiona uma coleção através da API Cloud TPU:
gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \ --project=PROJECT_ID \ --zone=ZONE \ --accelerator-type=ACCELERATOR_TYPE \ --runtime-version=RUNTIME_VERSION \ --node-count=NODE_COUNT \ --node-prefix=NODE_PREFIX \ --workload-type=AVAILABILITY-OPTIMIZED
A flag --node-count
especifica o número de fatias que quer no seu recurso
em fila. Isto cria uma coleção de fatias de TPU.
Opcional: a flag --node-prefix
especifica um prefixo para os nomes das divisões.