Questa pagina è stata tradotta dall'API Cloud Translation.

Pianificazione della raccolta TPU per i carichi di lavoro di inferenza

Trillium (v6e) include una funzionalità chiamata "pianificazione delle raccolte" che consente di raggruppare un insieme di slice TPU, singoli o multi-host, destinati a pubblicare repliche dello stesso modello. Questa funzionalità è disponibile sia per le configurazioni Cloud TPU che GKE.

Questo documento riguarda l'utilizzo della pianificazione delle raccolte con l'API Cloud TPU. Per ulteriori informazioni sull'utilizzo della pianificazione delle raccolte con GKE, consulta la documentazione di GKE.

Se crei una raccolta per il tuo carico di lavoro di inferenza,Google Cloud limiti e semplifichi le interruzioni delle operazioni dei carichi di lavoro di inferenza. Questo è utile per i carichi di lavoro di inferenza in cui è importante l'alta disponibilità. Google Cloud garantisce l'alta disponibilità per la raccolta per gestire il traffico in entrata. Una parte delle sezioni all'interno di una raccolta è sempre disponibile per gestire il traffico in entrata.

Ogni slice TPU in una raccolta avrà lo stesso tipo di acceleratore e la stessa topologia.

Creare una raccolta dall'API Cloud TPU

Quando richiedi una risorsa in coda utilizzando l'API Cloud TPU, utilizzi il flag --workload-type=AVAILABILITY-OPTIMIZED per creare una collezione. Questo flag indica all'infrastruttura Cloud TPU che è destinada a essere utilizzata per i carichi di lavoro incentrati sull'affidabilità.

Il seguente comando esegue il provisioning di una raccolta utilizzando l'API Cloud TPU:

gcloud alpha compute tpus queued-resources create QUEUED_RESOURCE_ID \
   --project=PROJECT_ID \
   --zone=ZONE \
   --accelerator-type=ACCELERATOR_TYPE \
   --runtime-version=RUNTIME_VERSION \
   --node-count=NODE_COUNT \
   --node-prefix=NODE_PREFIX \
   --workload-type=AVAILABILITY-OPTIMIZED

Il flag --node-count specifica il numero di slice che vuoi nella risorsa in coda. Viene creata una raccolta di sezioni TPU.

(Facoltativo) Il flag --node-prefix specifica un prefisso per i nomi dei segmenti.