Pianificazione della raccolta TPU per i carichi di lavoro di inferenza
Trillium (v6e) include una funzionalità chiamata "pianificazione delle raccolte" che consente di raggruppare un insieme di slice TPU, singoli o multi-host, destinati a pubblicare repliche dello stesso modello. Questa funzionalità è disponibile sia per le configurazioni Cloud TPU che GKE.
Questo documento riguarda l'utilizzo della pianificazione delle raccolte con l'API Cloud TPU. Per ulteriori informazioni sull'utilizzo della pianificazione delle raccolte con GKE, consulta la documentazione di GKE.
Se crei una raccolta per il tuo carico di lavoro di inferenza,Google Cloud limiti e semplifichi le interruzioni delle operazioni dei carichi di lavoro di inferenza. Questo è utile per i carichi di lavoro di inferenza in cui è importante l'alta disponibilità. Google Cloud garantisce l'alta disponibilità per la raccolta per gestire il traffico in entrata. Una parte delle sezioni all'interno di una raccolta è sempre disponibile per gestire il traffico in entrata.
Ogni slice TPU di una raccolta avrà lo stesso tipo di acceleratore e la stessa topologia.
La pianificazione delle raccolte si applica solo alla versione 6e.
Creare una raccolta dall'API Cloud TPU
Quando richiedi una risorsa in coda utilizzando l'API Cloud TPU,
utilizzi il flag --workload-type = AVAILABILITY-OPTIMIZED
per creare una
collezione. Questo flag indica all'infrastruttura Cloud TPU che è destinada a essere utilizzata per i carichi di lavoro incentrati sull'affidabilità.
Il seguente comando esegue il provisioning di una raccolta utilizzando l'API Cloud TPU:
gcloud alpha compute tpus queued-resources create serving-QR \ --project=$PROJECT_ID \ --zone=${ZONE} \ --accelerator-type ${ACCELERATOR_TYPE} \ --node-count ${NODE_COUNT} \ --node-prefix "servingTPU" \ --workload-type = AVAILABILITY-OPTIMIZED
Il flag --node-count
specifica il numero di slice che vuoi nella risorsa in coda. Viene creata una raccolta di sezioni TPU.
(Facoltativo) Il flag --node-prefix
specifica un prefisso per i nomi dei segmenti.