Risolvi i problemi relativi al flusso di lavoro di Cloud TPU

Dopo che il carico di lavoro di addestramento o inferenza è in esecuzione sulle TPU, devi assicurarti che il carico di lavoro funzioni come previsto. Cloud TPU genera metriche e log che ti consentono di cercare ed eseguire il debug di eventuali VM TPU che non si comportano come previsto. In questa documentazione, le VM vengono definite outlier.

Il flusso di lavoro generale per la risoluzione dei problemi è il seguente:

Visualizza le metriche di Cloud TPU per verificare la presenza di VM TPU outlier
Visualizza i log di Cloud TPU per le VM TPU outlier
Profila il tuo carico di lavoro

Puoi visualizzare le metriche e i log in Metrics Explorer ed in Esplora log nella console Google Cloud. Puoi anche utilizzare le dashboard di monitoraggio e logging per raccogliere tutti i log e le metriche relativi a Cloud TPU nelle singole dashboard.

Metriche VM Cloud TPU

Cloud Monitoring raccoglie automaticamente le metriche dalle TPU e dalle VM Compute Engine host. Le metriche tracciano le quantità numeriche nel tempo, ad esempio utilizzo della CPU, utilizzo della rete o durata di inattività di TensorCore. Per ulteriori informazioni sulle metriche di Cloud TPU, consulta Monitoraggio delle VM TPU.

Log di Cloud TPU

Cloud Logging raccoglie automaticamente i log dalle TPU e dalle VM Compute Engine host. Cloud Logging monitora gli eventi generati da Cloud TPU. Puoi anche instrumentare il tuo codice per generare log. Cloud TPU genera due tipi di log:

Log worker TPU
Log delle risorse controllati

I log del worker TPU contengono informazioni su uno specifico worker TPU in una zona specifica, ad esempio la quantità di memoria disponibile sul worker TPU (system_available_memory_GiB).

I log delle risorse controllate contengono informazioni su quando è stata chiamata un'API Cloud TPU specifica e su chi ha effettuato la chiamata. Ad esempio CreateNode, UpdateNode e DeleteNode.

Puoi anche utilizzare il pacchetto PyPi cloud-tpu-diagnostics per scrivere analisi dello stack nei log. Per ulteriori informazioni, consulta Debug delle VM TPU.

Per ulteriori informazioni sui log, vedi Logging.

Dashboard di monitoraggio e logging

Avere una sola pagina nella console Google Cloud può semplificare la visualizzazione e l'interpretazione di metriche e log relativi a Cloud TPU. Il repository GitHub per il monitoraggio-debug contiene un insieme di script e file di configurazione che utilizzano Terraform per eseguire il deployment automatico delle dashboard contenenti tutti i log e le metriche relative a Cloud TPU nelle dashboard. Per configurare queste dashboard nel tuo progetto Google Cloud, consulta Dashboard di Monitoring e Logging.

Profilazione dei carichi di lavoro su VM TPU

La profilazione consente di ottimizzare le prestazioni di addestramento del modello sulle VM TPU. Per profilare il modello, utilizzi TensorBoard e il plug-in TPU TensorBoard. Per ulteriori informazioni su come profilare il carico di lavoro, consulta Profilare il modello sulle VM TPU.

Per ulteriori informazioni sull'utilizzo di TensorBoard con uno dei framework supportati, consulta i seguenti documenti: