Risolvi i problemi relativi al flusso di lavoro di Cloud TPU
Dopo che il carico di lavoro di addestramento o inferenza è in esecuzione sulle TPU, devi assicurarti che il carico di lavoro funzioni come previsto. Cloud TPU genera metriche e log che ti consentono di cercare ed eseguire il debug di eventuali VM TPU che non si comportano come previsto. In questa documentazione, le VM vengono definite outlier.
Il flusso di lavoro generale per la risoluzione dei problemi è il seguente:
- Visualizza le metriche di Cloud TPU per verificare la presenza di VM TPU outlier
- Visualizza i log di Cloud TPU per le VM TPU outlier
- Profila il tuo carico di lavoro
Puoi visualizzare le metriche e i log in Metrics Explorer ed in Esplora log nella console Google Cloud. Puoi anche utilizzare le dashboard di monitoraggio e logging per raccogliere tutti i log e le metriche relativi a Cloud TPU nelle singole dashboard.
Metriche VM Cloud TPU
Cloud Monitoring raccoglie automaticamente le metriche dalle TPU e dalle VM Compute Engine host. Le metriche tracciano le quantità numeriche nel tempo, ad esempio utilizzo della CPU, utilizzo della rete o durata di inattività di TensorCore. Per ulteriori informazioni sulle metriche di Cloud TPU, consulta Monitoraggio delle VM TPU.
Log di Cloud TPU
Cloud Logging raccoglie automaticamente i log dalle TPU e dalle VM Compute Engine host. Cloud Logging monitora gli eventi generati da Cloud TPU. Puoi anche instrumentare il tuo codice per generare log. Cloud TPU genera due tipi di log:
- Log worker TPU
- Log delle risorse controllati
I log del worker TPU contengono informazioni su uno specifico worker TPU in una zona specifica, ad esempio la quantità di memoria disponibile sul worker TPU (system_available_memory_GiB).
I log delle risorse controllate contengono informazioni su quando è stata chiamata un'API Cloud TPU specifica e su chi ha effettuato la chiamata. Ad esempio CreateNode
, UpdateNode
e
DeleteNode
.
Puoi anche utilizzare il pacchetto PyPi cloud-tpu-diagnostics
per scrivere analisi dello stack nei log. Per ulteriori informazioni, consulta Debug delle VM TPU.
Per ulteriori informazioni sui log, vedi Logging.
Dashboard di monitoraggio e logging
Avere una sola pagina nella console Google Cloud può semplificare la visualizzazione e l'interpretazione di metriche e log relativi a Cloud TPU. Il repository GitHub per il monitoraggio-debug contiene un insieme di script e file di configurazione che utilizzano Terraform per eseguire il deployment automatico delle dashboard contenenti tutti i log e le metriche relative a Cloud TPU nelle dashboard. Per configurare queste dashboard nel tuo progetto Google Cloud, consulta Dashboard di Monitoring e Logging.
Profilazione dei carichi di lavoro su VM TPU
La profilazione consente di ottimizzare le prestazioni di addestramento del modello sulle VM TPU. Per profilare il modello, utilizzi TensorBoard e il plug-in TPU TensorBoard. Per ulteriori informazioni su come profilare il carico di lavoro, consulta Profilare il modello sulle VM TPU.
Per ulteriori informazioni sull'utilizzo di TensorBoard con uno dei framework supportati, consulta i seguenti documenti: