Risoluzione degli errori e dei problemi di prestazioni di Cloud TPU

Questi documenti per la risoluzione dei problemi descrivono le condizioni di errore e i problemi di prestazioni che potrebbero verificarsi durante l'addestramento con Cloud TPU utilizzando TensorFlow, JAX e PyTorch.

Monitoring con Stacktrace descrive come creare metriche basate su log che possono essere utilizzate per creare avvisi e visualizzare dashboard per facilitare il debug di errori e problemi di prestazioni.

Se non riesci a capire se il problema riscontrato è specifico di un determinato framework, inizia con "Risolvere i problemi di TensorFlow - TPU".