Dépannage et erreurs de performances Cloud TPU

Ces documents de dépannage décrivent les conditions d'erreur et les problèmes de performances que vous pouvez rencontrer lors de l'entraînement avec des instances Cloud TPU à l'aide de TensorFlow, JAX et PyTorch.

Surveillance avec Stacktrace décrit comment créer des métriques basées sur les journaux pouvant être utilisées pour créer des alertes et visualiser des tableaux de bord pour déboguer les erreurs et les problèmes de performances.

Si vous ne parvenez pas à déterminer si le problème que vous rencontrez est spécifique à un framework particulier, commencez par résoudre les problèmes liés à TensorFlow -TPU.