Résoudre les erreurs Cloud TPU et les problèmes de performances

Ces documents de dépannage décrivent les conditions d'erreur et les problèmes de performances que vous pouvez rencontrer lors de l'entraînement avec des Cloud TPU à l'aide de TensorFlow, JAX et PyTorch.

La page Surveillance avec Stacktrace décrit comment créer des métriques basées sur les journaux pouvant être utilisées pour créer des alertes et visualiser des tableaux de bord afin de déboguer des erreurs et des problèmes de performances.

Si vous ne parvenez pas à déterminer si le problème que vous rencontrez est spécifique à un framework donné, commencez par résoudre les problèmes liés à TensorFlow – TPU.