Como solucionar erros de Cloud TPU e problemas de desempenho

Estes documentos de solução de problemas descrevem as condições de erro e os problemas de desempenho que podem ser encontrados ao treinar com Cloud TPUs usando o TensorFlow, o JAX e o PyTorch.

Em Como monitorar com o Stacktrace, descrevemos como criar métricas com base em registros que podem ser usadas para criar alertas e visualizar painéis para ajudar a depurar erros e problemas de desempenho.

Se você não souber se o problema encontrado é específico para um framework específico, comece com a solução de problemas do TensorFlow: TPU.