Como solucionar erros de Cloud TPU e problemas de desempenho

Esses documentos de solução de problemas descrevem condições de erro e problemas de desempenho que você pode encontrar ao treinar com Cloud TPUs usando o TensorFlow, o JAX e o PyTorch.

O Monitoramento com o Stacktrace descreve como criar métricas com base em registros que podem ser usadas para criar alertas e visualizar painéis para ajudar a depurar erros e problemas de desempenho.

Se não for possível saber se o problema que você está vendo é específico de um framework específico, comece com a solução de problemas do TensorFlow: TPU.