Solucionar errores de Cloud TPU y problemas de rendimiento

En estos documentos de solución de problemas, se describen las condiciones de error y los problemas de rendimiento que pueden aparecer durante el entrenamiento con las TPU de Cloud mediante TensorFlow, JAX y PyTorch.

En Monitoring con Stacktrace, se describe cómo crear métricas basadas en registros que se pueden usar para crear alertas y visualizar paneles a fin de ayudar a depurar errores y problemas de rendimiento.

Si no puedes saber si el problema que ves es específico de un framework en particular, comienza con la solución de problemas de TensorFlow - TPU.