Cloud TPU 오류 및 성능 문제 해결

이 문제 해결 문서에서는 TensorFlow, JAX, PyTorch를 사용하여 Cloud TPU로 학습할 때 발생할 수 있는 오류 조건 및 성능 문제를 설명합니다.

Stacktrace로 모니터링에서는 오류 및 성능 문제를 디버깅하도록 알림을 만들고 대시보드를 시각화하는 데 사용할 수 있는 로그 기반 측정항목을 만드는 방법을 설명합니다.

표시된 문제가 특정 프레임워크와 관련이 있는지 알 수 없으면 TensorFlow 문제 해결 - TPU를 시작합니다.