Cloud TPU 워크플로 문제 해결

TPU에서 학습 또는 추론 워크로드를 실행하면 다음 단계는 워크로드가 예상대로 작동하는지 확인하는 것입니다. Cloud TPU는 예상대로 작동하지 않는 모든 TPU VM을 찾고 디버깅할 수 있는 측정항목과 로그를 생성합니다. 이 문서에서는 이러한 VM을 이상점이라고 합니다.

일반적인 문제 해결 워크플로는 다음과 같습니다.

Cloud TPU 측정항목을 보고 이상점 TPU VM 확인
이상점 TPU VM의 Cloud TPU 로그 보기
워크로드 프로파일링

측정항목 탐색기와 Google Cloud 콘솔의 로그 탐색기에서 측정항목과 로그를 볼 수 있습니다. 또한 모니터링 및 로깅 대시보드를 사용하여 개별 대시보드에서 모든 Cloud TPU 관련 측정항목과 로그를 수집할 수 있습니다.

Cloud TPU VM 측정항목

Cloud Monitoring은 TPU 및 호스트 Compute Engine VM에서 측정항목을 자동으로 수집합니다. 측정항목은 CPU 사용률, 네트워크 사용량 또는 TensorCore 유휴 시간과 같은 시간 경과에 따른 숫자 수량을 추적합니다. Cloud TPU 측정항목에 대한 자세한 내용은 TPU VM 모니터링을 참조하세요.

Cloud TPU 로그

Cloud Logging은 TPU 및 호스트 Compute Engine VM에서 자동으로 로그를 수집합니다. Cloud Logging은 Cloud TPU에서 생성된 이벤트를 추적합니다. 코드를 계측하여 로그를 생성할 수도 있습니다. Cloud TPU에서는 다음 두 가지 유형의 로그를 생성합니다.

TPU 워커 로그
감사를 받은 리소스 로그

TPU 워커 로그에는 특정 영역의 특정 TPU 워커에 대한 정보(예: TPU 워커에서 사용 가능한 메모리 양(system_available_memory_GiB))가 포함됩니다.

감사를 받은 리소스 로그에는 특정 Cloud TPU API가 언제 호출되었고 누가 호출했는지에 대한 정보가 포함됩니다. 예를 들면 CreateNode, UpdateNode, DeleteNode입니다.

또한 cloud-tpu-diagnostics PyPi 패키지를 사용하여 스택 트레이스를 로그에 작성할 수 있습니다. 자세한 내용은 TPU VM 디버깅을 참조하세요.

로그에 관한 자세한 내용은 Logging을 참고하세요.

모니터링 및 로깅 대시보드

Google Cloud 콘솔에 단일 페이지가 있으면 Cloud TPU 관련 측정항목과 로그를 더 쉽게 보고 해석할 수 있습니다. monitoring-debugging GitHub 저장소에는 Terraform을 사용하여 대시보드에 모든 Cloud TPU 관련 정보 측정항목 및 로그가 포함되는 대시보드를 자동으로 배포하는 스크립트 및 구성 파일 집합이 포함되어 있습니다. Google Cloud 프로젝트에서 이러한 대시보드를 설정하려면 Monitoring 및 Logging 대시보드를 참조하세요.

TPU VM에서 워크로드 프로파일링

프로파일링을 사용하면 TPU VM에서 모델의 학습 성능을 최적화할 수 있습니다. TensorBoard 및 TPU 텐서보드 플러그인을 사용하여 모델을 프로파일링합니다. 워크로드를 프로파일링하는 방법은 TPU VM에서 모델 프로파일링을 참조하세요.

지원되는 프레임워크 중 하나에서 텐서보드를 사용하는 방법에 대한 자세한 내용은 다음 문서를 참조하세요.