PyTorch 문제 해결 - TPU

이 가이드에서는 Cloud TPU에서 PyTorch 모델을 학습하는 동안에 발생할 수 있는 문제를 식별하고 해결하는 데 도움이 되는 문제 해결 정보를 제공합니다. Cloud TPU 시작에 대한 보다 일반적인 가이드는 PyTorch 빠른 시작을 참조하세요.

느린 학습 성능 문제 해결

모델 학습이 느리게 진행되면 측정항목 보고서를 생성하고 검토합니다.

측정항목 보고서를 자동으로 분석하고 요약을 제공하려면 PT_XLA_DEBUG=1로 워크로드를 실행하기만 하면 됩니다.

모델 학습 속도를 늦출 수 있는 문제에 대한 자세한 내용은 알려진 성능 주의사항을 참조하세요.

성능 프로파일링

병목 현상을 발견하기 위해 워크로드를 심층적으로 프로파일링하려면 다음 리소스를 사용하면 됩니다.

디버깅 도구 더보기

환경 변수를 지정하여 PyTorch/XLA 소프트웨어 스택의 동작을 제어할 수 있습니다.

PyTorch 프로세스가 응답하지 않으면 GitHub 문제를 기록하고 스택 트레이스를 포함합니다.

debug_run.py 유틸리티는 PyTorch/XLA 실행을 디버깅하는 데 필요한 정보가 있는 tar.gz 보관 파일을 만드는 데 사용할 수 있는 scripts/debug_run.py에 제공됩니다.

XLA 텐서 관리

XLA 텐서 Quirks는 XLA 텐서 및 공유 가중치로 작업할 때 수행해야 하는 작업과 수행하지 않아야 하는 작업을 설명합니다.