Memecahkan masalah PyTorch - TPU
Panduan ini memberikan informasi pemecahan masalah untuk membantu Anda mengidentifikasi dan menyelesaikan masalah yang mungkin Anda alami saat melatih model PyTorch di Cloud TPU. Untuk panduan yang lebih umum tentang cara memulai Cloud TPU, lihat panduan memulai PyTorch.
Memecahkan masalah performa pelatihan yang lambat
Jika model Anda dilatih dengan lambat, buat dan tinjau laporan metrik.
Untuk menganalisis laporan metrik secara otomatis dan memberikan ringkasan, cukup jalankan beban kerja Anda dengan PT_XLA_DEBUG=1.
Untuk mengetahui informasi selengkapnya tentang masalah yang mungkin menyebabkan model Anda dilatih dengan lambat, lihat Peringatan performa yang diketahui.
Profiling performa
Untuk membuat profil beban kerja secara mendalam guna menemukan bottleneck, Anda dapat menggunakan referensi berikut:
- Profiling performa PyTorch/XLA
- Membuat profil PyTorch/XLA di Colab
- Contoh skrip pelatihan MNIST dengan pembuatan profil
Alat proses debug lainnya
Anda dapat menentukan variabel lingkungan untuk mengontrol perilaku stack software PyTorch/XLA.
Jika proses PyTorch berhenti merespons, laporkan masalah GitHub dan sertakan stack trace.
Utilitas debug_run.py
disediakan di scripts/debug_run.py yang dapat digunakan untuk membuat arsip tar.gz
dengan informasi yang diperlukan untuk men-debug eksekusi PyTorch/XLA.
Mengelola tensor XLA
Keanehan tensor XLA menjelaskan hal yang boleh dan tidak boleh Anda lakukan saat menggunakan tensor XLA dan bobot bersama.