Memecahkan masalah PyTorch - TPU

Panduan ini memberikan informasi pemecahan masalah untuk membantu Anda mengidentifikasi dan menyelesaikan masalah yang mungkin Anda alami saat melatih model PyTorch di Cloud TPU. Untuk panduan yang lebih umum tentang cara memulai Cloud TPU, lihat panduan memulai PyTorch.

Memecahkan masalah performa pelatihan yang lambat

Jika model Anda dilatih dengan lambat, buat dan tinjau laporan metrik.

Untuk menganalisis laporan metrik secara otomatis dan memberikan ringkasan, cukup jalankan beban kerja Anda dengan PT_XLA_DEBUG=1.

Untuk mengetahui informasi selengkapnya tentang masalah yang mungkin menyebabkan model Anda dilatih dengan lambat, lihat Peringatan performa yang diketahui.

Profiling performa

Untuk membuat profil beban kerja secara mendalam guna menemukan bottleneck, Anda dapat menggunakan referensi berikut:

Alat proses debug lainnya

Anda dapat menentukan variabel lingkungan untuk mengontrol perilaku stack software PyTorch/XLA.

Jika proses PyTorch berhenti merespons, laporkan masalah GitHub dan sertakan stack trace.

Utilitas debug_run.py disediakan di scripts/debug_run.py yang dapat digunakan untuk membuat arsip tar.gz dengan informasi yang diperlukan untuk men-debug eksekusi PyTorch/XLA.

Mengelola tensor XLA

Keanehan tensor XLA menjelaskan hal yang boleh dan tidak boleh Anda lakukan saat menggunakan tensor XLA dan bobot bersama.