Pemecahan masalah PyTorch - TPU

Panduan ini memberikan informasi pemecahan masalah untuk membantu Anda mengidentifikasi dan menyelesaikan masalah yang mungkin Anda alami saat melatih model PyTorch di Cloud TPU. Untuk panduan yang lebih umum guna memulai Cloud TPU, lihat panduan memulai PyTorch.

Memecahkan masalah performa pelatihan yang lambat

Jika model Anda lambat berlatih, buat dan tinjau laporan metrik.

Untuk menganalisis laporan metrik secara otomatis dan memberikan ringkasan, cukup jalankan beban kerja Anda dengan PT_XLA_DEBUG=1.

Untuk mengetahui informasi selengkapnya tentang masalah yang dapat menyebabkan model Anda lambat berlatih, lihat Peringatan performa yang diketahui.

Pembuatan profil performa

Agar dapat memprofilkan beban kerja Anda secara mendalam untuk menemukan bottleneck, Anda dapat menggunakan referensi berikut:

Alat proses debug lainnya

Anda dapat menentukan variabel lingkungan untuk mengontrol perilaku stack software PyTorch/XLA.

Jika proses PyTorch berhenti merespons, ajukan masalah GitHub dan sertakan pelacakan tumpukan.

Utilitas debug_run.py disediakan dalam skrip/debug_run.py yang dapat digunakan untuk membuat arsip tar.gz dengan informasi yang diperlukan untuk men-debug eksekusi PyTorch/XLA.

Mengelola Tensor XLA

Tensor XLA Quirks menjelaskan hal yang harus dan tidak boleh Anda lakukan saat menggunakan TensorFlow XLA dan bobot bersama.