Memecahkan masalah alur kerja Cloud TPU
Setelah Anda menjalankan workload pelatihan atau inferensi di TPU, langkah berikutnya adalah memastikan workload Anda berfungsi seperti yang diharapkan. Cloud TPU menghasilkan metrik dan log yang memungkinkan Anda mencari dan men-debug VM TPU yang tidak berperilaku seperti yang diharapkan. Kami menyebut VM tersebut sebagai penyimpangan di seluruh dokumentasi ini.
Alur kerja pemecahan masalah umum adalah:
- Melihat metrik Cloud TPU untuk memeriksa VM TPU yang menyimpang
- Melihat log Cloud TPU untuk VM TPU yang menyimpang
- Membuat profil workload
Anda dapat melihat metrik dan log di Metrics Explorer dan Logs Explorer di konsol Google Cloud. Anda juga dapat menggunakan dasbor pemantauan dan logging untuk mengumpulkan semua metrik dan log terkait Cloud TPU di setiap dasbor.
Metrik VM Cloud TPU
Cloud Monitoring otomatis mengumpulkan metrik dari TPU dan VM Compute Engine host-nya. Metrik melacak kuantitas numerik dari waktu ke waktu, misalnya, pemakaian CPU, penggunaan jaringan, atau durasi tidak ada aktivitas TensorCore. Untuk mengetahui informasi selengkapnya tentang metrik Cloud TPU, lihat Memantau VM TPU.
Log Cloud TPU
Cloud Logging otomatis mengumpulkan log dari TPU dan VM Compute Engine host-nya. Cloud Logging melacak peristiwa yang dihasilkan oleh Cloud TPU. Anda juga dapat melengkapi kode untuk membuat log. Dua jenis log dibuat oleh Cloud TPU:
- Log Pekerja TPU
- Log resource yang diaudit
Log Pekerja TPU berisi informasi tentang pekerja TPU tertentu di zona tertentu, misalnya jumlah memori yang tersedia di pekerja TPU (system_available_memory_GiB).
Log Resource yang Diaudit berisi informasi tentang kapan Cloud TPU API tertentu
dipanggil dan siapa yang melakukan panggilan tersebut. Misalnya CreateNode
, UpdateNode
, dan
DeleteNode
.
Anda juga dapat menggunakan paket PyPi cloud-tpu-diagnostics
untuk menulis pelacakan tumpukan
ke log. Untuk informasi selengkapnya, lihat Men-debug VM TPU.
Untuk mengetahui informasi selengkapnya tentang log, lihat Logging.
Dasbor pemantauan dan logging
Memiliki satu halaman di konsol Google Cloud dapat mempermudah melihat dan menafsirkan metrik dan log terkait Cloud TPU. Repositori GitHub monitoring-debugging berisi kumpulan skrip dan file konfigurasi yang menggunakan Terraform untuk men-deploy dasbor secara otomatis yang berisi semua metrik dan log terkait Cloud TPU di dasbor. Untuk menyiapkan dasbor ini di project Google Cloud Anda, lihat Dasbor Monitoring dan Logging.
Membuat profil workload di VM TPU
Dengan pembuatan profil, Anda dapat mengoptimalkan performa pelatihan model di VM TPU. Anda menggunakan TensorBoard dan plugin TPU TensorBoard untuk membuat profil model. Untuk mengetahui informasi selengkapnya tentang cara membuat profil beban kerja, lihat Membuat profil model di VM TPU.
Untuk informasi selengkapnya tentang cara menggunakan TensorBoard dengan salah satu framework yang didukung, lihat dokumen berikut: