Memecahkan masalah alur kerja Cloud TPU
Setelah workload pelatihan atau inferensi Anda berjalan di TPU, langkah berikutnya adalah memastikan workload Anda berfungsi seperti yang diharapkan. Cloud TPU menghasilkan metrik dan log yang memungkinkan Anda mencari dan men-debug VM TPU yang tidak berperilaku seperti yang diharapkan. Kami menyebut VM tersebut sebagai outlier di seluruh dokumentasi ini.
Alur kerja pemecahan masalah umum adalah:
- Lihat metrik Cloud TPU untuk memeriksa VM TPU pencilan
- Melihat log Cloud TPU untuk VM TPU pencilan
- Membuat profil beban kerja Anda
Anda dapat melihat metrik dan log di Metrics Explorer dan Logs Explorer di Konsol Google Cloud. Anda juga dapat menggunakan dasbor pemantauan dan logging untuk mengumpulkan semua metrik dan log terkait Cloud TPU di setiap dasbor.
Metrik VM Cloud TPU
Cloud Monitoring secara otomatis mengumpulkan metrik dari TPU Anda dan VM Compute Engine host-nya. Metrik melacak kuantitas numerik dari waktu ke waktu, misalnya penggunaan CPU, penggunaan jaringan, atau durasi tidak ada aktivitas TensorCore. Untuk mengetahui informasi selengkapnya tentang metrik Cloud TPU, lihat Memantau VM TPU.
Log Cloud TPU
Cloud Logging secara otomatis mengumpulkan log dari TPU Anda dan VM Compute Engine host-nya. Cloud Logging melacak peristiwa yang dihasilkan oleh Cloud TPU. Anda juga dapat menginstrumentasikan kode Anda untuk menghasilkan log. Ada dua jenis log yang dihasilkan oleh Cloud TPU:
- Log TPU Worker
- Log resource yang diaudit
Log TPU Worker berisi informasi tentang TPU worker tertentu di zona tertentu, misalnya jumlah memori yang tersedia pada TPU worker (system_available_memory_GiB).
Log Resource yang diaudit berisi informasi tentang kapan Cloud TPU API tertentu dipanggil dan siapa yang melakukan panggilan. Misalnya CreateNode
, UpdateNode
, dan
DeleteNode
.
Anda juga dapat menggunakan paket PyPi cloud-tpu-diagnostics
untuk menulis pelacakan tumpukan ke log. Untuk mengetahui informasi selengkapnya, lihat Men-debug VM TPU.
Untuk mengetahui informasi selengkapnya tentang log, lihat Logging.
Dasbor pemantauan dan logging
Memiliki satu halaman di Google Cloud Console dapat mempermudah melihat dan menafsirkan metrik dan log terkait Cloud TPU. Repositori GitHub pemantauan-proses debug berisi sekumpulan file skrip dan konfigurasi yang menggunakan Terraform untuk men-deploy dasbor yang berisi semua metrik dan log terkait Cloud TPU di dasbor secara otomatis. Untuk menyiapkan dasbor ini di project Google Cloud, lihat Dasbor Pemantauan dan Logging.
Membuat profil workload di VM TPU
Pembuatan profil memungkinkan Anda mengoptimalkan performa pelatihan model di VM TPU. Anda menggunakan TensorBoard dan plugin TPU TensorBoard untuk membuat profil model. Untuk mengetahui informasi selengkapnya tentang cara membuat profil workload, lihat Membuat profil model di VM TPU.
Untuk mengetahui informasi selengkapnya tentang cara menggunakan TensorBoard dengan salah satu framework yang didukung, lihat dokumen berikut: