Memecahkan masalah alur kerja Cloud TPU

Setelah Anda menjalankan workload pelatihan atau inferensi di TPU, langkah berikutnya adalah memastikan workload Anda berfungsi seperti yang diharapkan. Cloud TPU menghasilkan metrik dan log yang memungkinkan Anda mencari dan men-debug VM TPU yang tidak berperilaku seperti yang diharapkan. Kami menyebut VM tersebut sebagai penyimpangan di seluruh dokumentasi ini.

Alur kerja pemecahan masalah umum adalah:

  1. Melihat metrik Cloud TPU untuk memeriksa VM TPU yang menyimpang
  2. Melihat log Cloud TPU untuk VM TPU yang menyimpang
  3. Membuat profil workload

Anda dapat melihat metrik dan log di Metrics Explorer dan Logs Explorer di konsol Google Cloud. Anda juga dapat menggunakan dasbor pemantauan dan logging untuk mengumpulkan semua metrik dan log terkait Cloud TPU di setiap dasbor.

Metrik VM Cloud TPU

Cloud Monitoring otomatis mengumpulkan metrik dari TPU dan VM Compute Engine host-nya. Metrik melacak kuantitas numerik dari waktu ke waktu, misalnya, pemakaian CPU, penggunaan jaringan, atau durasi tidak ada aktivitas TensorCore. Untuk mengetahui informasi selengkapnya tentang metrik Cloud TPU, lihat Memantau VM TPU.

Log Cloud TPU

Cloud Logging otomatis mengumpulkan log dari TPU dan VM Compute Engine host-nya. Cloud Logging melacak peristiwa yang dihasilkan oleh Cloud TPU. Anda juga dapat melengkapi kode untuk membuat log. Dua jenis log dibuat oleh Cloud TPU:

  • Log Pekerja TPU
  • Log resource yang diaudit

Log Pekerja TPU berisi informasi tentang pekerja TPU tertentu di zona tertentu, misalnya jumlah memori yang tersedia di pekerja TPU (system_available_memory_GiB).

Log Resource yang Diaudit berisi informasi tentang kapan Cloud TPU API tertentu dipanggil dan siapa yang melakukan panggilan tersebut. Misalnya CreateNode, UpdateNode, dan DeleteNode.

Anda juga dapat menggunakan paket PyPi cloud-tpu-diagnostics untuk menulis pelacakan tumpukan ke log. Untuk informasi selengkapnya, lihat Men-debug VM TPU.

Untuk mengetahui informasi selengkapnya tentang log, lihat Logging.

Dasbor pemantauan dan logging

Memiliki satu halaman di konsol Google Cloud dapat mempermudah melihat dan menafsirkan metrik dan log terkait Cloud TPU. Repositori GitHub monitoring-debugging berisi kumpulan skrip dan file konfigurasi yang menggunakan Terraform untuk men-deploy dasbor secara otomatis yang berisi semua metrik dan log terkait Cloud TPU di dasbor. Untuk menyiapkan dasbor ini di project Google Cloud Anda, lihat Dasbor Monitoring dan Logging.

Membuat profil workload di VM TPU

Dengan pembuatan profil, Anda dapat mengoptimalkan performa pelatihan model di VM TPU. Anda menggunakan TensorBoard dan plugin TPU TensorBoard untuk membuat profil model. Untuk mengetahui informasi selengkapnya tentang cara membuat profil beban kerja, lihat Membuat profil model di VM TPU.

Untuk informasi selengkapnya tentang cara menggunakan TensorBoard dengan salah satu framework yang didukung, lihat dokumen berikut: