Memahami layanan Pelatihan AI Platform

Halaman ini menjelaskan status cluster pelatihan selama siklus proses tugas pelatihan, dan cara AI Platform Training menangani error pelatihan. Anda dapat menggunakan informasi ini untuk menyesuaikan kode pelatihan Anda.

Siklus proses tugas pelatihan

Bagian ini menjelaskan cara AI Platform Training menangani VM pekerja melalui siklus proses tugas pelatihan.

Memulai worker secara paralel

Saat tugas pelatihan dimulai, AI Platform Training menjadwalkan sebanyak mungkin pekerja dalam waktu singkat. Akibatnya, worker dapat memulai secara paralel, bukan secara berurutan. Untuk mengurangi latensi pengaktifan, Pelatihan AI Platform mulai menjalankan kode Anda pada setiap pekerja segera setelah tersedia. Saat semua pekerja tersedia, AI Platform Training akan menetapkan status tugas ke RUNNING.

Pada umumnya, framework machine learning Anda akan otomatis menangani worker secara paralel. Jika menggunakan strategi distribusi dalam kode pelatihan, Anda mungkin perlu menyesuaikannya secara manual untuk menangani worker yang dimulai secara paralel. Pelajari lebih lanjut strategi distribusi di TensorFlow dan di PyTorch.

Memulai ulang worker selama tugas pelatihan

Selama tugas pelatihan, Pelatihan AI Platform dapat memulai ulang server master, pekerja, atau parameter Anda dengan nama host yang sama. Masalah ini dapat terjadi karena alasan berikut:

  • Pemeliharaan VM: Saat VM yang menjalankan pekerja dikenai pemeliharaan VM, Pelatihan AI Platform akan memulai ulang pekerja di VM lain. Pelajari lebih lanjut migrasi langsung untuk pemeliharaan VM.
  • Keluar yang bukan nol: Jika ada pekerja yang keluar dengan kode keluar bukan nol, AI Platform Training akan segera memulai ulang pekerja tersebut di VM yang sama.

    • Jika pekerja gagal karena error umum, hal tersebut akan diperlakukan sebagai error permanen, dan AI Platform Training akan menghentikan seluruh tugas. Jika ada container yang dimulai ulang sebelum AI Platform Training menghentikan seluruh tugas, container ini dapat menghasilkan log di Cloud Logging.
    • Jika pekerja gagal karena error non-permanen (error yang tidak tercantum dalam error umum), AI Platform Training memungkinkan pekerja yang dimulai ulang terus berjalan, dengan hingga lima kali mulai ulang per pekerja. Setelah lima kali dimulai ulang, jika pekerja gagal lagi, AI Platform Training akan mencoba seluruh tugas hingga tiga kali sebelum gagal sepenuhnya.

Untuk menangani mulai ulang worker dalam kode pelatihan, simpan checkpoint secara rutin selama pelatihan sehingga Anda dapat memulihkan dari checkpoint saat worker dimulai ulang. Jika Anda memperkirakan pelatihan akan memakan waktu lebih dari empat jam, sebaiknya simpan checkpoint setidaknya sekali setiap empat jam. Pelajari cara menggunakan checkpoint pelatihan di TensorFlow dan di PyTorch.

Berhasil menyelesaikan tugas

Tugas pelatihan berhasil diselesaikan saat replika utamanya keluar dengan kode exit 0. Pada saat itu, AI Platform Training akan menghentikan semua pekerja lainnya yang sedang berjalan.

Cara AI Platform Training menangani error tugas pelatihan

Bagian ini menjelaskan cara AI Platform Training menangani error tugas pelatihan yang umum dan error internal.

Sekitar satu menit setelah tugas berakhir, AI Platform Training menetapkan kode error pada objek tugas pelatihan, berdasarkan kode keluar.

Menangani error umum

AI Platform Training akan menonaktifkan semua pekerja jika mengalami salah satu masalah berikut:

Jenis Error Log/Pesan Error Catatan
Pengecualian kode pengguna Replika REPLICA_NAME keluar dengan status EXIT_CODE bukan nol. Alasan penghentian: REASON. Jika tugas mengalami exit code yang bersifat sementara, AI Platform Training akan mencoba memulai ulang tugas hingga tiga kali. Kode error yang berpotensi sementara yang meminta AI Platform Training untuk mencoba lagi tugas mencakup hal berikut:
  • SIGABRT
    • ExitCode 6
    • ExitCode 134 (container kustom)
  • SIGSEGV
    • ExitCode 11
    • ExitCode 139 (container kustom)
Kehabisan memori Replika REPLICA_NAME kehabisan memori dan keluar dengan status EXIT_CODE bukan nol. GKE mencadangkan memori pada node Pelatihan AI Platform. Pada jenis mesin terkecil (seperti n1-standard-4), agen sistem Pelatihan AI Platform dapat menggunakan hingga 40% dari total memori. Untuk VM yang lebih besar, overhead-nya relatif kecil. Bandingkan memori yang dapat dialokasikan untuk jenis mesin n1-standard.
Kapasitas tidak memadai di region Anda (kehabisan stok Compute Engine) Resource tidak memadai di region: REGION_NAME. Coba region lain. Jika Anda menggunakan K80, sebaiknya gunakan P100 atau V100. Stok habis terjadi saat Compute Engine mencapai kapasitasnya untuk CPU atau GPU yang dipilih di region Anda. Hal ini tidak terkait dengan kuota project Anda. Jika hal ini terjadi, AI Platform Training akan mencoba memulai ulang tugas hingga tiga kali.

Menangani error internal

Jika mengalami error internal, AI Platform Training akan mencoba memulai ulang tugas dua kali (total tiga kali percobaan). Jika upaya mulai ulang juga gagal, AI Platform Training akan menampilkan error internal dengan pesan: Internal error occurred for the current attempt.