Memahami layanan Pelatihan AI Platform

Halaman ini menjelaskan status cluster pelatihan melalui siklus proses tugas pelatihan, dan cara AI Platform Training menangani error pelatihan. Anda dapat menggunakan informasi ini untuk menyesuaikan kode pelatihan Anda.

Siklus proses tugas pelatihan

Bagian ini menjelaskan cara AI Platform Training menangani VM pekerja melalui siklus proses tugas pelatihan.

Memulai worker secara paralel

Saat tugas pelatihan dimulai, AI Platform Training menjadwalkan sebanyak mungkin pekerja dalam waktu singkat. Akibatnya, worker dapat memulai secara paralel, bukan secara berurutan. Untuk mengurangi latensi saat memulai, Pelatihan AI Platform mulai menjalankan kode Anda pada setiap pekerja segera setelah tersedia. Setelah semua pekerja tersedia, AI Platform Training akan menetapkan status tugas ke RUNNING.

Pada umumnya, framework machine learning Anda akan otomatis menangani worker secara paralel. Jika menggunakan strategi distribusi dalam kode pelatihan, Anda mungkin perlu menyesuaikannya secara manual untuk menangani worker yang dimulai secara paralel. Pelajari lebih lanjut strategi distribusi di TensorFlow dan di PyTorch.

Memulai ulang worker selama tugas pelatihan

Selama tugas pelatihan, AI Platform Training dapat memulai ulang master, pekerja, atau server parameter Anda dengan nama host yang sama. Masalah ini dapat terjadi karena alasan berikut:

  • Pemeliharaan VM: Saat VM yang menjalankan pekerja tunduk pada pemeliharaan VM, AI Platform Training akan memulai ulang pekerja di VM lain. Pelajari lebih lanjut migrasi langsung untuk pemeliharaan VM.
  • Exit selain nol: Jika worker mana pun keluar dengan kode exit selain nol, AI Platform Training akan segera memulai ulang worker tersebut di VM yang sama.

    • Jika worker gagal karena error umum, worker tersebut akan diperlakukan sebagai error permanen, dan AI Platform Training akan menghentikan seluruh tugasnya. Jika ada container dimulai ulang sebelum AI Platform Training menghentikan seluruh tugas, container ini dapat menghasilkan log di Cloud Logging.
    • Jika worker gagal karena error non-permanen (error yang tidak tercantum di error umum), AI Platform Training memungkinkan worker yang dimulai ulang dapat terus berjalan, dengan maksimum lima kali mulai ulang per worker. Setelah lima kali dimulai ulang, jika pekerja gagal lagi, AI Platform Training akan mencoba ulang seluruh tugas hingga tiga kali sebelum menggagalkan seluruhnya.

Untuk menangani mulai ulang worker dalam kode pelatihan, simpan checkpoint secara rutin selama pelatihan sehingga Anda dapat memulihkan dari checkpoint saat worker dimulai ulang. Jika Anda memperkirakan pelatihan akan memakan waktu lebih dari empat jam, sebaiknya simpan checkpoint setidaknya sekali setiap empat jam. Pelajari cara menggunakan checkpoint pelatihan di TensorFlow dan di PyTorch.

Berhasil menyelesaikan tugas

Tugas pelatihan berhasil diselesaikan saat replika utamanya keluar dengan kode exit 0. Pada saat itu, AI Platform Training akan menghentikan semua worker yang berjalan lainnya.

Cara Pelatihan AI Platform menangani error tugas pelatihan

Bagian ini menjelaskan cara AI Platform Training menangani error tugas pelatihan umum dan error internal.

Sekitar satu menit setelah tugas berakhir, AI Platform Training akan menetapkan kode error pada objek tugas pelatihan, berdasarkan kode exit.

Menangani error umum

AI Platform Training akan menghentikan semua pekerja jika mengalami salah satu masalah berikut:

Jenis Error Log/Pesan Error Catatan
Pengecualian kode pengguna Replika REPLICA_NAME keluar dengan status EXIT_CODE bukan nol. Alasan penghentian: REASON. Jika tugas menemukan kode exit yang bersifat sementara, Pelatihan AI Platform akan mencoba memulai ulang tugas hingga tiga kali. Kode error yang berpotensi sementara yang meminta AI Platform Training mencoba ulang tugas mencakup hal berikut:
  • SIGABRT
    • ExitCode 6
    • ExitCode 134 (container kustom)
  • SIGSEGV
    • ExitCode 11
    • ExitCode 139 (container kustom)
Kehabisan memori Replika REPLICA_NAME kehabisan memori dan keluar dengan status EXIT_CODE bukan nol. GKE mencadangkan memori pada node Pelatihan AI Platform. Pada jenis mesin terkecil (seperti n1-standard-4), agen sistem AI Platform Training dapat menggunakan hingga 40% total memori. Untuk VM yang lebih besar, overhead-nya relatif kecil. Bandingkan memori yang dapat dialokasikan untuk jenis mesin n1-standard.
Kapasitas tidak memadai di region Anda (kehabisan stok Compute Engine) Resource tidak memadai di region: REGION_NAME. Coba region lain atau gunakan akselerator lain. Stok habis terjadi saat Compute Engine mencapai kapasitasnya untuk CPU atau GPU yang dipilih di region Anda. Hal ini tidak terkait dengan kuota project Anda. Jika hal ini terjadi, AI Platform Training akan mencoba memulai ulang tugas hingga tiga kali.

Menangani error internal

Jika mengalami error internal, AI Platform Training akan mencoba memulai ulang tugas dua kali (total tiga kali percobaan). Jika upaya mulai ulang juga gagal, Pelatihan AI Platform akan menampilkan error internal dengan pesan: Internal error occurred for the current attempt.