Selama proses pelatihan dan deployment model serta mendapatkan prediksi, Anda perlu mengelola resource di Google Cloud Platform. Halaman ini menjelaskan cara menggunakan model, versi, dan tugas.
Memberi nama resource AI Platform Training
Anda harus menentukan nama untuk setiap tugas yang Anda buat. Aturan penamaan konsisten di ketiga jenis resource. Masing-masing nama:
- Hanya boleh berisi huruf, angka, dan garis bawah.
- Peka huruf besar/kecil
- Harus diawali dengan huruf.
- Tidak boleh lebih dari 128 karakter.
- Harus unik dalam namespace-nya (project Anda untuk model dan tugas, model induk untuk versi).
Anda harus membuat nama yang mudah dibedakan dalam daftar resource, seperti log tugas. Berikut beberapa saran:
- Beri nama semua tugas untuk model yang sama menggunakan nama model dan indeks tugas (stempel waktu saat tugas dibuat berfungsi dengan baik).
- Beri nama model Anda agar mudah diidentifikasi berdasarkan set data yang digunakan (
census_wide_deep
biasanya lebih baik daripadamy_new_model
, misalnya). - Versi akan lebih baik jika mudah dibaca. Daripada menggunakan stempel waktu atau
nilai unik yang serupa, sebaiknya gunakan penentu versi sederhana seperti
v1
.
Mengelola tugas
AI Platform Training mendukung dua jenis tugas: pelatihan dan prediksi batch. Detail untuk setiap operasi berbeda, tetapi operasi dasarnya sama.
Tabel berikut merangkum operasi tugas dan mencantumkan antarmuka yang dapat Anda gunakan untuk menjalankannya:
Operasi | Antarmuka | Catatan |
---|---|---|
buat |
projects.jobs.create
|
Pembuatan tugas dijelaskan secara mendetail dalam panduan pelatihan dan prediksi batch. |
Tidak ada penerapan konsol. | ||
batal |
projects.jobs.cancel
|
Membatalkan tugas yang sedang berjalan. |
Cancel di halaman Job details. | ||
get |
projects.jobs.get
|
Informasi yang Anda dapatkan dijelaskan dalam
referensi resource Jobs .
|
Halaman Detail tugas (masuk dengan link dari daftar Tugas). | ||
list |
projects.jobs.list
|
Hanya tugas yang dibuat dalam 90 hari terakhir yang akan ditampilkan. |
Daftar Pekerjaan. |
Menangani operasi asinkron
Sebagian besar operasi pengelolaan resource AI Platform Training ditampilkan sesegera mungkin, dan memberikan respons lengkap. Namun, ada dua jenis operasi asinkron yang harus Anda pahami: tugas dan operasi yang berjalan lama.
Saat memulai operasi asinkron, Anda biasanya ingin mengetahui kapan operasi tersebut selesai. Proses untuk mendapatkan status berbeda untuk tugas dan operasi yang berjalan lama:
Mendapatkan status tugas
Anda dapat menggunakan projects.jobs.get
untuk mendapatkan status tugas. Metode ini juga disediakan sebagai
gcloud ai-platform jobs describe
dan di halaman Jobs di
konsolGoogle Cloud . Terlepas dari cara Anda mendapatkan status, informasi ini didasarkan pada anggota resource Tugas. Anda akan mengetahui bahwa
tugas telah selesai jika Job.state
dalam respons sama dengan salah satu nilai berikut:
SUCCEEDED
FAILED
CANCELLED
Mendapatkan status operasi yang berjalan lama
AI Platform Training memiliki tiga operasi yang berjalan lama:
- Membuat versi
- Menghapus model
- Menghapus versi
Dari operasi yang berjalan lama, hanya pembuatan versi yang mungkin memerlukan waktu yang lama untuk diselesaikan. Penghapusan model dan versi biasanya dilakukan dalam hampir real time.
Jika Anda membuat versi menggunakan Google Cloud CLI atau konsolGoogle Cloud , antarmuka akan otomatis memberi tahu Anda saat operasi selesai. Jika membuat versi dengan API, Anda dapat melacak status operasi sendiri:
Dapatkan nama operasi yang ditetapkan layanan dari objek Operation dalam respons terhadap panggilan Anda ke projects.models.versions.create. Kunci untuk nilai nama adalah
"name"
.Gunakan projects.operations.get untuk melakukan polling status operasi secara berkala.
Gunakan nama operasi dari langkah pertama untuk membentuk string nama dalam bentuk:
'projects/my_project/operations/operation_name'
Pesan respons berisi objek Operation.
Dapatkan nilai untuk kunci
"done"
. Ini adalah indikator Boolean untuk selesainya operasi. Benar jika operasi selesai.
Objek Operasi akan menyertakan salah satu dari dua kunci setelah selesai:
Kunci
"response"
ada jika operasi berhasil. Nilainya harus berupa google.protobuf.Empty, karena tidak ada operasi yang berjalan lama di AI Platform Training yang memiliki objek respons.Kunci
"error"
ada jika terjadi error. Nilainya adalah objek Status.
Langkah selanjutnya
- Latih model.
- Pelajari cara menggunakan label untuk mengatur resource Anda.