Selama proses pelatihan dan deployment model serta mendapatkan prediksi, Anda perlu mengelola resource di Google Cloud Platform. Halaman ini menjelaskan cara menggunakan model, versi, dan tugas.
Penamaan resource Pelatihan AI Platform
Anda harus menetapkan nama untuk setiap pekerjaan yang dibuat. Aturan penamaan konsisten di ketiga jenis resource. Masing-masing nama:
- Hanya dapat berisi huruf, angka, dan garis bawah.
- Peka huruf besar/kecil
- Harus diawali dengan huruf.
- Tidak boleh lebih dari 128 karakter.
- Harus unik dalam namespace-nya (project Anda untuk model dan tugas, model induk untuk versi).
Anda harus membuat nama yang mudah dibedakan dalam daftar resource, seperti log tugas. Berikut beberapa saran:
- Beri nama semua tugas untuk model yang sama menggunakan nama model dan indeks tugas (stempel waktu saat tugas dibuat berfungsi dengan baik).
- Beri nama model Anda agar mudah diidentifikasi berdasarkan set data yang digunakan (misalnya,
census_wide_deep
biasanya lebih baik daripadamy_new_model
). - Versi paling baik jika mudah dibaca. Daripada menggunakan stempel waktu atau
nilai unik yang serupa, sebaiknya gunakan penanda versi sederhana seperti
v1
.
Mengelola tugas
AI Platform Training mendukung dua jenis tugas: pelatihan dan prediksi batch. Detail untuk setiap opsi berbeda, tetapi operasi dasarnya sama.
Tabel berikut merangkum operasi tugas dan mencantumkan antarmuka yang dapat Anda gunakan untuk melakukannya:
Operasi | Antarmuka | Notes |
---|---|---|
buat |
projects.jobs.create
|
Pembuatan tugas dijelaskan secara mendetail dalam panduan pelatihan dan prediksi batch. |
Tidak ada implementasi konsol. | ||
batal |
projects.jobs.cancel
|
Membatalkan tugas yang sedang berjalan. |
Batal di halaman Detail tugas. | ||
get |
projects.jobs.get
|
Informasi yang Anda dapatkan dijelaskan dalam
referensi resource Jobs .
|
Halaman Detail tugas (masukkan dengan link dari daftar Lowongan). | ||
list |
projects.jobs.list
|
Hanya lowongan yang dibuat dalam 90 hari terakhir yang akan ditampilkan. |
Daftar tugas. |
Menangani operasi asinkron
Sebagian besar operasi pengelolaan resource Pelatihan AI Platform ditampilkan secepat mungkin, dan memberikan respons lengkap. Namun, ada dua jenis operasi asinkron yang harus Anda pahami: tugas dan operasi yang berjalan lama.
Saat memulai operasi asinkron, Anda biasanya ingin mengetahui kapan operasi tersebut selesai. Proses untuk mendapatkan status berbeda untuk tugas dan operasi yang berjalan lama:
Mendapatkan status pekerjaan
Anda dapat menggunakan projects.jobs.get untuk mendapatkan status tugas. Metode ini juga disediakan sebagai gcloud ai-platform jobs describe
dan di halaman Tugas di Konsol Google Cloud. Terlepas dari cara Anda mendapatkan status, informasinya didasarkan pada
anggota
Resource lowongan. Anda akan mengetahui
bahwa tugas telah selesai jika Job.state
dalam respons sama dengan salah satu nilai berikut:
SUCCEEDED
FAILED
CANCELLED
Mendapatkan status operasi yang berjalan lama
AI Platform Training memiliki tiga operasi yang berjalan lama:
- Membuat versi
- Menghapus model
- Menghapus versi
Dari operasi yang berjalan lama, hanya membuat versi yang mungkin memerlukan banyak waktu untuk diselesaikan. Menghapus model dan versi biasanya dilakukan hampir secara real time.
Jika Anda membuat versi menggunakan Google Cloud CLI atau Konsol Google Cloud, antarmuka akan otomatis memberi tahu Anda saat operasi selesai. Jika membuat versi dengan API, Anda dapat melacak sendiri status operasi:
Dapatkan nama operasi yang ditetapkan layanan dari objek Operation sebagai respons terhadap panggilan Anda ke projects.models.versions.create. Kunci untuk nilai nama adalah
"name"
.Gunakan projects.operations.get untuk memeriksa status operasi secara berkala.
Gunakan nama operasi dari langkah pertama untuk membentuk string nama formulir:
'projects/my_project/operations/operation_name'
Pesan respons berisi objek Operation.
Dapatkan nilai untuk kunci
"done"
. Ini adalah indikator Boolean penyelesaian operasi. Benar jika operasi selesai.
Objek Operation akan menyertakan salah satu dari dua kunci setelah selesai:
Kunci
"response"
akan ada jika operasi berhasil. Nilainya harus google.protobuf.Empty, karena tidak ada operasi yang berjalan lama Pelatihan AI Platform yang memiliki objek respons.Kunci
"error"
ada jika terjadi error. Nilainya adalah objek Status.
Langkah selanjutnya
- Melatih model.
- Pelajari cara menggunakan label untuk mengatur resource Anda.