Mengelola model dan tugas

Selama proses pelatihan dan deployment model serta mendapatkan prediksi, Anda perlu mengelola resource di Google Cloud Platform. Halaman ini menjelaskan cara menggunakan model, versi, dan tugas.

Penamaan resource Pelatihan AI Platform

Anda harus menetapkan nama untuk setiap pekerjaan yang dibuat. Aturan penamaan konsisten di ketiga jenis resource. Masing-masing nama:

  • Hanya dapat berisi huruf, angka, dan garis bawah.
  • Peka huruf besar/kecil
  • Harus diawali dengan huruf.
  • Tidak boleh lebih dari 128 karakter.
  • Harus unik dalam namespace-nya (project Anda untuk model dan tugas, model induk untuk versi).

Anda harus membuat nama yang mudah dibedakan dalam daftar resource, seperti log tugas. Berikut beberapa saran:

  • Beri nama semua tugas untuk model yang sama menggunakan nama model dan indeks tugas (stempel waktu saat tugas dibuat berfungsi dengan baik).
  • Beri nama model Anda agar mudah diidentifikasi berdasarkan set data yang digunakan (misalnya, census_wide_deep biasanya lebih baik daripada my_new_model).
  • Versi paling baik jika mudah dibaca. Daripada menggunakan stempel waktu atau nilai unik yang serupa, sebaiknya gunakan penanda versi sederhana seperti v1.

Mengelola tugas

AI Platform Training mendukung dua jenis tugas: pelatihan dan prediksi batch. Detail untuk setiap opsi berbeda, tetapi operasi dasarnya sama.

Tabel berikut merangkum operasi tugas dan mencantumkan antarmuka yang dapat Anda gunakan untuk melakukannya:

Operasi Antarmuka Notes
buat projects.jobs.create

Pembuatan tugas dijelaskan secara mendetail dalam panduan pelatihan dan prediksi batch.

gcloud ai-platform jobs submit training

gcloud ai-platform jobs submit prediction

Tidak ada implementasi konsol.
batal projects.jobs.cancel

Membatalkan tugas yang sedang berjalan.

gcloud ai-platform jobs cancel

Batal di halaman Detail tugas.
get projects.jobs.get Informasi yang Anda dapatkan dijelaskan dalam referensi resource Jobs.

gcloud ai-platform jobs describe

Halaman Detail tugas (masukkan dengan link dari daftar Lowongan).
list projects.jobs.list Hanya lowongan yang dibuat dalam 90 hari terakhir yang akan ditampilkan.

gcloud ai-platform jobs list

Daftar tugas.

Menangani operasi asinkron

Sebagian besar operasi pengelolaan resource Pelatihan AI Platform ditampilkan secepat mungkin, dan memberikan respons lengkap. Namun, ada dua jenis operasi asinkron yang harus Anda pahami: tugas dan operasi yang berjalan lama.

Saat memulai operasi asinkron, Anda biasanya ingin mengetahui kapan operasi tersebut selesai. Proses untuk mendapatkan status berbeda untuk tugas dan operasi yang berjalan lama:

Mendapatkan status pekerjaan

Anda dapat menggunakan projects.jobs.get untuk mendapatkan status tugas. Metode ini juga disediakan sebagai gcloud ai-platform jobs describe dan di halaman Tugas di Konsol Google Cloud. Terlepas dari cara Anda mendapatkan status, informasinya didasarkan pada anggota Resource lowongan. Anda akan mengetahui bahwa tugas telah selesai jika Job.state dalam respons sama dengan salah satu nilai berikut:

  • SUCCEEDED
  • FAILED
  • CANCELLED

Mendapatkan status operasi yang berjalan lama

AI Platform Training memiliki tiga operasi yang berjalan lama:

  • Membuat versi
  • Menghapus model
  • Menghapus versi

Dari operasi yang berjalan lama, hanya membuat versi yang mungkin memerlukan banyak waktu untuk diselesaikan. Menghapus model dan versi biasanya dilakukan hampir secara real time.

Jika Anda membuat versi menggunakan Google Cloud CLI atau Konsol Google Cloud, antarmuka akan otomatis memberi tahu Anda saat operasi selesai. Jika membuat versi dengan API, Anda dapat melacak sendiri status operasi:

  1. Dapatkan nama operasi yang ditetapkan layanan dari objek Operation sebagai respons terhadap panggilan Anda ke projects.models.versions.create. Kunci untuk nilai nama adalah "name".

  2. Gunakan projects.operations.get untuk memeriksa status operasi secara berkala.

    1. Gunakan nama operasi dari langkah pertama untuk membentuk string nama formulir:

      'projects/my_project/operations/operation_name'
      

      Pesan respons berisi objek Operation.

    2. Dapatkan nilai untuk kunci "done". Ini adalah indikator Boolean penyelesaian operasi. Benar jika operasi selesai.

  3. Objek Operation akan menyertakan salah satu dari dua kunci setelah selesai:

    • Kunci "response" akan ada jika operasi berhasil. Nilainya harus google.protobuf.Empty, karena tidak ada operasi yang berjalan lama Pelatihan AI Platform yang memiliki objek respons.

    • Kunci "error" ada jika terjadi error. Nilainya adalah objek Status.

Langkah selanjutnya