Bergantung pada ukuran set data dan kompleksitas model, pelatihan dapat memerlukan waktu lama. Pelatihan dari data yang nyata dapat berlangsung berjam-jam. Anda dapat memantau beberapa aspek tugas saat tugas tersebut berjalan.
Memeriksa status pekerjaan
Untuk status keseluruhan, cara termudah untuk memeriksa tugas Anda adalah halaman Tugas Pelatihan AI Platform di Konsol Google Cloud. Anda bisa mendapatkan detail yang sama secara terprogram dan dengan Google Cloud CLI.
console
Buka halaman Tugas Pelatihan AI Platform di Konsol Google Cloud.
Klik nama pekerjaan Anda dalam daftar untuk membuka halaman Detail Pekerjaan.
Temukan status pekerjaan Anda di bagian atas laporan. Ikon dan teks menjelaskan status tugas saat ini.
Memfilter tugas
Di halaman Tugas, Anda dapat memfilter tugas menurut beberapa parameter yang berbeda, termasuk Jenis, JobID, State, dan waktu pembuatan tugas.
- Klik di dalam Filter menurut awalan, yang terletak di atas daftar tugas. Pilih awalan yang ingin Anda gunakan untuk pemfilteran. Misalnya, pilih Jenis.
Untuk menyelesaikan filter, klik akhiran filter yang ingin Anda gunakan. Misalnya, opsi akhiran untuk awalan Jenis adalah:
- Pelatihan kode kustom
- Pelatihan algoritma bawaan
- Prediksi
Filter diterapkan ke daftar Tugas, dan nama filter akan ditampilkan di kolom filter. Misalnya, jika Anda memilih Pelatihan kode kustom, filter Type:Custom code training akan ditampilkan di bagian atas, dan memfilter daftar tugas Anda. Anda dapat menambahkan beberapa filter, jika perlu.
Melihat uji coba hyperparameter
Di halaman Detail Tugas, Anda dapat melihat metrik untuk setiap uji coba di
tabel Uji coba HyperTune. Tabel ini hanya muncul untuk tugas yang menggunakan penyesuaian hyperparameter. Anda dapat mengalihkan metrik untuk menampilkan uji coba berdasarkan rmse
, Training steps
, dan learning_rate
tertinggi atau terendah.
Untuk melihat log uji coba tertentu, klik
gcloud
Gunakan
gcloud ai-platform jobs describe
untuk mendapatkan detail tentang status tugas saat ini di command line:
gcloud ai-platform jobs describe job_name
Anda bisa mendapatkan daftar tugas terkait project yang menyertakan status
tugas dan waktu pembuatan dengan
gcloud ai-platform jobs list
.
Perlu diperhatikan bahwa perintah dalam bentuk paling sederhana ini mencantumkan semua tugas yang pernah dibuat untuk project Anda. Anda harus menentukan cakupan permintaan untuk membatasi jumlah
tugas yang dilaporkan. Contoh berikut akan membantu Anda memulai:
Gunakan argumen --limit
untuk membatasi jumlah tugas. Contoh ini
mencantumkan 5 tugas terbaru:
gcloud ai-platform jobs list --limit=5
Gunakan argumen --filter
untuk membatasi daftar tugas hanya untuk tugas yang memiliki nilai atribut tertentu. Anda dapat memfilter satu atau beberapa atribut
objek Job. Selain
atribut tugas inti, Anda dapat memfilter objek dalam tugas, seperti
objek
TrainingInput.
Contoh memfilter daftar:
Mencantumkan semua tugas yang dimulai setelah waktu tertentu. Contoh ini menggunakan pukul 7 malam tanggal 15 Januari 2017:
gcloud ai-platform jobs list --filter='createTime>2017-01-15T19:00'
Cantumkan tiga pekerjaan terakhir dengan nama yang dimulai dengan string tertentu. Misalnya, string dapat mewakili nama yang Anda gunakan untuk semua tugas pelatihan model tertentu. Contoh ini menggunakan model dengan ID tugas adalah 'sensus' dengan akhiran indeks yang bertambah untuk setiap tugas:
gcloud ai-platform jobs list --filter='jobId:census*' --limit=3
Tampilkan daftar semua tugas yang gagal dengan nama yang diawali dengan 'rnn':
gcloud ai-platform jobs list --filter='jobId:rnn* AND state:FAILED'
Untuk detail ekspresi yang didukung oleh opsi filter, lihat
dokumentasi untuk perintah
gcloud
.
Python
Rangkai string ID tugas Anda dengan menggabungkan nama project dan nama tugas ke dalam bentuk:
'projects/your_project_name/jobs/your_job_name'
:projectName = 'your_project_name' projectId = 'projects/{}'.format(projectName) jobName = 'your_job_name' jobId = '{}/jobs/{}'.format(projectId, jobName)
Buat permintaan untuk projects.jobs.get:
request = ml.projects().jobs().get(name=jobId)
Jalankan permintaan (contoh ini menempatkan panggilan
execute
dalam bloktry
untuk menangkap pengecualian):response = None try: response = request.execute() except errors.HttpError, err: # Something went wrong. Handle the exception in an appropriate # way for your application.
Periksa respons untuk memastikan bahwa, terlepas dari error HTTP, panggilan layanan menampilkan data.
if response == None: # Treat this condition as an error as best suits your # application.
Mendapatkan data status. Objek respons adalah kamus yang berisi semua anggota resource Job yang berlaku, termasuk resource TrainingInput lengkap dan anggota resource TrainingOutput yang sesuai. Contoh berikut mencetak status tugas dan jumlah unit ML yang dipakai oleh tugas tersebut.
print('Job status for {}.{}:'.format(projectName, jobName)) print(' state : {}'.format(response['state'])) print(' consumedMLUnits : {}'.format( response['trainingOutput']['consumedMLUnits']))
Tugas dapat gagal jika ada masalah dengan aplikasi pelatihan Anda atau dengan infrastruktur Pelatihan AI Platform. Anda dapat menggunakan Cloud Logging untuk memulai proses debug.
Anda juga dapat menggunakan shell interaktif untuk memeriksa container pelatihan saat tugas pelatihan sedang berjalan.
Memantau pemakaian resource
Anda dapat menemukan diagram penggunaan resource berikut untuk tugas pelatihan di halaman Job Details:
- Pemakaian CPU atau GPU gabungan dari tugas, dan pemakaian memori. Keduanya dikelompokkan berdasarkan master, pekerja, dan server parameter.
- Penggunaan jaringan tugas, diukur dalam byte per detik. Ada diagram terpisah untuk byte yang dikirim dan byte yang diterima.
Buka halaman Jobs Pelatihan AI Platform di Konsol Google Cloud.
Temukan lowongan Anda dalam daftar.
Klik nama pekerjaan Anda dalam daftar untuk membuka halaman Detail Pekerjaan.
Pilih tab berlabel CPU, GPU, atau Network untuk melihat diagram penggunaan resource yang terkait.
Anda juga dapat mengakses informasi tentang referensi online yang digunakan tugas pelatihan Anda dengan Cloud Monitoring. Pelatihan AI Platform mengekspor metrics ke Cloud Monitoring.
Setiap jenis metrik AI Platform Training menyertakan "pelatihan" dalam namanya. Misalnya, ml.googleapis.com/training/cpu/utilization
atau
ml.googleapis.com/training/accelerator/memory/utilization
.
Pemantauan dengan TensorBoard
Anda dapat mengonfigurasi aplikasi pelatihan untuk menyimpan data ringkasan yang dapat diperiksa dan divisualisasikan menggunakan TensorBoard.
Simpan data ringkasan ke lokasi Cloud Storage dan arahkan TensorBoard ke lokasi tersebut untuk memeriksa data. Anda juga dapat mengarahkan TensorBoard ke direktori dengan subdirektori yang berisi output dari beberapa tugas.
Lihat informasi selengkapnya tentang TensorBoard dan Pelatihan AI Platform di panduan memulai.
Langkah selanjutnya
- Memecahkan masalah terkait tugas pelatihan Anda.
- Deploy model terlatih Anda untuk pengujian online dan penyajian prediksi.