Bergantung pada ukuran set data dan kompleksitas model, pelatihan dapat memerlukan waktu yang lama. Pelatihan dari data dunia nyata dapat berlangsung selama berjam-jam. Anda dapat memantau beberapa aspek tugas saat berjalan.
Memeriksa status tugas
Untuk status keseluruhan, cara termudah untuk memeriksa tugas Anda adalah melalui halaman AI Platform Training Jobs di konsol Google Cloud. Anda bisa mendapatkan detail yang sama secara terprogram dan dengan Google Cloud CLI.
console
Buka halaman Jobs AI Platform Training di konsol Google Cloud.
Klik nama tugas Anda dalam daftar untuk membuka halaman Detail Tugas.
Temukan status tugas Anda di bagian atas laporan. Ikon dan teks menjelaskan status tugas saat ini.
Memfilter tugas
Di halaman Tugas, Anda dapat memfilter tugas menurut beberapa parameter yang berbeda, termasuk Jenis, JobID, Status, dan waktu pembuatan tugas.
- Klik dalam Kolom Filter menurut awalan, yang terletak di atas daftar tugas Anda. Pilih awalan yang ingin Anda gunakan untuk pemfilteran. Misalnya, pilih Type.
Untuk menyelesaikan filter, klik akhiran filter yang ingin Anda gunakan. Misalnya, opsi akhiran untuk awalan Type adalah:
- Pelatihan kode kustom
- Pelatihan algoritme bawaan
- Prediksi
Filter diterapkan ke daftar Lowongan, dan nama filter akan ditampilkan di kolom filter. Misalnya, jika Anda memilih Pelatihan kode kustom, filter Jenis:Pelatihan kode kustom akan ditampilkan di bagian atas, dan memfilter daftar tugas Anda. Anda dapat menambahkan beberapa filter, jika diperlukan.
Melihat uji coba hyperparameter
Di halaman Job Details, Anda dapat melihat metrik untuk setiap uji coba di
tabel HyperTune trials. Tabel ini hanya muncul untuk tugas yang menggunakan penyesuaian hyperparameter. Anda dapat mengalihkan metrik untuk menampilkan uji coba berdasarkan
rmse
, Training steps
, dan learning_rate
tertinggi atau terendah.
Untuk melihat log uji coba tertentu, klik
gcloud
Gunakan
gcloud ai-platform jobs describe
untuk mendapatkan detail tentang status tugas saat ini di command line:
gcloud ai-platform jobs describe job_name
Anda bisa mendapatkan daftar tugas yang terkait dengan project Anda yang mencakup status
tugas dan waktu pembuatan dengan
gcloud ai-platform jobs list
.
Perhatikan bahwa perintah ini dalam bentuknya yang paling sederhana mencantumkan semua tugas yang pernah dibuat untuk project Anda. Anda harus menentukan cakupan permintaan untuk membatasi jumlah
tugas yang dilaporkan. Contoh berikut akan membantu Anda memulai:
Gunakan argumen --limit
untuk membatasi jumlah tugas. Contoh ini
mencantumkan 5 tugas terbaru:
gcloud ai-platform jobs list --limit=5
Gunakan argumen --filter
untuk membatasi daftar tugas ke tugas dengan
nilai atribut tertentu. Anda dapat memfilter berdasarkan satu atau beberapa atribut objek
Job. Selain
atribut tugas inti, Anda dapat memfilter objek dalam tugas, seperti objek
TrainingInput.
Contoh pemfilteran daftar:
Mencantumkan semua tugas yang dimulai setelah waktu tertentu. Contoh ini menggunakan pukul 7 malam pada 15 Januari 2017:
gcloud ai-platform jobs list --filter='createTime>2017-01-15T19:00'
Cantumkan tiga tugas terakhir dengan nama yang dimulai dengan string tertentu. Misalnya, string dapat mewakili nama yang Anda gunakan untuk semua tugas pelatihan untuk model tertentu. Contoh ini menggunakan model dengan ID tugas 'sensus' dengan akhiran yang merupakan indeks yang bertambah untuk setiap tugas:
gcloud ai-platform jobs list --filter='jobId:census*' --limit=3
Cantumkan semua tugas yang gagal dengan nama yang diawali dengan 'rnn':
gcloud ai-platform jobs list --filter='jobId:rnn* AND state:FAILED'
Untuk mengetahui detail ekspresi yang didukung oleh opsi filter, lihat
dokumentasi untuk perintah
gcloud
.
Python
Gabungkan string ID tugas dengan menggabungkan nama project dan nama tugas ke dalam bentuk:
'projects/your_project_name/jobs/your_job_name'
:projectName = 'your_project_name' projectId = 'projects/{}'.format(projectName) jobName = 'your_job_name' jobId = '{}/jobs/{}'.format(projectId, jobName)
Buat permintaan ke projects.jobs.get:
request = ml.projects().jobs().get(name=jobId)
Jalankan permintaan (contoh ini menempatkan panggilan
execute
dalam bloktry
untuk menangkap pengecualian):response = None try: response = request.execute() except errors.HttpError, err: # Something went wrong. Handle the exception in an appropriate # way for your application.
Periksa respons untuk memastikan bahwa, terlepas dari error HTTP, panggilan layanan menampilkan data.
if response == None: # Treat this condition as an error as best suits your # application.
Mendapatkan data status. Objek respons adalah kamus yang berisi semua anggota yang berlaku dari resource Job, termasuk resource TrainingInput lengkap dan anggota yang berlaku dari resource TrainingOutput. Contoh berikut mencetak status tugas dan jumlah unit ML yang digunakan oleh tugas.
print('Job status for {}.{}:'.format(projectName, jobName)) print(' state : {}'.format(response['state'])) print(' consumedMLUnits : {}'.format( response['trainingOutput']['consumedMLUnits']))
Tugas dapat gagal jika ada masalah dengan aplikasi pelatihan Anda atau dengan infrastruktur Pelatihan AI Platform. Anda dapat menggunakan Cloud Logging untuk memulai proses debug.
Anda juga dapat menggunakan shell interaktif untuk memeriksa container pelatihan saat tugas pelatihan sedang berjalan.
Memantau penggunaan resource
Anda dapat menemukan diagram penggunaan resource berikut untuk tugas pelatihan di halaman Job Details:
- Penggunaan CPU atau GPU gabungan tugas, dan penggunaan memori. Hal ini dibagi menurut server master, pekerja, dan parameter.
- Penggunaan jaringan tugas, yang diukur dalam byte per detik. Ada diagram terpisah untuk byte yang dikirim, dan byte yang diterima.
Buka halaman Tugas AI Platform Training di Konsol Google Cloud.
Temukan pekerjaan Anda dalam daftar.
Klik nama tugas Anda dalam daftar untuk membuka halaman Detail Tugas.
Pilih tab berlabel CPU, GPU, atau Network untuk melihat diagram penggunaan resource terkait.
Anda juga dapat mengakses informasi tentang resource online yang digunakan tugas pelatihan dengan Cloud Monitoring. AI Platform Training mengekspor metrik ke Cloud Monitoring.
Setiap jenis metrik AI Platform Training menyertakan "pelatihan" dalam namanya. Misalnya, ml.googleapis.com/training/cpu/utilization
atau
ml.googleapis.com/training/accelerator/memory/utilization
.
Memantau dengan TensorBoard
Anda dapat mengonfigurasi aplikasi pelatihan untuk menyimpan data ringkasan yang dapat Anda periksa dan visualisasikan menggunakan TensorBoard.
Simpan data ringkasan ke lokasi Cloud Storage dan arahkan TensorBoard ke lokasi tersebut untuk memeriksa data. Anda juga dapat mengarahkan TensorBoard ke direktori dengan subdirektori yang berisi output dari beberapa tugas.
Lihat informasi selengkapnya tentang TensorBoard dan AI Platform Training di panduan memulai.
Langkah selanjutnya
- Memecahkan masalah terkait tugas pelatihan Anda.
- Deploy model terlatih Anda untuk pengujian online dan penayangan prediksi.