Memantau tugas pelatihan

Bergantung pada ukuran set data dan kompleksitas model, pelatihan dapat memerlukan waktu lama. Pelatihan dari data yang nyata dapat berlangsung berjam-jam. Anda dapat memantau beberapa aspek tugas saat tugas tersebut berjalan.

Memeriksa status pekerjaan

Untuk status keseluruhan, cara termudah untuk memeriksa tugas Anda adalah halaman Tugas Pelatihan AI Platform di Konsol Google Cloud. Anda bisa mendapatkan detail yang sama secara terprogram dan dengan Google Cloud CLI.

console

  1. Buka halaman Tugas Pelatihan AI Platform di Konsol Google Cloud.

    Membuka Lowongan di konsol Google Cloud

  2. Klik nama pekerjaan Anda dalam daftar untuk membuka halaman Detail Pekerjaan.

  3. Temukan status pekerjaan Anda di bagian atas laporan. Ikon dan teks menjelaskan status tugas saat ini.

    Informasi status pekerjaan di bagian atas laman Detail pekerjaan.

Memfilter tugas

Di halaman Tugas, Anda dapat memfilter tugas menurut beberapa parameter yang berbeda, termasuk Jenis, JobID, State, dan waktu pembuatan tugas.

  1. Klik di dalam Filter menurut awalan, yang terletak di atas daftar tugas. Pilih awalan yang ingin Anda gunakan untuk pemfilteran. Misalnya, pilih Jenis.
  2. Untuk menyelesaikan filter, klik akhiran filter yang ingin Anda gunakan. Misalnya, opsi akhiran untuk awalan Jenis adalah:

    • Pelatihan kode kustom
    • Pelatihan algoritma bawaan
    • Prediksi
  3. Filter diterapkan ke daftar Tugas, dan nama filter akan ditampilkan di kolom filter. Misalnya, jika Anda memilih Pelatihan kode kustom, filter Type:Custom code training akan ditampilkan di bagian atas, dan memfilter daftar tugas Anda. Anda dapat menambahkan beberapa filter, jika perlu.

Melihat uji coba hyperparameter

Di halaman Detail Tugas, Anda dapat melihat metrik untuk setiap uji coba di tabel Uji coba HyperTune. Tabel ini hanya muncul untuk tugas yang menggunakan penyesuaian hyperparameter. Anda dapat mengalihkan metrik untuk menampilkan uji coba berdasarkan rmse, Training steps, dan learning_rate tertinggi atau terendah.

Untuk melihat log uji coba tertentu, klik more_vert ikon, lalu klik View logs.

gcloud

Gunakan gcloud ai-platform jobs describe untuk mendapatkan detail tentang status tugas saat ini di command line:

gcloud ai-platform jobs describe job_name

Anda bisa mendapatkan daftar tugas terkait project yang menyertakan status tugas dan waktu pembuatan dengan gcloud ai-platform jobs list. Perlu diperhatikan bahwa perintah dalam bentuk paling sederhana ini mencantumkan semua tugas yang pernah dibuat untuk project Anda. Anda harus menentukan cakupan permintaan untuk membatasi jumlah tugas yang dilaporkan. Contoh berikut akan membantu Anda memulai:

Gunakan argumen --limit untuk membatasi jumlah tugas. Contoh ini mencantumkan 5 tugas terbaru:

gcloud ai-platform jobs list --limit=5

Gunakan argumen --filter untuk membatasi daftar tugas hanya untuk tugas yang memiliki nilai atribut tertentu. Anda dapat memfilter satu atau beberapa atribut objek Job. Selain atribut tugas inti, Anda dapat memfilter objek dalam tugas, seperti objek TrainingInput.

Contoh memfilter daftar:

  • Mencantumkan semua tugas yang dimulai setelah waktu tertentu. Contoh ini menggunakan pukul 7 malam tanggal 15 Januari 2017:

    gcloud ai-platform jobs list --filter='createTime>2017-01-15T19:00'
    
  • Cantumkan tiga pekerjaan terakhir dengan nama yang dimulai dengan string tertentu. Misalnya, string dapat mewakili nama yang Anda gunakan untuk semua tugas pelatihan model tertentu. Contoh ini menggunakan model dengan ID tugas adalah 'sensus' dengan akhiran indeks yang bertambah untuk setiap tugas:

    gcloud ai-platform jobs list --filter='jobId:census*' --limit=3
    
  • Tampilkan daftar semua tugas yang gagal dengan nama yang diawali dengan 'rnn':

    gcloud ai-platform jobs list --filter='jobId:rnn* AND state:FAILED'
    

Untuk detail ekspresi yang didukung oleh opsi filter, lihat dokumentasi untuk perintah gcloud.

Python

  1. Rangkai string ID tugas Anda dengan menggabungkan nama project dan nama tugas ke dalam bentuk: 'projects/your_project_name/jobs/your_job_name':

    projectName = 'your_project_name'
    projectId = 'projects/{}'.format(projectName)
    jobName = 'your_job_name'
    jobId = '{}/jobs/{}'.format(projectId, jobName)
    
  2. Buat permintaan untuk projects.jobs.get:

    request = ml.projects().jobs().get(name=jobId)
    
  3. Jalankan permintaan (contoh ini menempatkan panggilan execute dalam blok try untuk menangkap pengecualian):

    response = None
    
    try:
        response = request.execute()
    except errors.HttpError, err:
        # Something went wrong. Handle the exception in an appropriate
        #  way for your application.
    
  4. Periksa respons untuk memastikan bahwa, terlepas dari error HTTP, panggilan layanan menampilkan data.

    if response == None:
        # Treat this condition as an error as best suits your
        # application.
    
  5. Mendapatkan data status. Objek respons adalah kamus yang berisi semua anggota resource Job yang berlaku, termasuk resource TrainingInput lengkap dan anggota resource TrainingOutput yang sesuai. Contoh berikut mencetak status tugas dan jumlah unit ML yang dipakai oleh tugas tersebut.

    print('Job status for {}.{}:'.format(projectName, jobName))
    print('    state : {}'.format(response['state']))
    print('    consumedMLUnits : {}'.format(
        response['trainingOutput']['consumedMLUnits']))
    

Tugas dapat gagal jika ada masalah dengan aplikasi pelatihan Anda atau dengan infrastruktur Pelatihan AI Platform. Anda dapat menggunakan Cloud Logging untuk memulai proses debug.

Anda juga dapat menggunakan shell interaktif untuk memeriksa container pelatihan saat tugas pelatihan sedang berjalan.

Memantau pemakaian resource

Anda dapat menemukan diagram penggunaan resource berikut untuk tugas pelatihan di halaman Job Details:

  • Pemakaian CPU atau GPU gabungan dari tugas, dan pemakaian memori. Keduanya dikelompokkan berdasarkan master, pekerja, dan server parameter.
  • Penggunaan jaringan tugas, diukur dalam byte per detik. Ada diagram terpisah untuk byte yang dikirim dan byte yang diterima.
  1. Buka halaman Jobs Pelatihan AI Platform di Konsol Google Cloud.

    Buka halaman Tugas Pelatihan AI Platform

  2. Temukan lowongan Anda dalam daftar.

  3. Klik nama pekerjaan Anda dalam daftar untuk membuka halaman Detail Pekerjaan.

  4. Pilih tab berlabel CPU, GPU, atau Network untuk melihat diagram penggunaan resource yang terkait.

Anda juga dapat mengakses informasi tentang referensi online yang digunakan tugas pelatihan Anda dengan Cloud Monitoring. Pelatihan AI Platform mengekspor metrics ke Cloud Monitoring.

Setiap jenis metrik AI Platform Training menyertakan "pelatihan" dalam namanya. Misalnya, ml.googleapis.com/training/cpu/utilization atau ml.googleapis.com/training/accelerator/memory/utilization.

Pemantauan dengan TensorBoard

Anda dapat mengonfigurasi aplikasi pelatihan untuk menyimpan data ringkasan yang dapat diperiksa dan divisualisasikan menggunakan TensorBoard.

Simpan data ringkasan ke lokasi Cloud Storage dan arahkan TensorBoard ke lokasi tersebut untuk memeriksa data. Anda juga dapat mengarahkan TensorBoard ke direktori dengan subdirektori yang berisi output dari beberapa tugas.

Lihat informasi selengkapnya tentang TensorBoard dan Pelatihan AI Platform di panduan memulai.

Langkah selanjutnya