Memantau tugas pelatihan

Bergantung pada ukuran set data dan kompleksitas model, pelatihan dapat memerlukan waktu yang lama. Pelatihan dari data dunia nyata dapat berlangsung selama berjam-jam. Anda dapat memantau beberapa aspek tugas saat berjalan.

Memeriksa status tugas

Untuk status keseluruhan, cara termudah untuk memeriksa tugas Anda adalah melalui halaman AI Platform Training Jobs di konsol Google Cloud. Anda bisa mendapatkan detail yang sama secara terprogram dan dengan Google Cloud CLI.

console

  1. Buka halaman Jobs AI Platform Training di konsol Google Cloud.

    Membuka Tugas di konsol Google Cloud

  2. Klik nama tugas Anda dalam daftar untuk membuka halaman Detail Tugas.

  3. Temukan status tugas Anda di bagian atas laporan. Ikon dan teks menjelaskan status tugas saat ini.

    Informasi status tugas di bagian atas halaman Detail tugas.

Memfilter tugas

Di halaman Tugas, Anda dapat memfilter tugas menurut beberapa parameter yang berbeda, termasuk Jenis, JobID, Status, dan waktu pembuatan tugas.

  1. Klik dalam Kolom Filter menurut awalan, yang terletak di atas daftar tugas Anda. Pilih awalan yang ingin Anda gunakan untuk pemfilteran. Misalnya, pilih Type.
  2. Untuk menyelesaikan filter, klik akhiran filter yang ingin Anda gunakan. Misalnya, opsi akhiran untuk awalan Type adalah:

    • Pelatihan kode kustom
    • Pelatihan algoritme bawaan
    • Prediksi
  3. Filter diterapkan ke daftar Lowongan, dan nama filter akan ditampilkan di kolom filter. Misalnya, jika Anda memilih Pelatihan kode kustom, filter Jenis:Pelatihan kode kustom akan ditampilkan di bagian atas, dan memfilter daftar tugas Anda. Anda dapat menambahkan beberapa filter, jika diperlukan.

Melihat uji coba hyperparameter

Di halaman Job Details, Anda dapat melihat metrik untuk setiap uji coba di tabel HyperTune trials. Tabel ini hanya muncul untuk tugas yang menggunakan penyesuaian hyperparameter. Anda dapat mengalihkan metrik untuk menampilkan uji coba berdasarkan rmse, Training steps, dan learning_rate tertinggi atau terendah.

Untuk melihat log uji coba tertentu, klik more_vert , lalu klik Lihat log.

gcloud

Gunakan gcloud ai-platform jobs describe untuk mendapatkan detail tentang status tugas saat ini di command line:

gcloud ai-platform jobs describe job_name

Anda bisa mendapatkan daftar tugas yang terkait dengan project Anda yang mencakup status tugas dan waktu pembuatan dengan gcloud ai-platform jobs list. Perhatikan bahwa perintah ini dalam bentuknya yang paling sederhana mencantumkan semua tugas yang pernah dibuat untuk project Anda. Anda harus menentukan cakupan permintaan untuk membatasi jumlah tugas yang dilaporkan. Contoh berikut akan membantu Anda memulai:

Gunakan argumen --limit untuk membatasi jumlah tugas. Contoh ini mencantumkan 5 tugas terbaru:

gcloud ai-platform jobs list --limit=5

Gunakan argumen --filter untuk membatasi daftar tugas ke tugas dengan nilai atribut tertentu. Anda dapat memfilter berdasarkan satu atau beberapa atribut objek Job. Selain atribut tugas inti, Anda dapat memfilter objek dalam tugas, seperti objek TrainingInput.

Contoh pemfilteran daftar:

  • Mencantumkan semua tugas yang dimulai setelah waktu tertentu. Contoh ini menggunakan pukul 7 malam pada 15 Januari 2017:

    gcloud ai-platform jobs list --filter='createTime>2017-01-15T19:00'
    
  • Cantumkan tiga tugas terakhir dengan nama yang dimulai dengan string tertentu. Misalnya, string dapat mewakili nama yang Anda gunakan untuk semua tugas pelatihan untuk model tertentu. Contoh ini menggunakan model dengan ID tugas 'sensus' dengan akhiran yang merupakan indeks yang bertambah untuk setiap tugas:

    gcloud ai-platform jobs list --filter='jobId:census*' --limit=3
    
  • Cantumkan semua tugas yang gagal dengan nama yang diawali dengan 'rnn':

    gcloud ai-platform jobs list --filter='jobId:rnn* AND state:FAILED'
    

Untuk mengetahui detail ekspresi yang didukung oleh opsi filter, lihat dokumentasi untuk perintah gcloud.

Python

  1. Gabungkan string ID tugas dengan menggabungkan nama project dan nama tugas ke dalam bentuk: 'projects/your_project_name/jobs/your_job_name':

    projectName = 'your_project_name'
    projectId = 'projects/{}'.format(projectName)
    jobName = 'your_job_name'
    jobId = '{}/jobs/{}'.format(projectId, jobName)
    
  2. Buat permintaan ke projects.jobs.get:

    request = ml.projects().jobs().get(name=jobId)
    
  3. Jalankan permintaan (contoh ini menempatkan panggilan execute dalam blok try untuk menangkap pengecualian):

    response = None
    
    try:
        response = request.execute()
    except errors.HttpError, err:
        # Something went wrong. Handle the exception in an appropriate
        #  way for your application.
    
  4. Periksa respons untuk memastikan bahwa, terlepas dari error HTTP, panggilan layanan menampilkan data.

    if response == None:
        # Treat this condition as an error as best suits your
        # application.
    
  5. Mendapatkan data status. Objek respons adalah kamus yang berisi semua anggota yang berlaku dari resource Job, termasuk resource TrainingInput lengkap dan anggota yang berlaku dari resource TrainingOutput. Contoh berikut mencetak status tugas dan jumlah unit ML yang digunakan oleh tugas.

    print('Job status for {}.{}:'.format(projectName, jobName))
    print('    state : {}'.format(response['state']))
    print('    consumedMLUnits : {}'.format(
        response['trainingOutput']['consumedMLUnits']))
    

Tugas dapat gagal jika ada masalah dengan aplikasi pelatihan Anda atau dengan infrastruktur Pelatihan AI Platform. Anda dapat menggunakan Cloud Logging untuk memulai proses debug.

Anda juga dapat menggunakan shell interaktif untuk memeriksa container pelatihan saat tugas pelatihan sedang berjalan.

Memantau penggunaan resource

Anda dapat menemukan diagram penggunaan resource berikut untuk tugas pelatihan di halaman Job Details:

  • Penggunaan CPU atau GPU gabungan tugas, dan penggunaan memori. Hal ini dibagi menurut server master, pekerja, dan parameter.
  • Penggunaan jaringan tugas, yang diukur dalam byte per detik. Ada diagram terpisah untuk byte yang dikirim, dan byte yang diterima.
  1. Buka halaman Tugas AI Platform Training di Konsol Google Cloud.

    Buka halaman Tugas AI Platform Training

  2. Temukan pekerjaan Anda dalam daftar.

  3. Klik nama tugas Anda dalam daftar untuk membuka halaman Detail Tugas.

  4. Pilih tab berlabel CPU, GPU, atau Network untuk melihat diagram penggunaan resource terkait.

Anda juga dapat mengakses informasi tentang resource online yang digunakan tugas pelatihan dengan Cloud Monitoring. AI Platform Training mengekspor metrik ke Cloud Monitoring.

Setiap jenis metrik AI Platform Training menyertakan "pelatihan" dalam namanya. Misalnya, ml.googleapis.com/training/cpu/utilization atau ml.googleapis.com/training/accelerator/memory/utilization.

Memantau dengan TensorBoard

Anda dapat mengonfigurasi aplikasi pelatihan untuk menyimpan data ringkasan yang dapat Anda periksa dan visualisasikan menggunakan TensorBoard.

Simpan data ringkasan ke lokasi Cloud Storage dan arahkan TensorBoard ke lokasi tersebut untuk memeriksa data. Anda juga dapat mengarahkan TensorBoard ke direktori dengan subdirektori yang berisi output dari beberapa tugas.

Lihat informasi selengkapnya tentang TensorBoard dan AI Platform Training di panduan memulai.

Langkah selanjutnya