Memantau status kondisi

Instance Vertex AI Workbench menyediakan beberapa metode untuk memantau kondisi notebook Anda. Halaman ini menjelaskan cara menggunakan masing-masing metode.

Metode untuk memantau status kondisi

Anda dapat memantau kondisi instance Vertex AI Workbench dengan beberapa cara berbeda. Halaman ini menjelaskan cara menggunakan metode berikut:

Sebelum memulai

  1. Login ke akun Google Cloud Anda. Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa produk kami dalam skenario dunia nyata. Pelanggan baru juga mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  4. Aktifkan API Notebooks.

    Mengaktifkan API

  5. Menginstal Google Cloud CLI.
  6. Untuk initialize gcloud CLI, jalankan perintah berikut:

    gcloud init
  7. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  8. Pastikan penagihan telah diaktifkan untuk project Google Cloud Anda.

  9. Aktifkan API Notebooks.

    Mengaktifkan API

  10. Menginstal Google Cloud CLI.
  11. Untuk initialize gcloud CLI, jalankan perintah berikut:

    gcloud init

Menggunakan atribut tamu untuk melaporkan kondisi sistem

Anda dapat menggunakan atribut tamu untuk melaporkan kondisi sistem layanan inti berikut:

  • Layanan Docker
  • Agen reverse proxy Docker
  • Layanan Jupyter
  • API Jupyter

Atribut tamu adalah jenis metadata kustom tertentu yang dapat ditulis oleh aplikasi saat berjalan di instance Vertex AI Workbench Anda. Untuk mempelajari atribut tamu lebih lanjut, baca artikel Tentang metadata VM.

Cara instance menggunakan atribut tamu untuk melaporkan kondisi sistem

Layanan notebooks-collection-agent menjalankan proses Python di latar belakang yang memverifikasi status layanan inti instance Vertex AI Workbench dan memperbarui atribut tamu sebagai 1 jika tidak ada masalah terdeteksi atau -1 jika kegagalan terdeteksi.

Agar dapat menggunakan layanan notebooks-collection-agent untuk melaporkan kondisi instance Vertex AI Workbench, Anda harus mengaktifkan atribut tamu berikut saat membuat instance Vertex AI Workbench:

  • enable-guest-attributes=TRUE: Mengaktifkan atribut tamu di instance Vertex AI Workbench Anda. Semua instance baru mengaktifkan atribut ini secara default.
  • report-event-health=TRUE: Tindakan ini mencatat hasil pemeriksaan kondisi sistem ke atribut tamu.

Layanan notebooks-collection-agent tidak memerlukan izin khusus untuk menulis ke atribut tamu instance.

Membuat instance Vertex AI Workbench dengan atribut tamu kondisi sistem yang diaktifkan

Untuk menggunakan atribut tamu kondisi sistem guna melaporkan kondisi instance Vertex AI Workbench, Anda harus mencentang kotak Aktifkan laporan kondisi sistem saat membuat instance Vertex AI Workbench.

Anda dapat mengaktifkan laporan kondisi sistem menggunakan konsol Google Cloud.

  1. Di konsol Google Cloud, buka halaman Instance.

    Buka Instance

  2. Klik  Buat baru.

  3. Dalam dialog Instance baru, klik Opsi lanjutan.

  4. Pada dialog Buat instance, di bagian Detail, berikan informasi berikut untuk instance baru Anda:

    • Nama: Berikan nama untuk instance baru Anda.
    • Region dan Zona: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda.
  5. Di bagian Kondisi sistem, di Pelaporan, pilih Laporkan kondisi sistem.

  6. Selesaikan dialog pembuatan instance selanjutnya, lalu klik Buat.

Memantau kondisi sistem melalui atribut tamu

Untuk instance Vertex AI Workbench yang telah mengaktifkan atribut tamu terkait, Anda dapat mengambil nilai atribut tamu kondisi sistem dengan menggunakan konsol Google Cloud, Cloud CLI dengan perintah Compute Engine, atau Google Cloud CLI dengan perintah Vertex AI Workbench.

Konsol

  1. Di konsol Google Cloud, buka halaman Instance.

    Buka Instance

  2. Klik nama instance yang ingin Anda lihat status kondisi sistemnya.

  3. Di halaman Detail instance, klik tab Kondisi. Tinjau status instance Anda dan layanan intinya.

gcloud dengan Compute Engine

gcloud compute instances get-guest-attributes INSTANCE_NAME \
    --zone ZONE

Ganti kode berikut:

  • INSTANCE_NAME: nama instance Anda
  • ZONE adalah zona tempat instance Anda berada.

Jika layanan inti Anda responsif, hasilnya akan terlihat seperti berikut. Nilai 1 berarti tidak ada kegagalan yang terdeteksi.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   1
 notebooks   docker_status               1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               1
 notebooks   updated                     2023-06-20 17:00:00.12345

Jika salah satu dari empat layanan inti gagal, kondisi sistem akan melaporkan nilai -1 untuk menunjukkan kegagalan sistem. Dalam kebanyakan kasus, kegagalan sistem berarti JupyterLab tidak dapat diakses.

Contoh hasil kegagalan mungkin terlihat seperti berikut.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   -1
 notebooks   docker_status               -1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               -1
 notebooks   updated                     2023-06-20 17:00:00.12345

Melaporkan metrik kustom ke Monitoring

Instance Vertex AI Workbench memungkinkan Anda mengumpulkan status sistem dan metrik JupyterLab serta melaporkannya ke Cloud Monitoring. Metrik kustom ini berbeda dengan metrik standar yang dilaporkan saat Anda menginstal Monitoring pada instance Vertex AI Workbench.

Metrik kustom yang dilaporkan ke Monitoring mencakup hal berikut:

  • Kondisi sistem layanan inti Vertex AI Workbench ini:

    • Layanan Docker
    • Agen reverse proxy Docker
    • Layanan Jupyter
    • API Jupyter
  • Metrik JupyterLab berikut:

    • Jumlah kernel
    • Jumlah terminal
    • Jumlah koneksi
    • Jumlah sesi
    • Memori maksimum
    • Memori tinggi
    • Memori saat ini

Cara instance melaporkan metrik kustom ke Monitoring

Untuk melaporkan metrik kustom ke Monitoring, Anda harus mengaktifkan setelan metadata report-notebook-metrics saat membuat instance Vertex AI Workbench.

Anda juga harus memastikan bahwa akun layanan instance Vertex AI Workbench memiliki izin Monitoring Metric Writer (roles/monitoring.metricWriter). Untuk mengetahui informasi selengkapnya, lihat Mengelola akses ke project, folder, dan organisasi.

Membuat instance Vertex AI Workbench yang melaporkan metrik kustom ke Monitoring

Untuk melaporkan metrik kustom ke Monitoring, Anda harus mencentang kotak Laporkan metrik kustom ke Cloud Monitoring saat membuat instance Vertex AI Workbench.

Anda dapat mengaktifkan pelaporan metrik kustom ke Cloud Monitoring menggunakan konsol Google Cloud.

  1. Di konsol Google Cloud, buka halaman Instance.

    Buka Instance

  2. Klik  Buat baru.

  3. Dalam dialog Instance baru, klik Opsi lanjutan.

  4. Pada dialog Buat instance, di bagian Detail, berikan informasi berikut untuk instance baru Anda:

    • Nama: Berikan nama untuk instance baru Anda.
    • Region dan Zona: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda.
  5. Di bagian Kondisi sistem, di Pelaporan, pilih Laporkan metrik kustom ke Cloud Monitoring.

  6. Selesaikan dialog pembuatan instance selanjutnya, lalu klik Buat.

Memberikan izin Monitoring Metric Writer ke akun layanan

Setelah Anda membuat instance Vertex AI Workbench baru, berikan izin Monitoring Metric Writer (roles/monitoring.metricWriter) ke akun layanan untuk instance Vertex AI Workbench. Untuk mengetahui informasi selengkapnya, lihat Mengelola akses ke project, folder, dan organisasi.

Memantau metrik kustom melalui Monitoring

Untuk instance Vertex AI Workbench yang telah mengaktifkan metrik kustom pelaporan, Anda dapat memantau metrik kustom Anda menggunakan konsol Google Cloud.

  1. Di konsol Google Cloud, buka halaman Instance.

    Buka Instance

  2. Klik nama instance yang ingin Anda lihat metrik kustomnya.

  3. Di halaman Detail instance, klik tab Monitoring. Tinjau metrik kustom untuk instance Anda.

Menginstal Monitoring pada instance

Opsi ini akan otomatis menginstal Monitoring. Penginstalan memerlukan ruang disk sebesar 256 MB. Koneksi internet diperlukan agar metrik dapat dilaporkan ke Monitoring.

Cara instance melaporkan metrik aplikasi dan sistem

Untuk melaporkan metrik sistem dan aplikasi dengan menginstal Cloud Monitoring di instance Vertex AI Workbench, Anda harus mencentang kotak Install Cloud Monitoring agent saat membuat instance Vertex AI Workbench. Metrik ini berbeda dengan metrik kustom yang dilaporkan saat Anda mengaktifkan setelan metadata report-notebook-metrics.

Membuat instance Vertex AI Workbench yang melaporkan metrik sistem dan aplikasi ke Monitoring

Untuk menginstal Monitoring pada instance Vertex AI Workbench, Anda dapat menggunakan konsol Google Cloud.

  1. Di konsol Google Cloud, buka halaman Instance.

    Buka Instance

  2. Klik  Buat baru.

  3. Dalam dialog Instance baru, klik Opsi lanjutan.

  4. Pada dialog Buat instance, di bagian Detail, berikan informasi berikut untuk instance baru Anda:

    • Nama: Berikan nama untuk instance baru Anda.
    • Region dan Zona: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda.
  5. Di bagian Kondisi sistem, di Pelaporan, pilih Instal Cloud Monitoring.

  6. Selesaikan dialog pembuatan instance selanjutnya, lalu klik Buat.

Memantau metrik sistem dan aplikasi melalui Monitoring

Untuk instance Vertex AI Workbench yang telah terinstal Monitoring, Anda dapat memantau metrik sistem dan aplikasi menggunakan konsol Google Cloud:

  1. Di konsol Google Cloud, buka halaman Instance.

    Buka Instance

  2. Klik nama instance yang ingin Anda lihat metrik sistem dan aplikasinya.

  3. Di halaman Detail instance, klik tab Monitoring. Tinjau metrik sistem dan aplikasi untuk instance Anda. Untuk mempelajari cara menafsirkan metrik ini, lihat Meninjau referensi metrik.

Menggunakan alat diagnostik untuk memantau kondisi sistem

Instance Vertex AI Workbench menyertakan alat diagnostik bawaan yang dapat membantu Anda memantau kondisi sistem instance.

Tugas yang dilakukan oleh alat diagnostik

Alat diagnostik melakukan tugas berikut:

  • Memverifikasi status layanan inti Vertex AI Workbench berikut:

    • Layanan Docker
    • Agen reverse proxy Docker
    • Layanan Jupyter
    • API Jupyter
  • Memeriksa apakah ruang disk untuk booting dan disk data digunakan melampaui batas 85%.

  • Penginstalan lsof (perlu koneksi internet).

  • Mengumpulkan log instance berikut:

    • Informasi jaringan (ifconfig, netstat)
    • Log di folder /var/log/
    • Informasi status Docker
    • Data lsof (membuka file)
    • Status layanan Docker
    • Status agen reverse proxy
    • Status layanan Jupyter
    • Status API Jupyter
    • File konfigurasi agen proxy
    • Proses Python
  • Jalankan perintah berikut dan kumpulkan hasilnya:

    • pip freeze
    • conda list
    • gcloud compute instances describe INSTANCE_NAME
    • gcloud config list

Menjalankan alat diagnostik

Untuk menjalankan alat diagnostik, selesaikan langkah-langkah berikut:

  1. Gunakan ssh untuk terhubung ke instance Vertex AI Workbench.

  2. Di terminal SSH, jalankan perintah berikut:

    sudo -i
    cd /opt/deeplearning/bin/
    ./diagnostic_tool.sh
    

    Alat diagnostik mengumpulkan log, mengompresinya dalam file .tar.gz, dan menempatkan file di folder /tmp/.

  3. Ekstrak file, lalu evaluasi isinya. Isinya meliputi:

    • Folder log: Log dari folder var/log/
    • report.log: Output untuk semua perintah yang dikumpulkan
    • proxy-agent-config.json: Informasi konfigurasi proxy
    • Log Docker: File -json.log yang menyertakan log container Docker

Anda dapat menggunakan opsi berikut dengan alat diagnostik.

Opsi Deskripsi
-r Opsi perbaikan yang mencoba memulihkan status layanan inti Vertex AI Workbench yang gagal
-s Berjalan tanpa konfirmasi
-b Mengupload file .tar.gz ke bucket Cloud Storage.
-v Opsi debug untuk memecahkan masalah alat jika terjadi kegagalan
-c Merekam traffic paket selama 30 detik ke instance Vertex AI Workbench Anda, sehingga memfilter SSH
-d Folder tujuan tempat untuk menyimpan log
-h Bantuan

Langkah berikutnya