Memantau status kondisi

Instance notebook yang dikelola pengguna menyediakan beberapa metode untuk memantau kondisi notebook Anda. Halaman ini menjelaskan cara menggunakan masing-masing metode.

Metode untuk memantau status kondisi

Anda dapat memantau kondisi instance notebook yang dikelola pengguna dengan beberapa cara berbeda. Halaman ini menjelaskan cara menggunakan metode berikut:

Menyiapkan gcloud CLI

Untuk menyelesaikan beberapa langkah di halaman ini, Anda perlu menggunakan Google Cloud CLI.

Install the Google Cloud CLI, then initialize it by running the following command:

gcloud init

Gunakan atribut tamu untuk melaporkan kondisi sistem

Anda dapat menggunakan atribut tamu untuk melaporkan kondisi sistem layanan inti berikut:

  • Layanan Docker
  • Agen reverse proxy Docker
  • Layanan Jupyter
  • API Jupyter

Atribut tamu adalah jenis metadata kustom tertentu yang dapat ditulis oleh aplikasi saat berjalan di instance notebook yang dikelola pengguna. Untuk mempelajari atribut tamu lebih lanjut, baca artikel Tentang metadata VM.

Cara instance menggunakan atribut tamu untuk melaporkan kondisi sistem

Layanan notebooks-collection-agent menjalankan proses Python di latar belakang yang memverifikasi status layanan inti instance notebook yang dikelola pengguna dan memperbarui atribut tamu sebagai 1 jika tidak ada masalah yang terdeteksi atau -1 jika ada kegagalan terdeteksi.

Agar dapat menggunakan layanan notebooks-collection-agent untuk melaporkan kondisi instance notebook yang dikelola pengguna, Anda harus mengaktifkan atribut tamu berikut saat membuat instance notebook yang dikelola pengguna .

  • enable-guest-attributes=TRUE: Opsi ini mengaktifkan atribut tamu pada instance notebook yang dikelola pengguna. Semua instance baru mengaktifkan atribut ini secara default.
  • report-system-health=TRUE: Tindakan ini mencatat hasil pemeriksaan kondisi sistem ke atribut tamu.

Layanan notebooks-collection-agent tidak memerlukan izin khusus untuk menulis ke atribut tamu instance.

Membuat instance notebook yang dikelola pengguna dengan atribut tamu kondisi sistem aktif

Untuk menggunakan atribut tamu kondisi sistem guna melaporkan kondisi instance notebook yang dikelola pengguna, Anda harus mencentang kotak Aktifkan laporan kondisi sistem saat membuat notebook yang dikelola pengguna instance.

Anda dapat mengaktifkan laporan kondisi sistem menggunakan Konsol Google Cloud atau Google Cloud CLI.

Sebelum memulai

Sebelum dapat membuat instance notebook yang dikelola pengguna, Anda harus memiliki project Google Cloud dan mengaktifkan Notebooks API untuk project tersebut.
  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Aktifkan API Notebooks.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Aktifkan API Notebooks.

    Mengaktifkan API

  8. Jika Anda berencana menggunakan GPU dengan instance notebook yang dikelola pengguna, lihat halaman kuota di Konsol Google Cloud untuk memastikan bahwa Anda memiliki cukup GPU yang tersedia dalam project Anda. Jika GPU tidak tercantum di halaman kuota, atau Anda memerlukan kuota GPU tambahan, Anda dapat meminta penambahan kuota. Lihat Meminta penambahan kuota di halaman Kuota resource Compute Engine.

Peran yang diperlukan

Jika sudah membuat project, Anda memiliki peran IAM Pemilik (roles/owner) pada project, yang mencakup semua izin yang diperlukan. Lewati bagian ini dan mulai buat instance notebook yang dikelola pengguna. Jika Anda tidak membuat project tersebut sendiri, lanjutkan di bagian ini.

Untuk memastikan bahwa akun pengguna Anda memiliki izin yang diperlukan untuk membuat instance notebook yang dikelola pengguna Vertex AI Workbench, minta administrator untuk memberikan peran IAM berikut pada project kepada akun pengguna Anda:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Administrator mungkin juga dapat memberi akun pengguna Anda izin yang diperlukan melalui peran khusus atau peran yang telah ditetapkan lainnya.

Buat instance

Konsol

  1. Di dalam Konsol Google Cloud, buka halaman User-managed notebooks. Atau buka notebook.new (https://notebook.new) dan lewati langkah berikutnya.

    Buka User-managed notebooks

  2. Klik  New notebook, lalu pilih Customize.

  3. Di halaman Create a user-managed notebook, berikan informasi berikut untuk instance baru Anda di bagian Details:

    • Name: nama untuk instance baru Anda
    • Region dan Zone: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda. Lihat lokasi notebook yang dikelola pengguna yang tersedia.
  4. Pilih bagian System health.

  5. Di bagian System health and reporting, centang kotak Enable system health report.

  6. Selesaikan dialog pembuatan instance selanjutnya, lalu klik Create.

gcloud

  1. Dari Cloud Shell atau lingkungan mana pun tempat Google Cloud CLI diinstal, masukkan perintah Google Cloud CLI berikut ini:

    gcloud notebooks instances create INSTANCE_NAME \
        --vm-image-project=deeplearning-platform-release \
        --vm-image-family=IMAGE_FAMILY \
        --machine-type=MACHINE_TYPE \
        --location=ZONE \
        --metadata=enable-guest-attributes=TRUE,report-system-health=TRUE
    

    Ganti kode berikut:

    • INSTANCE_NAME: nama instance baru Anda
    • IMAGE_FAMILY: nama keluarga image yang ingin Anda gunakan untuk membuat instance
    • MACHINE_TYPE: jenis mesin VM instance Anda; misalnya, n1-standard-4
    • ZONE: zona tempat Anda ingin menempatkan instance baru, misalnya, us-west1-a
  2. Akses instance Anda dari konsol Google Cloud.

Memantau kondisi sistem melalui atribut tamu

Untuk instance notebook yang dikelola pengguna yang mengaktifkan atribut tamu terkait, Anda dapat mengambil nilai atribut tamu kondisi sistem dengan menggunakan Konsol Google Cloud, Google Cloud CLI dengan perintah Compute Engine, atau Google Cloud CLI dengan perintah Vertex AI Workbench.

Konsol

  1. Di dalam Konsol Google Cloud, buka halaman User-managed notebooks.

    Buka User-managed notebooks

  2. Klik nama instance yang ingin Anda lihat status kondisi sistemnya.

  3. Di halaman Detail notebook, klik tab Health. Tinjau status instance Anda dan layanan intinya.

gcloud dengan Compute Engine

gcloud compute instances get-guest-attributes INSTANCE_NAME \
    --zone ZONE

Ganti kode berikut:

  • INSTANCE_NAME: nama instance Anda
  • ZONE adalah zona tempat instance Anda berada.

Jika layanan inti Anda responsif, hasilnya akan terlihat seperti berikut. Nilai 1 berarti tidak ada kegagalan yang terdeteksi.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   1
 notebooks   docker_status               1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               1
 notebooks   updated                     2020-10-01 17:00:00.12345

Jika salah satu dari empat layanan inti gagal, kondisi sistem akan melaporkan nilai -1 untuk menunjukkan kegagalan sistem. Dalam kebanyakan kasus, kegagalan sistem berarti JupyterLab tidak dapat diakses.

Contoh hasil kegagalan mungkin terlihat seperti berikut.

 NAMESPACE   KEY                         VALUE
 notebooks   docker_proxy_agent_status   -1
 notebooks   docker_status               -1
 notebooks   jupyterlab_api_status       1
 notebooks   jupyterlab_status           1
 notebooks   system-health               -1
 notebooks   updated                     2020-10-01 17:00:00.12345

gcloud dengan Vertex AI Workbench

Untuk memantau kondisi sistem, Anda dapat menggunakan metode getInstanceHealth untuk mengambil nilai atribut tamu Anda.

Contoh berikut menunjukkan cara melakukannya menggunakan gcloud CLI.

gcloud notebooks instances is-healthy example-instance \
    --location=ZONE

Ganti ZONE dengan zona tempat instance Anda berada, misalnya, us-west1-a.

Jika layanan inti Anda responsif, hasilnya akan terlihat seperti berikut. Nilai 1 berarti tidak ada kegagalan yang terdeteksi.

  {
          "health_state": HEALTHY,
          "docker-proxy-agent": 1,
          "docker-service": 1,
          "jupyter-service": 1,
          "jupyter-api": 1,
          "last-updated": "2020-10-01 17:00:30.12345"
  }

Contoh hasil kegagalan mungkin terlihat seperti berikut.

  {
          "healthy": UNHEALTHY,
          "docker-proxy-agent": 1,
          "docker-service": 1,
          "jupyter-service": -1,
          "jupyter-api": -1,
          "last-updated": "2020-10-01 17:00:30.12345"
  }

Melaporkan metrik kustom ke Monitoring

Instance notebook yang dikelola pengguna dapat digunakan untuk mengumpulkan status sistem dan metrik JupyterLab dan melaporkannya ke Cloud Monitoring. Metrik kustom ini berbeda dengan metrik standar yang dilaporkan saat Anda menginstal Monitoring pada instance notebook yang dikelola pengguna.

Metrik kustom yang dilaporkan ke Monitoring mencakup hal berikut:

  • Kondisi sistem layanan inti notebook yang dikelola pengguna berikut ini:

    • Layanan Docker
    • Agen reverse proxy Docker
    • Layanan Jupyter
    • API Jupyter
  • Metrik JupyterLab berikut:

    • Jumlah kernel
    • Jumlah terminal
    • Jumlah koneksi
    • Jumlah sesi
    • Memori maksimum
    • Memori tinggi
    • Memori saat ini

Cara instance melaporkan metrik kustom ke Monitoring

Untuk melaporkan metrik kustom ke Monitoring, Anda harus mengaktifkan setelan metadata report-notebook-metrics saat membuat instance notebook yang dikelola pengguna.

Anda juga harus memastikan bahwa akun layanan instance notebook yang dikelola pengguna memiliki izin Monitoring Metric Writer (roles/monitoring.metricWriter). Untuk mengetahui informasi selengkapnya, lihat Mengelola akses ke project, folder, dan organisasi.

Membuat instance notebook yang dikelola pengguna yang melaporkan metrik kustom ke Monitoring

Untuk melaporkan metrik kustom ke Monitoring, Anda harus memilih kotak centang Report custom metrics to Cloud Monitoring saat membuat instance notebook yang dikelola pengguna.

Anda dapat mengaktifkan pelaporan metrik kustom ke Cloud Monitoring menggunakan Konsol Google Cloud atau Google Cloud CLI.

Sebelum memulai

Sebelum dapat membuat instance notebook yang dikelola pengguna, Anda harus memiliki project Google Cloud dan mengaktifkan Notebooks API untuk project tersebut.
  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Aktifkan API Notebooks.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Aktifkan API Notebooks.

    Mengaktifkan API

  8. Jika Anda berencana menggunakan GPU dengan instance notebook yang dikelola pengguna, lihat halaman kuota di Konsol Google Cloud untuk memastikan bahwa Anda memiliki cukup GPU yang tersedia dalam project Anda. Jika GPU tidak tercantum di halaman kuota, atau Anda memerlukan kuota GPU tambahan, Anda dapat meminta penambahan kuota. Lihat Meminta penambahan kuota di halaman Kuota resource Compute Engine.

Peran yang diperlukan

Jika sudah membuat project, Anda memiliki peran IAM Pemilik (roles/owner) pada project, yang mencakup semua izin yang diperlukan. Lewati bagian ini dan mulai buat instance notebook yang dikelola pengguna. Jika Anda tidak membuat project tersebut sendiri, lanjutkan di bagian ini.

Untuk memastikan bahwa akun pengguna Anda memiliki izin yang diperlukan untuk membuat instance notebook yang dikelola pengguna Vertex AI Workbench, minta administrator untuk memberikan peran IAM berikut pada project kepada akun pengguna Anda:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Administrator mungkin juga dapat memberi akun pengguna Anda izin yang diperlukan melalui peran khusus atau peran yang telah ditetapkan lainnya.

Buat instance

Konsol

  1. Di dalam Konsol Google Cloud, buka halaman User-managed notebooks. Atau buka notebook.new (https://notebook.new) dan lewati langkah berikutnya.

    Buka User-managed notebooks

  2. Klik  New notebook, lalu pilih Customize.

  3. Di halaman Create a user-managed notebook, berikan informasi berikut untuk instance baru Anda di bagian Details:

    • Name: nama untuk instance baru Anda
    • Region dan Zone: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda. Lihat lokasi notebook yang dikelola pengguna yang tersedia.
  4. Pilih bagian System health.

  5. Di bagian System health and reporting, pilih kotak centang Report custom metrics to Cloud Monitoring.

  6. Selesaikan dialog pembuatan instance selanjutnya, lalu klik Create.

gcloud

  1. Dari Cloud Shell atau lingkungan mana pun tempat Google Cloud CLI diinstal, masukkan perintah Google Cloud CLI berikut ini:

    gcloud notebooks instances create INSTANCE_NAME \
        --vm-image-project=deeplearning-platform-release \
        --vm-image-family=IMAGE_FAMILY \
        --machine-type=MACHINE_TYPE \
        --location=ZONE \
        --metadata=report-notebook-metrics=TRUE
    

    Ganti kode berikut:

    • INSTANCE_NAME: nama instance baru Anda
    • IMAGE_FAMILY: nama keluarga image yang ingin Anda gunakan untuk membuat instance
    • MACHINE_TYPE: jenis mesin VM instance Anda, misalnya, n1-standard-4
    • ZONE: zona tempat Anda ingin menempatkan instance baru, misalnya, us-west1-a
  2. Akses instance Anda dari konsol Google Cloud.

Memberikan izin Penulis Metrik Monitoring ke akun layanan

Setelah membuat instance notebook baru yang dikelola pengguna, berikan izin Penulis Metrik Monitoring (roles/monitoring.metricWriter) ke akun layanan untuk instance notebook yang dikelola pengguna ini. Untuk mengetahui informasi selengkapnya, lihat Mengelola akses ke project, folder, dan organisasi.

Memantau metrik kustom melalui Monitoring

Untuk instance notebook yang dikelola pengguna yang pelaporan metrik kustom telah diaktifkan, Anda dapat memantau metrik kustom menggunakan konsol Google Cloud.

  1. Di dalam Konsol Google Cloud, buka halaman User-managed notebooks.

    Buka User-managed notebooks

  2. Klik nama instance yang ingin Anda lihat metrik kustomnya.

  3. Di halaman Notebook details, klik tab Monitoring. Tinjau metrik kustom untuk instance Anda.

Menginstal Monitoring pada instance

Opsi ini akan otomatis menginstal Monitoring. Penginstalan memerlukan ruang disk sebesar 256 MB. Koneksi internet diperlukan agar metrik dapat dilaporkan ke Monitoring.

Cara instance melaporkan metrik aplikasi dan sistem

Untuk melaporkan metrik sistem dan aplikasi dengan menginstal Cloud Monitoring pada instance notebook yang dikelola pengguna, Anda harus mencentang kotak Install Cloud Monitoring agent ketika membuat konfigurasi notebook. Metrik ini berbeda dengan metrik kustom yang dilaporkan saat Anda mengaktifkan setelan metadata report-notebook-metrics.

Membuat instance notebook yang dikelola pengguna yang melaporkan metrik sistem dan aplikasi ke Monitoring

Untuk menginstal Monitoring pada instance notebook yang dikelola pengguna, Anda dapat menggunakan konsol Google Cloud atau Google Cloud CLI.

Sebelum memulai

Sebelum dapat membuat instance notebook yang dikelola pengguna, Anda harus memiliki project Google Cloud dan mengaktifkan Notebooks API untuk project tersebut.
  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Aktifkan API Notebooks.

    Mengaktifkan API

  5. Di konsol Google Cloud, pada halaman pemilih project, pilih atau buat project Google Cloud.

    Buka pemilih project

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Aktifkan API Notebooks.

    Mengaktifkan API

  8. Jika Anda berencana menggunakan GPU dengan instance notebook yang dikelola pengguna, lihat halaman kuota di Konsol Google Cloud untuk memastikan bahwa Anda memiliki cukup GPU yang tersedia dalam project Anda. Jika GPU tidak tercantum di halaman kuota, atau Anda memerlukan kuota GPU tambahan, Anda dapat meminta penambahan kuota. Lihat Meminta penambahan kuota di halaman Kuota resource Compute Engine.

Peran yang diperlukan

Jika sudah membuat project, Anda memiliki peran IAM Pemilik (roles/owner) pada project, yang mencakup semua izin yang diperlukan. Lewati bagian ini dan mulai buat instance notebook yang dikelola pengguna. Jika Anda tidak membuat project tersebut sendiri, lanjutkan di bagian ini.

Untuk memastikan bahwa akun pengguna Anda memiliki izin yang diperlukan untuk membuat instance notebook yang dikelola pengguna Vertex AI Workbench, minta administrator untuk memberikan peran IAM berikut pada project kepada akun pengguna Anda:

Untuk mengetahui informasi selengkapnya tentang pemberian peran, lihat Mengelola akses.

Administrator mungkin juga dapat memberi akun pengguna Anda izin yang diperlukan melalui peran khusus atau peran yang telah ditetapkan lainnya.

Buat instance

Konsol

  1. Di dalam Konsol Google Cloud, buka halaman User-managed notebooks. Atau buka notebook.new (https://notebook.new) dan lewati langkah berikutnya.

    Buka User-managed notebooks

  2. Klik  New notebook, lalu pilih Customize.

  3. Di halaman Create a user-managed notebook, berikan informasi berikut untuk instance baru Anda di bagian Details:

    • Name: nama untuk instance baru Anda
    • Region dan Zone: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda. Lihat lokasi notebook yang dikelola pengguna yang tersedia.
  4. Pilih bagian System health.

  5. Di bagian System health and reporting, pilih kotak centang Install Cloud Monitoring agent.

  6. Selesaikan dialog pembuatan instance selanjutnya, lalu klik Buat.

gcloud

  1. Dari Cloud Shell atau lingkungan mana pun tempat Google Cloud CLI diinstal, masukkan perintah Google Cloud CLI berikut ini:

    gcloud notebooks instances create INSTANCE_NAME \
        --vm-image-project=deeplearning-platform-release \
        --vm-image-family=IMAGE_FAMILY \
        --machine-type=MACHINE_TYPE \
        --location=ZONE \
        --metadata=install-monitoring-agent=TRUE
    

    Ganti kode berikut:

    • INSTANCE_NAME: nama instance baru Anda
    • IMAGE_FAMILY: nama keluarga image yang ingin Anda gunakan untuk membuat instance
    • MACHINE_TYPE: jenis mesin VM instance Anda; misalnya, n1-standard-4
    • ZONE: zona tempat Anda ingin menempatkan instance baru, misalnya, us-west1-a
  2. Akses instance Anda dari konsol Google Cloud.

Memantau metrik sistem dan aplikasi melalui Monitoring

Untuk instance notebook yang dikelola pengguna dengan Monitoring telah diinstal, Anda dapat memantau metrik sistem dan aplikasi menggunakan Konsol Google Cloud:

  1. Di dalam Konsol Google Cloud, buka halaman User-managed notebooks.

    Buka User-managed notebooks

  2. Klik nama instance yang ingin Anda lihat metrik sistem dan aplikasinya.

  3. Di halaman Notebook details, klik tab Monitoring. Tinjau metrik sistem dan aplikasi untuk instance Anda. Untuk mempelajari cara menafsirkan metrik ini, lihat Meninjau metrik resource.

Menggunakan alat diagnostik untuk memantau kondisi sistem

Instance notebook yang dikelola pengguna menyertakan alat diagnostik bawaan yang dapat membantu Anda memantau kondisi sistem instance.

Tugas yang dilakukan oleh alat diagnostik

Alat diagnostik melakukan tugas berikut:

  • Memverifikasi status layanan inti notebook yang dikelola pengguna berikut:

    • Layanan Docker
    • Agen reverse proxy Docker
    • Layanan Jupyter
    • API Jupyter
  • Memeriksa apakah ruang disk untuk booting dan disk data digunakan melampaui batas 85%.

  • Menginstal lsof (koneksi internet diperlukan).

  • Mengumpulkan log instance berikut:

    • Informasi jaringan (ifconfig, netstat)
    • Log di folder /var/log/
    • Informasi status Docker
    • Data lsof (membuka file)
    • Status layanan Docker
    • Status agen reverse proxy
    • Status layanan Jupyter
    • Status API Jupyter
    • File konfigurasi agen proxy
    • Proses Python
  • Jalankan perintah berikut dan kumpulkan hasilnya:

    • pip freeze
    • conda list
    • gcloud compute instances describe INSTANCE_NAME
    • gcloud config list

Menjalankan alat diagnostik

Untuk menjalankan alat diagnostik, selesaikan langkah-langkah berikut:

  1. Gunakan ssh untuk terhubung ke instance notebook yang dikelola pengguna.

  2. Di terminal SSH, jalankan perintah berikut:

    sudo -i
    cd /opt/deeplearning/bin/
    ./diagnostic_tool.sh
    

    Alat diagnostik mengumpulkan log, mengompresinya dalam file .tar.gz, dan menempatkan file di folder /tmp/.

  3. Ekstrak file, lalu evaluasi isinya. Isinya meliputi:

    • Folder log: Log dari folder var/log/
    • report.log: Output untuk semua perintah yang dikumpulkan
    • proxy-agent-config.json: Informasi konfigurasi proxy
    • Log Docker: File -json.log yang menyertakan log container Docker

Anda dapat menggunakan opsi berikut dengan alat diagnostik.

Opsi Deskripsi
-r Opsi perbaikan yang mencoba memulihkan status layanan inti notebook yang dikelola pengguna yang gagal
-s Berjalan tanpa konfirmasi
-b Mengupload file .tar.gz ke bucket Cloud Storage.
-v Opsi debug untuk memecahkan masalah alat jika terjadi kegagalan
-c Merekam traffic paket selama 30 detik ke instance notebook yang dikelola pengguna, sehingga memfilter SSH
-d Folder tujuan tempat untuk menyimpan log
-h Bantuan

Langkah selanjutnya