Memantau status kondisi
Instance Vertex AI Workbench menyediakan beberapa metode untuk memantau kondisi notebook Anda. Halaman ini menjelaskan cara menggunakan masing-masing metode.
Metode untuk memantau status kondisi
Anda dapat memantau kondisi instance Vertex AI Workbench dengan beberapa cara berbeda. Halaman ini menjelaskan cara menggunakan metode berikut:
Sebelum memulai
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks API.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Menggunakan atribut tamu untuk melaporkan kondisi sistem
Anda dapat menggunakan atribut tamu untuk melaporkan kondisi sistem layanan inti berikut:
- Layanan Docker
- Agen reverse proxy Docker
- Layanan Jupyter
- API Jupyter
Atribut tamu adalah jenis metadata kustom tertentu yang dapat ditulis oleh aplikasi saat berjalan di instance Vertex AI Workbench Anda. Untuk mempelajari atribut tamu lebih lanjut, baca artikel Tentang metadata VM.
Cara instance menggunakan atribut tamu untuk melaporkan kondisi sistem
Layanan notebooks-collection-agent
menjalankan proses Python
di latar belakang yang memverifikasi status
layanan inti instance Vertex AI Workbench
dan memperbarui atribut tamu sebagai
1
jika tidak ada masalah terdeteksi atau -1
jika kegagalan terdeteksi.
Agar dapat menggunakan layanan notebooks-collection-agent
untuk
melaporkan kondisi instance Vertex AI Workbench,
Anda harus mengaktifkan atribut tamu berikut saat
membuat instance Vertex AI Workbench:
enable-guest-attributes=TRUE
: Mengaktifkan atribut tamu di instance Vertex AI Workbench Anda. Semua instance baru mengaktifkan atribut ini secara default.report-event-health=TRUE
: Tindakan ini mencatat hasil pemeriksaan kondisi sistem ke atribut tamu.
Layanan notebooks-collection-agent
tidak memerlukan izin khusus untuk menulis ke atribut tamu instance.
Membuat instance Vertex AI Workbench dengan atribut tamu kondisi sistem yang diaktifkan
Untuk menggunakan atribut tamu kondisi sistem guna melaporkan kondisi instance Vertex AI Workbench, Anda harus mencentang kotak Aktifkan laporan kondisi sistem saat membuat instance Vertex AI Workbench.
Anda dapat mengaktifkan laporan kondisi sistem menggunakan konsol Google Cloud.
Di konsol Google Cloud, buka halaman Instance.
Klik
Buat baru.Dalam dialog Instance baru, klik Opsi lanjutan.
Pada dialog Buat instance, di bagian Detail, berikan informasi berikut untuk instance baru Anda:
- Nama: Berikan nama untuk instance baru Anda.
- Region dan Zona: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda.
Di bagian Kondisi sistem, di Pelaporan, pilih Laporkan kondisi sistem.
Selesaikan dialog pembuatan instance selanjutnya, lalu klik Buat.
Memantau kondisi sistem melalui atribut tamu
Untuk instance Vertex AI Workbench yang telah mengaktifkan atribut tamu terkait, Anda dapat mengambil nilai atribut tamu kondisi sistem dengan menggunakan konsol Google Cloud, Cloud CLI dengan perintah Compute Engine, atau Google Cloud CLI dengan perintah Vertex AI Workbench.
Konsol
Di konsol Google Cloud, buka halaman Instance.
Klik nama instance yang ingin Anda lihat status kondisi sistemnya.
Di halaman Detail instance, klik tab Kondisi. Tinjau status instance Anda dan layanan intinya.
gcloud dengan Compute Engine
gcloud compute instances get-guest-attributes INSTANCE_NAME \
--zone ZONE
Ganti kode berikut:
INSTANCE_NAME
: nama instance AndaZONE
adalah zona tempat instance Anda berada.
Jika layanan inti Anda responsif, hasilnya akan terlihat seperti berikut.
Nilai 1
berarti tidak ada kegagalan yang terdeteksi.
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status 1
notebooks docker_status 1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health 1
notebooks updated 2023-06-20 17:00:00.12345
Jika salah satu dari empat layanan inti gagal, kondisi sistem akan melaporkan nilai -1
untuk menunjukkan kegagalan sistem. Dalam kebanyakan kasus, kegagalan sistem berarti JupyterLab tidak dapat diakses.
Contoh hasil kegagalan mungkin terlihat seperti berikut.
NAMESPACE KEY VALUE
notebooks docker_proxy_agent_status -1
notebooks docker_status -1
notebooks jupyterlab_api_status 1
notebooks jupyterlab_status 1
notebooks system-health -1
notebooks updated 2023-06-20 17:00:00.12345
Melaporkan metrik kustom ke Monitoring
Instance Vertex AI Workbench memungkinkan Anda mengumpulkan status sistem dan metrik JupyterLab serta melaporkannya ke Cloud Monitoring. Metrik kustom ini berbeda dengan metrik standar yang dilaporkan saat Anda menginstal Monitoring pada instance Vertex AI Workbench.
Metrik kustom yang dilaporkan ke Monitoring mencakup hal berikut:
Kondisi sistem layanan inti Vertex AI Workbench ini:
- Layanan Docker
- Agen reverse proxy Docker
- Layanan Jupyter
- API Jupyter
Metrik JupyterLab berikut:
- Jumlah kernel
- Jumlah terminal
- Jumlah koneksi
- Jumlah sesi
- Memori maksimum
- Memori tinggi
- Memori saat ini
Cara instance melaporkan metrik kustom ke Monitoring
Untuk melaporkan metrik kustom ke Monitoring, Anda harus mengaktifkan
setelan metadata report-notebook-metrics
saat
membuat instance Vertex AI Workbench.
Anda juga harus memastikan bahwa akun layanan instance Vertex AI Workbench
memiliki izin
Monitoring Metric Writer (roles/monitoring.metricWriter
). Untuk mengetahui informasi selengkapnya, lihat
Mengelola akses ke project, folder, dan organisasi.
Membuat instance Vertex AI Workbench yang melaporkan metrik kustom ke Monitoring
Untuk melaporkan metrik kustom ke Monitoring, Anda harus mencentang kotak Laporkan metrik kustom ke Cloud Monitoring saat membuat instance Vertex AI Workbench.
Anda dapat mengaktifkan pelaporan metrik kustom ke Cloud Monitoring menggunakan konsol Google Cloud.
Di konsol Google Cloud, buka halaman Instance.
Klik
Buat baru.Dalam dialog Instance baru, klik Opsi lanjutan.
Pada dialog Buat instance, di bagian Detail, berikan informasi berikut untuk instance baru Anda:
- Nama: Berikan nama untuk instance baru Anda.
- Region dan Zona: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda.
Di bagian Kondisi sistem, di Pelaporan, pilih Laporkan metrik kustom ke Cloud Monitoring.
Selesaikan dialog pembuatan instance selanjutnya, lalu klik Buat.
Memberikan izin Monitoring Metric Writer ke akun layanan
Setelah Anda membuat
instance Vertex AI Workbench baru,
berikan izin Monitoring Metric Writer
(roles/monitoring.metricWriter
) ke
akun layanan untuk
instance Vertex AI Workbench.
Untuk mengetahui informasi selengkapnya, lihat
Mengelola akses ke project, folder, dan organisasi.
Memantau metrik kustom melalui Monitoring
Untuk instance Vertex AI Workbench yang telah mengaktifkan metrik kustom pelaporan, Anda dapat memantau metrik kustom Anda menggunakan konsol Google Cloud.
Di konsol Google Cloud, buka halaman Instance.
Klik nama instance yang ingin Anda lihat metrik kustomnya.
Di halaman Detail instance, klik tab Monitoring. Tinjau metrik kustom untuk instance Anda.
Menginstal Monitoring pada instance
Opsi ini akan otomatis menginstal Monitoring. Penginstalan memerlukan ruang disk sebesar 256 MB. Koneksi internet diperlukan agar metrik dapat dilaporkan ke Monitoring.
Cara instance melaporkan metrik aplikasi dan sistem
Untuk melaporkan metrik sistem dan aplikasi dengan menginstal Cloud Monitoring di instance Vertex AI Workbench, Anda harus mencentang kotak Install Cloud Monitoring agent saat membuat instance Vertex AI Workbench.
Metrik ini berbeda dengan metrik kustom yang dilaporkan saat Anda mengaktifkan setelan metadata report-notebook-metrics
.
Membuat instance Vertex AI Workbench yang melaporkan metrik sistem dan aplikasi ke Monitoring
Untuk menginstal Monitoring pada instance Vertex AI Workbench, Anda dapat menggunakan konsol Google Cloud.
Di konsol Google Cloud, buka halaman Instance.
Klik
Buat baru.Dalam dialog Instance baru, klik Opsi lanjutan.
Pada dialog Buat instance, di bagian Detail, berikan informasi berikut untuk instance baru Anda:
- Nama: Berikan nama untuk instance baru Anda.
- Region dan Zona: Pilih region dan zona untuk instance baru. Untuk mendapatkan performa jaringan terbaik, pilih region yang paling dekat secara geografis dengan Anda.
Di bagian Kondisi sistem, di Pelaporan, pilih Instal Cloud Monitoring.
Selesaikan dialog pembuatan instance selanjutnya, lalu klik Buat.
Memantau metrik sistem dan aplikasi melalui Monitoring
Untuk instance Vertex AI Workbench yang telah terinstal Monitoring, Anda dapat memantau metrik sistem dan aplikasi menggunakan konsol Google Cloud:
Di konsol Google Cloud, buka halaman Instance.
Klik nama instance yang ingin Anda lihat metrik sistem dan aplikasinya.
Di halaman Detail instance, klik tab Monitoring. Tinjau metrik sistem dan aplikasi untuk instance Anda. Untuk mempelajari cara menafsirkan metrik ini, lihat Meninjau metrik resource.
Menggunakan alat diagnostik untuk memantau kondisi sistem
Instance Vertex AI Workbench menyertakan alat diagnostik bawaan yang dapat membantu Anda memantau kondisi sistem instance.
Tugas yang dilakukan oleh alat diagnostik
Alat diagnostik melakukan tugas berikut:
Memverifikasi status layanan inti Vertex AI Workbench berikut:
- Layanan Docker
- Agen reverse proxy Docker
- Layanan Jupyter
- API Jupyter
Memeriksa apakah ruang disk untuk booting dan disk data digunakan melampaui batas 85%.
Menginstal
lsof
(koneksi internet diperlukan).Mengumpulkan log instance berikut:
- Informasi jaringan (
ifconfig
,netstat
) - Log di folder
/var/log/
- Informasi status Docker
- Data
lsof
(membuka file) - Status layanan Docker
- Status agen reverse proxy
- Status layanan Jupyter
- Status API Jupyter
- File konfigurasi agen proxy
- Proses Python
- Informasi jaringan (
Jalankan perintah berikut dan kumpulkan hasilnya:
- pip freeze
- conda list
- gcloud compute instances describe
INSTANCE_NAME
- gcloud config list
Menjalankan alat diagnostik
Jika instance Anda menggunakan container kustom, lihat Menjalankan alat diagnostik dalam dokumentasi container kustom Vertex AI Workbench.
Untuk menjalankan alat diagnostik di instance yang tidak menggunakan penampung kustom, selesaikan langkah-langkah berikut:
Gunakan ssh untuk terhubung ke instance Vertex AI Workbench.
Di terminal SSH, jalankan perintah berikut:
sudo -i cd /opt/deeplearning/bin/ ./diagnostic_tool.sh
Alat diagnostik mengumpulkan log, mengompresinya dalam file
.tar.gz
, dan menempatkan file di folder/tmp/
.Ekstrak file, lalu evaluasi isinya. Isinya meliputi:
- Folder
log
: Log dari foldervar/log/
report.log
: Output untuk semua perintah yang dikumpulkanproxy-agent-config.json
: Informasi konfigurasi proxy- Log Docker: File
-json.log
yang menyertakan log container Docker
- Folder
Anda dapat menggunakan opsi berikut dengan alat diagnostik.
Opsi | Deskripsi |
---|---|
-r | Opsi perbaikan yang mencoba memulihkan status layanan inti Vertex AI Workbench yang gagal |
-s | Berjalan tanpa konfirmasi |
-b |
Mengupload file .tar.gz ke bucket Cloud Storage.
|
-v | Opsi debug untuk memecahkan masalah alat jika terjadi kegagalan |
-c | Merekam traffic paket selama 30 detik ke instance Vertex AI Workbench Anda, sehingga memfilter SSH |
-d | Folder tujuan tempat untuk menyimpan log |
-h | Bantuan |