Halaman ini menunjukkan cara mengonfigurasi Google Kubernetes Engine (GKE) untuk mengumpulkan log dan metrik untuk cluster Ray yang berjalan di Google Kubernetes Engine (GKE), serta cara melihat log dan metrik Ray di Cloud Logging dan Cloud Monitoring.
Untuk mengetahui informasi selengkapnya tentang Ray dan KubeRay, lihat Ringkasan Ray di Google Kubernetes Engine (GKE).
Sebelum memulai
Sebelum memulai, pastikan Anda telah melakukan tugas berikut:
- Aktifkan Google Kubernetes Engine API. Aktifkan Google Kubernetes Engine API
- Jika ingin menggunakan Google Cloud CLI untuk tugas ini,
instal lalu
lakukan inisialisasi
gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan
gcloud components update
.
Persyaratan dan batasan
- Anda harus mengaktifkan logging sistem dan beban kerja di cluster GKE yang ada sebelum mengaktifkan pengumpulan log untuk cluster Ray.
- Jika Anda mengaktifkan pengumpulan log untuk cluster Ray di cluster GKE yang sudah ada, GKE hanya mengumpulkan log dari Pod Ray yang baru dibuat, bukan dari Pod Ray yang sudah ada.
- Untuk cluster GKE Standard, Anda harus mengaktifkan Google Cloud Managed Service for Prometheus agar dapat mengaktifkan pengumpulan metrik untuk cluster Ray. Untuk cluster Autopilot, Google Cloud Managed Service for Prometheus diaktifkan secara default.
- Anda tidak boleh menentukan volume bernama
ray-logs
di container Ray mana pun dalam cluster Ray. Jika tidak, GKE tidak akan mengumpulkan log.
Mengaktifkan pengumpulan log untuk cluster Ray
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray dengan cluster GKE Autopilot atau Standard yang baru atau yang sudah ada. Log Ray yang dikumpulkan GKE dari cluster Ray diklasifikasikan sebagai log container. Ini mencakup semua log yang dihasilkan oleh header cluster Ray dan node pekerja.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray menggunakan konsol Google Cloud atau gcloud CLI.
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud .
Klik
Create, lalu di bagian Standard atau Autopilot, klik Configure.Dari panel navigasi, pada bagian Cluster, klik Fitur.
Di bagian Operations, pastikan kotak System and Workloads dicentang.
Di bagian AI and Machine Learning, pilih Enable Ray Operator, lalu pilih Enable log collection for Ray clusters.
Klik Buat.
Untuk cluster Standard, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.
gcloud
Buat cluster menggunakan opsi --addons=RayOperator
dan opsi
--enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-logging
Ganti kode berikut:
CLUSTER_NAME
: nama cluster baru.LOCATION
: lokasi cluster baru, misalnya, us-central1.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray di cluster yang ada dengan
menggunakan perintah
gcloud container clusters update
dengan opsi --addons=RayOperator
dan opsi
--enable-ray-cluster-logging
.
Melihat log Ray
Anda dapat melihat log yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Logging.
Buka halaman Cloud Logging di konsol Google Cloud .
Buka editor kueri dan tempel ekspresi Anda ke editor kueri
Klik Run query.
Anda dapat menggunakan contoh kueri berikut di Logs Explorer:
Nama kueri/filter | Ekspresi |
---|---|
Semua log Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Semua log head Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Semua log dalam cluster Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Semua log dari tugas Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Mengaktifkan pengumpulan metrik untuk cluster Ray
Anda dapat mengaktifkan pengumpulan metrik untuk cluster Ray dengan cluster GKE Autopilot atau Standard yang baru atau yang sudah ada.
Setelah Anda mengaktifkan pengumpulan metrik untuk cluster Ray, GKE mengumpulkan metrik dari cluster Ray yang ada dan cluster Ray baru. GKE mengumpulkan semua metrik sistem yang diekspor oleh Ray dalam format Prometheus.
Anda dapat mengaktifkan pengumpulan metrik untuk cluster Ray menggunakan konsolGoogle Cloud atau gcloud CLI.
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud .
Klik
Create, lalu di bagian Standard atau Autopilot, klik Configure.Dari panel navigasi, pada bagian Cluster, klik Fitur.
Di bagian Operations, pastikan kotak System and Workloads dicentang.
Di bagian AI and Machine Learning, pilih Enable Ray Operator, lalu pilih Enable metrics collection for Ray clusters.
Klik Buat.
Untuk cluster Standard, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.
gcloud
Buat cluster menggunakan opsi --addons=RayOperator
dan opsi
--enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--location=LOCATION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Ganti kode berikut:
CLUSTER_NAME
: nama cluster baru.LOCATION
: lokasi cluster baru, misalnya, us-central1.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray di cluster yang ada dengan
menggunakan perintah
gcloud container clusters update
dengan opsi --addons=RayOperator
dan opsi
--enable-ray-cluster-monitoring
.
Melihat metrik Ray
Google Cloud Managed Service for Prometheus menyediakan dasbor Ringkasan Ray di GKE yang telah dikonfigurasi sebelumnya dan menawarkan tampilan terpusat dari metrik Ray utama. Ini adalah cara yang direkomendasikan untuk memulai pemantauan cluster Ray di GKE dengan cepat.
Buka dasbor Ringkasan Ray di GKE
Dasbor akan otomatis diisi saat Anda mengaktifkan pengumpulan metrik untuk cluster Ray.
Atau, jika Anda ingin menjelajahi metrik individual yang dikumpulkan dari cluster Ray yang berjalan di GKE, ikuti langkah-langkah berikut:
Buka halaman Metrics Explorer di konsol Google Cloud .
Di kolom Pilih metrik, Anda dapat menelusuri metrik khusus Ray. Metrik ini biasanya diawali dengan
prometheus/ray_
. Contohnya antara lainprometheus/ray_worker_cpu_seconds_total
atauprometheus/ray_memory_bytes_max
.Anda dapat lebih menyaring penelusuran dengan memilih jenis resource yang sesuai (misalnya,
k8s_pod
,k8s_container
) dan memfilter berdasarkan label yang relevan dengan cluster Ray Anda (misalnya,ray.io/cluster
).
Langkah berikutnya
- Pelajari Ray di Kubernetes.
- Pelajari dokumentasi KubeRay.