Halaman ini menunjukkan cara mengonfigurasi Google Kubernetes Engine (GKE) untuk mengumpulkan log dan metrik untuk cluster Ray yang berjalan di Google Kubernetes Engine (GKE), serta cara melihat log dan metrik Ray di Cloud Logging dan Cloud Monitoring.
Untuk informasi selengkapnya tentang Ray dan KubeRay, lihat Ringkasan Ray di Google Kubernetes Engine (GKE).
Sebelum memulai
Sebelum memulai, pastikan Anda telah menjalankan tugas berikut:
- Aktifkan Google Kubernetes Engine API. Aktifkan Google Kubernetes Engine API
- Jika ingin menggunakan Google Cloud CLI untuk tugas ini,
instal lalu
lakukan inisialisasi
gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan
gcloud components update
.
Persyaratan dan batasan
- Anda harus mengaktifkan logging sistem dan beban kerja di cluster GKE yang ada sebelum mengaktifkan pengumpulan log untuk cluster Ray.
- Jika Anda mengaktifkan pengumpulan log untuk cluster Ray di cluster GKE yang ada, GKE hanya akan mengumpulkan log dari Pod Ray yang baru dibuat, bukan dari Pod Ray yang ada.
- Untuk cluster GKE Standar, Anda harus mengaktifkan Google Cloud Managed Service for Prometheus untuk mengaktifkan pengumpulan metrik untuk cluster Ray. Untuk cluster Autopilot, Google Cloud Managed Service for Prometheus diaktifkan secara default.
- Anda tidak boleh menentukan volume bernama
ray-logs
di penampung Ray mana pun di cluster Ray. Jika tidak, GKE tidak akan mengumpulkan log.
Mengaktifkan pengumpulan log untuk cluster Ray
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray dengan cluster GKE Autopilot atau Standard baru atau yang sudah ada. Log Ray yang dikumpulkan GKE dari cluster Ray diklasifikasikan sebagai log penampung. Hal ini mencakup semua log yang dihasilkan oleh header cluster Ray dan node pekerja.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray menggunakan Konsol Google Cloud atau gcloud CLI.
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Klik
Create, lalu di bagian Standard atau Autopilot, klik Configure.Dari panel navigasi, pada bagian Cluster, klik Fitur.
Di bagian Operations, pastikan kotak centang System and Workloads dipilih.
Di bagian AI dan Machine Learning, pilih Enable Ray Operator, lalu pilih Enable log collection for Ray clusters.
Klik Create.
Untuk cluster Standard, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.
gcloud
Buat cluster menggunakan opsi --addons=RayOperator
dan
opsi --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-logging
Ganti kode berikut:
CLUSTER_NAME
: nama cluster baru.VERSION
: versi GKE, yang harus versi 1.30.2-gke.1060005 atau yang lebih baru. Anda juga dapat menggunakan opsi--release-channel
untuk memilih saluran rilis. Saluran rilis harus memiliki versi default 1.30.2-gke.106000 atau yang lebih baru.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray di cluster yang ada dengan
menggunakan
perintah
gcloud container clusters update
dengan opsi --addons=RayOperator
dan
opsi --enable-ray-cluster-logging
.
Melihat log Ray
Anda dapat melihat log yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Logging.
Buka halaman Cloud Logging di konsol Google Cloud.
Buka editor kueri dan tempel ekspresi Anda ke editor kueri
Klik Run query
Anda dapat menggunakan contoh kueri berikut di Logs Explorer:
Nama kueri/filter | Ekspresi |
---|---|
Semua log Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Semua log kepala Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Semua log di cluster Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Semua log dari tugas Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Mengaktifkan pengumpulan metrik untuk cluster Ray
Anda dapat mengaktifkan pengumpulan metrik untuk cluster Ray dengan cluster GKE Autopilot atau Standard baru atau yang sudah ada.
Setelah Anda mengaktifkan pengumpulan metrik untuk cluster Ray, GKE mengumpulkan metrik dari cluster Ray yang ada dan cluster Ray baru. GKE mengumpulkan semua metrik sistem yang diekspor oleh Ray dalam format Prometheus.
Anda dapat mengaktifkan pengumpulan metrik untuk cluster Ray menggunakan Konsol Google Cloud atau gcloud CLI.
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Klik
Create, lalu di bagian Standard atau Autopilot, klik Configure.Dari panel navigasi, pada bagian Cluster, klik Fitur.
Di bagian Operations, pastikan kotak centang System and Workloads dipilih.
Di bagian AI dan Machine Learning, pilih Enable Ray Operator, lalu pilih Enable metrics collection for Ray clusters.
Klik Create.
Untuk cluster Standard, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.
gcloud
Buat cluster menggunakan opsi --addons=RayOperator
dan
opsi --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Ganti kode berikut:
CLUSTER_NAME
: nama cluster baru.VERSION
: versi GKE, yang harus versi 1.30.2-gke.1060005 atau yang lebih baru. Anda juga dapat menggunakan opsi--release-channel
untuk memilih saluran rilis. Saluran rilis harus memiliki versi default 1.30.2-gke.106000 atau yang lebih baru.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray di cluster yang ada dengan
menggunakan
perintah
gcloud container clusters update
dengan opsi --addons=RayOperator
dan
opsi --enable-ray-cluster-monitoring
.
Melihat metrik Ray
Anda dapat melihat metrik yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Monitoring.
Buka halaman Metrics Explorer di Konsol Google Cloud.
Di menu drop-down Select a metric, masukkan Prometheus Target.
Di bagian Active Metric Categories, pilih Ray.
Langkah selanjutnya
- Pelajari Ray di Kubernetes.
- Pelajari dokumentasi KubeRay.