Mengumpulkan dan melihat log serta metrik untuk cluster Ray di Google Kubernetes Engine (GKE)


Halaman ini menunjukkan cara mengonfigurasi Google Kubernetes Engine (GKE) untuk mengumpulkan log dan metrik untuk cluster Ray yang berjalan di Google Kubernetes Engine (GKE), serta cara melihat log dan metrik Ray di Cloud Logging dan Cloud Monitoring.

Untuk informasi selengkapnya tentang Ray dan KubeRay, lihat Ringkasan Ray di Google Kubernetes Engine (GKE).

Sebelum memulai

Sebelum memulai, pastikan Anda telah menjalankan tugas berikut:

  • Aktifkan Google Kubernetes Engine API.
  • Aktifkan Google Kubernetes Engine API
  • Jika ingin menggunakan Google Cloud CLI untuk tugas ini, instal lalu lakukan inisialisasi gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan gcloud components update.

Persyaratan dan batasan

  • Anda harus mengaktifkan logging sistem dan beban kerja di cluster GKE yang ada sebelum mengaktifkan pengumpulan log untuk cluster Ray.
  • Jika Anda mengaktifkan pengumpulan log untuk cluster Ray di cluster GKE yang ada, GKE hanya akan mengumpulkan log dari Pod Ray yang baru dibuat, bukan dari Pod Ray yang ada.
  • Untuk cluster GKE Standar, Anda harus mengaktifkan Google Cloud Managed Service for Prometheus untuk mengaktifkan pengumpulan metrik untuk cluster Ray. Untuk cluster Autopilot, Google Cloud Managed Service for Prometheus diaktifkan secara default.
  • Anda tidak boleh menentukan volume bernama ray-logs di penampung Ray mana pun di cluster Ray. Jika tidak, GKE tidak akan mengumpulkan log.

Mengaktifkan pengumpulan log untuk cluster Ray

Anda dapat mengaktifkan pengumpulan log untuk cluster Ray dengan cluster GKE Autopilot atau Standard baru atau yang sudah ada. Log Ray yang dikumpulkan GKE dari cluster Ray diklasifikasikan sebagai log penampung. Hal ini mencakup semua log yang dihasilkan oleh header cluster Ray dan node pekerja.

Anda dapat mengaktifkan pengumpulan log untuk cluster Ray menggunakan Konsol Google Cloud atau gcloud CLI.

Konsol

  1. Buka halaman Google Kubernetes Engine di konsol Google Cloud.

    Buka Google Kubernetes Engine

  2. Klik Create, lalu di bagian Standard atau Autopilot, klik Configure.

  3. Dari panel navigasi, pada bagian Cluster, klik Fitur.

  4. Di bagian Operations, pastikan kotak centang System and Workloads dipilih.

  5. Di bagian AI dan Machine Learning, pilih Enable Ray Operator, lalu pilih Enable log collection for Ray clusters.

  6. Klik Create.

Untuk cluster Standard, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.

gcloud

Buat cluster menggunakan opsi --addons=RayOperator dan opsi --enable-ray-cluster-logging:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-logging

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster baru.
  • VERSION: versi GKE, yang harus versi 1.30.2-gke.1060005 atau yang lebih baru. Anda juga dapat menggunakan opsi --release-channel untuk memilih saluran rilis. Saluran rilis harus memiliki versi default 1.30.2-gke.106000 atau yang lebih baru.

Anda dapat mengaktifkan pengumpulan log untuk cluster Ray di cluster yang ada dengan menggunakan perintah gcloud container clusters update dengan opsi --addons=RayOperator dan opsi --enable-ray-cluster-logging.

Melihat log Ray

Anda dapat melihat log yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Logging.

  1. Buka halaman Cloud Logging di konsol Google Cloud.

    Buka Cloud Logging

  2. Buka editor kueri dan tempel ekspresi Anda ke editor kueri

  3. Klik Run query

Anda dapat menggunakan contoh kueri berikut di Logs Explorer:

Nama kueri/filter Ekspresi
Semua log Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/is-ray-node"="yes"
Semua log kepala Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/node-type"="head"
Semua log di cluster Ray
resource.type="k8s_container"
labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME"
Semua log dari tugas Ray
resource.type="k8s_container"
jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID"

Mengaktifkan pengumpulan metrik untuk cluster Ray

Anda dapat mengaktifkan pengumpulan metrik untuk cluster Ray dengan cluster GKE Autopilot atau Standard baru atau yang sudah ada.

Setelah Anda mengaktifkan pengumpulan metrik untuk cluster Ray, GKE mengumpulkan metrik dari cluster Ray yang ada dan cluster Ray baru. GKE mengumpulkan semua metrik sistem yang diekspor oleh Ray dalam format Prometheus.

Anda dapat mengaktifkan pengumpulan metrik untuk cluster Ray menggunakan Konsol Google Cloud atau gcloud CLI.

Konsol

  1. Buka halaman Google Kubernetes Engine di konsol Google Cloud.

    Buka Google Kubernetes Engine

  2. Klik Create, lalu di bagian Standard atau Autopilot, klik Configure.

  3. Dari panel navigasi, pada bagian Cluster, klik Fitur.

  4. Di bagian Operations, pastikan kotak centang System and Workloads dipilih.

  5. Di bagian AI dan Machine Learning, pilih Enable Ray Operator, lalu pilih Enable metrics collection for Ray clusters.

  6. Klik Create.

Untuk cluster Standard, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.

gcloud

Buat cluster menggunakan opsi --addons=RayOperator dan opsi --enable-ray-cluster-monitoring:

gcloud container clusters create CLUSTER_NAME \
    --cluster-version=VERSION \
    --addons=RayOperator \
    --enable-ray-cluster-monitoring

Ganti kode berikut:

  • CLUSTER_NAME: nama cluster baru.
  • VERSION: versi GKE, yang harus versi 1.30.2-gke.1060005 atau yang lebih baru. Anda juga dapat menggunakan opsi --release-channel untuk memilih saluran rilis. Saluran rilis harus memiliki versi default 1.30.2-gke.106000 atau yang lebih baru.

Anda dapat mengaktifkan pengumpulan log untuk cluster Ray di cluster yang ada dengan menggunakan perintah gcloud container clusters update dengan opsi --addons=RayOperator dan opsi --enable-ray-cluster-monitoring.

Melihat metrik Ray

Anda dapat melihat metrik yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Monitoring.

  1. Buka halaman Metrics Explorer di Konsol Google Cloud.

    Buka Metrics Explorer

  2. Di menu drop-down Select a metric, masukkan Prometheus Target.

  3. Di bagian Active Metric Categories, pilih Ray.

Langkah selanjutnya