Halaman ini menunjukkan cara mengonfigurasi Google Kubernetes Engine (GKE) untuk mengumpulkan log dan metrik untuk cluster Ray yang berjalan di Google Kubernetes Engine (GKE), serta cara melihat log dan metrik Ray di Cloud Logging dan Cloud Monitoring.
Untuk selengkapnya informasi tentang Ray dan KubeRay, lihat Ringkasan Ray on Google Kubernetes Engine (GKE).
Sebelum memulai
Sebelum memulai, pastikan Anda telah menjalankan tugas berikut:
- Aktifkan Google Kubernetes Engine API. Mengaktifkan Google Kubernetes Engine API
- Jika ingin menggunakan Google Cloud CLI untuk tugas ini,
instal lalu
lakukan inisialisasi
gcloud CLI. Jika sebelumnya Anda telah menginstal gcloud CLI, dapatkan versi terbaru dengan menjalankan
gcloud components update
.
Persyaratan dan batasan
- Anda harus mengaktifkan logging sistem dan workload di GKE yang ada sebelum Anda mengaktifkan pengumpulan log untuk cluster Ray.
- Jika Anda mengaktifkan pengumpulan log untuk cluster Ray pada GKE, GKE hanya mengumpulkan log dari membuat Ray Pod, bukan dari Ray Pod yang sudah ada.
- Untuk cluster GKE Standar, Anda harus mengaktifkan Google Cloud Managed Service for Prometheus untuk mengaktifkan pengumpulan metrik untuk cluster Ray. Untuk cluster Autopilot, Google Cloud Managed Service for Prometheus diaktifkan oleh secara default.
- Anda tidak boleh menentukan volume yang diberi nama
ray-logs
dalam penampung Sinar apa pun di gugus Ray. Jika tidak, GKE tidak akan mengumpulkan log.
Mengaktifkan pengumpulan log untuk cluster Ray
Anda bisa mengaktifkan pengumpulan log untuk cluster Ray dengan Cluster GKE standar atau Autopilot. Sinar log yang dikumpulkan GKE dari cluster Ray diklasifikasikan sebagai log container. Ini termasuk semua log yang dihasilkan oleh {i>header<i} gugus Ray dan node pekerja.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray menggunakan Konsol Google Cloud atau gcloud CLI.
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Klik
Create, lalu di bagian Standard atau Autopilot, klik Configure.Dari panel navigasi, pada bagian Cluster, klik Fitur.
Di bagian Operations, pastikan System and Workloads kotak centang dipilih.
Di bagian AI and Machine Learning, pilih Aktifkan Operator Ray, lalu pilih Aktifkan pengumpulan log untuk Gugus sinar.
Klik Create.
Untuk cluster Standar, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.
gcloud
Membuat cluster menggunakan opsi --addons=RayOperator
dan
Opsi --enable-ray-cluster-logging
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-logging
Ganti kode berikut:
CLUSTER_NAME
: nama cluster baru.VERSION
: versi GKE, yang harus 1.30.2-gke.1060005 atau yang lebih baru. Anda juga dapat gunakan opsi--release-channel
untuk memilih saluran rilis. Tujuan saluran rilis harus memiliki versi default 1.30.2-gke.106000 atau yang lebih baru.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray pada cluster yang ada dengan
menggunakan
gcloud container clusters update
perintah dengan opsi --addons=RayOperator
dan
--enable-ray-cluster-logging
.
Melihat log Ray
Anda dapat melihat log yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Logging.
Buka halaman Cloud Logging di Konsol Google Cloud.
Buka editor kueri dan tempelkan ekspresi Anda ke editor kueri
Klik Run query
Anda dapat menggunakan contoh kueri berikut di Logs Explorer:
Nama kueri/filter | Ekspresi |
---|---|
Semua log Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/is-ray-node"="yes" |
Semua catatan kepala Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/node-type"="head" |
Semua log dalam gugus Ray | resource.type="k8s_container" labels."k8s-pod/ray_io/cluster"="RAY_CLUSTER_NAME" |
Semua log dari tugas Ray | resource.type="k8s_container" jsonPayload.ray_submission_id="RAY_JOB_SUBMISSION_ID" |
Mengaktifkan pengumpulan metrik untuk cluster Ray
Anda bisa mengaktifkan pengumpulan metrik untuk gugus Ray dengan yang baru atau yang sudah ada Cluster GKE standar atau Autopilot.
Setelah Anda mengaktifkan pengumpulan metrik untuk cluster Ray, GKE mengumpulkan metrik dari gugus Ray yang sudah ada dan gugus Ray baru. GKE mengumpulkan semua metrik sistem yang diekspor oleh Ray di Prometheus format font.
Anda dapat mengaktifkan pengumpulan metrik untuk gugus Ray menggunakan Konsol Google Cloud atau gcloud CLI.
Konsol
Buka halaman Google Kubernetes Engine di konsol Google Cloud.
Klik
Create, lalu di bagian Standard atau Autopilot, klik Configure.Dari panel navigasi, pada bagian Cluster, klik Fitur.
Di bagian Operations, pastikan System and Workloads kotak centang dipilih.
Di bagian AI and Machine Learning, pilih Aktifkan Operator Sinar, lalu pilih Aktifkan pengumpulan metrik untuk Gugus sinar.
Klik Create.
Untuk cluster Standar, Anda juga harus mengaktifkan Google Cloud Managed Service for Prometheus.
gcloud
Membuat cluster menggunakan opsi --addons=RayOperator
dan
Opsi --enable-ray-cluster-monitoring
:
gcloud container clusters create CLUSTER_NAME \
--cluster-version=VERSION \
--addons=RayOperator \
--enable-ray-cluster-monitoring
Ganti kode berikut:
CLUSTER_NAME
: nama cluster baru.VERSION
: versi GKE, yang harus 1.30.2-gke.1060005 atau yang lebih baru. Anda juga dapat gunakan opsi--release-channel
untuk memilih saluran rilis. Tujuan saluran rilis harus memiliki versi default 1.30.2-gke.106000 atau yang lebih baru.
Anda dapat mengaktifkan pengumpulan log untuk cluster Ray pada cluster yang ada dengan
menggunakan
gcloud container clusters update
perintah dengan opsi --addons=RayOperator
dan
--enable-ray-cluster-monitoring
.
Melihat metrik Sinar
Anda dapat melihat metrik yang dikumpulkan dari cluster Ray yang berjalan di GKE menggunakan Monitoring.
Buka halaman Metrics Explorer di Konsol Google Cloud.
Pada menu drop-down Select a metric, masukkan Prometheus Target.
Di bagian Active Metric Kategori, pilih Ray.
Langkah selanjutnya
- Pelajari tentang Ray di Kubernetes.
- Pelajari Dokumentasi KubeRay.