Memantau cluster Ray Anda di Vertex AI

Halaman ini membahas cara melihat log pelacakan yang terkait dengan Gugus Ray dan memantau metrik Ray di Vertex AI. Panduan untuk proses debug cluster Ray juga disediakan.

Lihat log

Saat Anda melakukan tugas dengan cluster Ray di Vertex AI, log pelacakan akan otomatis dibuat dan disimpan di Cloud Logging serta dasbor Ray open source. Bagian ini menjelaskan cara mengakses log yang dibuat melalui konsol Google Cloud.

Sebelum memulai, pastikan untuk membaca ringkasan Ray di Vertex AI dan menyiapkan semua alat prasyarat yang Anda butuhkan.

Dasbor Ray OSS

Anda bisa melihat file log Ray sumber terbuka melalui dasbor Ray OSS:

  1. Di Konsol Google Cloud, buka halaman Ray on Vertex AI.

    Buka halaman Ray on Vertex AI

  2. Di baris untuk cluster yang Anda buat, pilih menu tindakan lainnya.

  3. Pilih tautan dasbor Ray OSS. Dasbor akan terbuka di tab lain.

  4. Buka tampilan Logs di sudut kanan atas menu:

    pilih log dasbor Ray

  5. Klik setiap node untuk melihat file log yang terkait dengan node tersebut.

Konsol Cloud Logging

  1. Di konsol Google Cloud, buka halaman Logs Explorer:

    Buka Logs Explorer

    Jika Anda menggunakan bilah pencarian untuk menemukan halaman ini, kemudian pilih hasil yang sub judulnya Logging.

  2. Pilih project, folder, atau organisasi Google Cloud yang sudah ada.

  3. Untuk menampilkan semua log Ray, masukkan kueri berikut ke kolom editor kueri, lalu klik Run query:

    resource.labels.task_name="ray-cluster-logs"
  4. Untuk mempersempit log ke cluster Ray tertentu, tambahkan baris berikut ke kueri, lalu klik Run query:

    labels."ml.googleapis.com/ray_cluster_id"=CLUSTER_NAME

    Ganti CLUSTER_NAME dengan nama untuk cluster Ray Anda. Di konsol Google Cloud, buka Vertex AI > Ray on Vertex AI tempat Anda akan melihat daftar nama cluster di setiap region.

  5. Untuk lebih mempersempit log ke file log tertentu seperti raylet.out, klik nama log di bagian Log fields -> Nama log.

  6. Anda dapat mengelompokkan entri log yang serupa:

    1. Di Query results, klik entri log untuk memperluas log.

    2. Di jsonPayload, klik nilai tailed_path. Menu {i>drop-down<i} muncul.

    3. Klik Show matching entries.

Nonaktifkan log

Secara default, Ray on Vertex AI Cloud Logging diaktifkan.

  • Untuk menonaktifkan ekspor log Ray ke Cloud Logging, gunakan perintah Perintah Vertex AI SDK untuk Python:

    vertex_ray.create_ray_cluster(..., enable_logging=False, ...)
    

Anda bisa melihat file log Ray pada dasbor Ray bahkan jika Fitur Ray on Vertex AI Cloud Logging dinonaktifkan.

Memantau metrik

Anda dapat melihat metrik Ray on Vertex AI dengan berbagai cara menggunakan Google Cloud Monitoring (GCM). Atau, Anda dapat mengekspor metrik dari GCM ke server Grafana Anda sendiri.

Memantau Metrik di GCM

Ada dua cara untuk melihat metrik Ray on Vertex AI di GCM.

  • Gunakan tampilan langsung di bagian Metrics Explorer.
  • Impor dasbor Grafana.

Metrics Explorer

Untuk menggunakan tampilan langsung di bagian Metrics Explorer, ikuti langkah-langkah berikut:

  1. Buka konsol Google Cloud Monitoring.
  2. Di bagian Explore, pilih Metrics Explorer.
  3. Di bagian Active Resources, pilih Prometheus Target. Kategori Metrik Aktif muncul.
  4. Pilih Ray.

    Daftar metrik akan muncul:

    pilih metrik
  5. Pilih metrik yang ingin Anda pantau. Contoh:
    1. Pilih persentase pemakaian cpu sebagai metrik yang dipantau:
      target penggunaan
    2. Pilih filter. Misalnya, pilih cluster:
      tambahkan filter yang diperlukan Gunakan ID cluster untuk hanya memantau metrik di atas untuk cluster tertentu. Untuk menemukan ID cluster, ikuti langkah-langkah berikut:
      1. Di konsol Google Cloud, buka halaman Ray.

        Buka Ray

      2. Pastikan Anda berada dalam project tempat eksperimen akan dibuat.
        Project pilihan Vertex AI
      3. Di bagian Nama, daftar ID cluster akan muncul.
      pilih metrik
    3. Pilih metode Agregasi untuk melihat metrik. Artinya, Anda dapat memilih untuk melihat metrik yang tidak diagregasi, yang menunjukkan pemakaian CPU setiap proses Ray:
      metrik yang tidak diagregasi

Dasbor GCM

Untuk mengimpor dasbor Grafana bagi Ray di Vertex AI, ikuti panduan di dasbor Cloud Monitoring, Impor dasbor grafana Anda sendiri.

dasbor pemantauan

Yang Anda butuhkan hanyalah file JSON dasbor Grafana. OSS Ray mendukung ini penyiapan manual dengan menyediakan file JSON dasbor {i>default<i} Grafana.

Memantau metrik dari Grafana milik pengguna

Jika Anda sudah menjalankan server Grafana, maka ada juga cara untuk mengekspor semua metrik klaster Ray pada Vertex AI Prometheus ke server Grafana yang ada. Untuk melakukannya, ikuti panduan Kueri menggunakan Grafana GMP. Dengan demikian, Anda dapat menambahkan sumber data Grafana baru ke server Grafana yang ada dan menggunakan sinkronisasi sumber data untuk menyinkronkan sumber data Grafana Prometheus baru ke metrik Ray di Vertex AI.

Anda harus mengonfigurasi dan mengautentikasi sumber data Grafana yang baru ditambahkan menggunakan sinkronisasi sumber data. Ikuti langkah-langkah yang diberikan di Mengonfigurasi dan mengautentikasi sumber data Grafana.

Setelah disinkronkan, Anda dapat membuat dan menambahkan dasbor yang diperlukan berdasarkan metrik Ray on Vertex AI.

Secara default, kumpulan metrik Ray on Vertex AI diaktifkan. Berikut cara menonaktifkannya menggunakan Vertex AI SDK untuk Python:

vertex_ray.create_ray_cluster(..., enable_metrics_collection=False, ...) 

Men-debug cluster Ray

Untuk men-debug cluster Ray, gunakan Shell interaktif node head:

Konsol Google Cloud

Untuk mengakses Head node interaktif shell, lakukan hal berikut:

  1. Di konsol Google Cloud, buka halaman Ray on Vertex AI.
    Buka Ray di Vertex AI
  2. Pastikan Anda berada dalam project yang tepat.
    Project pilihan Vertex AI
  3. Pilih cluster yang ingin Anda periksa. Bagian Info dasar akan muncul.
  4. Di bagian Akses link, klik link untuk Shell interaktif node head. Shell interaktif node head akan muncul.
  5. Ikuti petunjuk yang diuraikan di Memantau dan men-debug pelatihan dengan shell interaktif.

Langkah selanjutnya