Tentang Ray di Google Kubernetes Engine (GKE)


Halaman ini memberikan ringkasan tentang Ray Operator dan resource kustom yang relevan untuk men-deploy dan mengelola cluster dan aplikasi Ray di Google Kubernetes Engine (GKE).

Ray adalah framework komputasi terpadu open source untuk menskalakan aplikasi AI/ML dan Python. Ray menyediakan serangkaian library untuk mendistribusikan runtime komputasi untuk AI/ML di beberapa node komputasi.

Untuk mempelajari cara mengaktifkan operator Ray di GKE, lihat Mengaktifkan operator Ray di GKE.

Alasan menggunakan Ray Operator di GKE

Ray Operator adalah cara yang direkomendasikan untuk men-deploy dan mengelola cluster Ray di GKE. Saat menjalankan Ray Operator di GKE, Anda akan mendapatkan manfaat dari dukungan Ray untuk Python dan keandalan, portabilitas, serta skalabilitas tingkat perusahaan GKE.

Ray Operator di GKE didasarkan pada KubeRay, yang menyediakan Kubernetes API deklaratif yang dirancang khusus untuk mengelola cluster Ray. Artinya, Anda dapat menyediakan, menskalakan, dan mengelola Deployment Ray dengan workload container lainnya di GKE.

Cara kerja Ray Operator di GKE

Saat Anda mengaktifkan Operator Ray di cluster GKE, GKE akan otomatis menginstal dan menghosting operator KubeRay.

KubeRay menyediakan resource kustom Kubernetes untuk mengelola Deployment Ray di Kubernetes, termasuk:

Resource kustom RayCluster

Resource kustom RayCluster memungkinkan Anda menentukan cluster Ray yang di-deploy GKE sebagai Pod Kubernetes. Cluster Ray biasanya terdiri dari satu Pod head dan beberapa Pod pekerja.

Resource kustom RayJob

Resource kustom RayJob memungkinkan Anda menjalankan satu tugas Ray. KubeRay membuat RayCluster untuk menyediakan resource komputasi bagi tugas, lalu membuat Tugas Kubernetes yang mengirimkan tugas Ray ke Pod utama RayCluster.

Untuk pengelolaan resource yang efisien, Anda dapat mengonfigurasi KubeRay untuk menghapus RayCluster secara otomatis setelah tugas berhasil diselesaikan.

Resource kustom RayService

Resource kustom RayService memungkinkan Anda mengonfigurasi aplikasi Ray Serve, seperti aplikasi untuk penayangan dan inferensi model. KubeRay membuat RayCluster untuk menyediakan resource komputasi, lalu men-deploy aplikasi Ray Serve seperti yang ditentukan oleh konfigurasi Ray Serve.

Tanggung jawab bersama Ray di GKE

Saat Anda memilih untuk menjalankan workload Ray di GKE dengan operator Ray, sebaiknya Anda memahami pembagian tanggung jawab antara Google Cloud dan Anda, pelanggan:

Tanggung jawab Google

  • Mempertahankan keandalan dan waktu beroperasi operator KubeRay.
  • Mengelola upgrade versi untuk operator KubeRay.
  • Kemampuan khusus untuk KubeRay guna mengelola resource kustom RayCluster, RayJob, dan RayService.

Tanggung jawab pelanggan

  • Mempertahankan image container yang digunakan untuk Pod pekerja dan head Ray.
  • Mempertahankan pembuatan versi dan upgrade untuk Pod pekerja dan head Ray.
  • Mengonfigurasi persyaratan resource (CPU, GPU, memori, dll.) untuk cluster Ray Anda.
  • Mengikuti praktik terbaik untuk mengamankan cluster Ray.
  • Keandalan dan pemantauan untuk aplikasi Ray Anda.

Lihat Tanggung jawab bersama GKE untuk mempelajari lebih lanjut.

Langkah selanjutnya