Informazioni su Ray su Google Kubernetes Engine (GKE)


Questa pagina fornisce una panoramica di Ray Operator e delle risorse personalizzate pertinenti per eseguire il deployment e gestire i cluster e le applicazioni Ray su Google Kubernetes Engine (GKE).

Ray è un framework di calcolo unificato open source per la scalabilità delle applicazioni di AI/ML e Python. Ray mette a disposizione un insieme di librerie distribuire il runtime di computing per AI/ML su più nodi di computing.

Per scoprire come attivare l'operatore Ray su GKE, consulta Attivare l'operatore Ray su GKE.

Perché utilizzare l'operatore Ray su GKE

L'operatore Ray è il metodo consigliato per eseguire il deployment e gestire i cluster Ray su GKE. Quando esegui Ray Operator su GKE, sfrutta il supporto di Ray per Python e i modelli di livello enterprise di GKE l'affidabilità, la portabilità e la scalabilità.

L'operatore Ray su GKE si basa su KubeRay, che fornisce API Kubernetes declarative progettate specificamente per la gestione dei cluster Ray. Ciò significa che puoi eseguire il provisioning, scalare e gestire i tuoi deployment di Ray con altri carichi di lavoro containerizzati su GKE.

Come funziona l'operatore Ray su GKE

Quando abiliti l'operatore Ray nei tuoi cluster GKE, GKE installa e ospita automaticamente l'operatore KubeRay.

KubeRay fornisce risorse personalizzate Kubernetes per gestire i deployment di Ray su Kubernetes, tra cui:

Risorsa personalizzata RayCluster

La risorsa personalizzata RayCluster ti consente di specificare un cluster Ray che GKE esegue il deployment come pod Kubernetes. Solitamente, un ammasso Ray è costituito da di un singolo pod head e più pod worker.

Risorsa personalizzata RayJob

La risorsa personalizzata RayJob ti consente di eseguire un singolo job Ray. KubeRay crea un RayCluster per fornire risorse di calcolo per il job, quindi crea un job Kubernetes che invia il job Ray al pod principale del RayCluster.

Per una gestione efficiente delle risorse, puoi configurare KubeRay eseguire automaticamente la pulizia di RayCluster al termine del job.

Risorsa personalizzata RayService

La risorsa personalizzata RayService ti consente di configurare applicazioni Ray Serve, come le applicazioni per la pubblicazione e l'inferenza dei modelli. KubeRay crea un'istanza RayCluster per fornire le risorse di calcolo ed esegue il deployment di Ray Serve come specificato dalla configurazione Ray Serve.

Responsabilità condivisa di Ray on GKE

Quando scegli di eseguire carichi di lavoro Ray su GKE con l'operatore Ray, è importante comprendere come le responsabilità sono suddivise tra Google Cloud e tu, il cliente:

Responsabilità di Google

  • Mantenimento dell'affidabilità e del tempo di attività dell'operatore KubeRay.
  • Gestione degli upgrade della versione per l'operatore KubeRay.
  • Funzionalità specifiche di KubeRay per la gestione di RayCluster, RayJob Risorse personalizzate di RayService.

Responsabilità del cliente

  • Gestione delle immagini container utilizzate per i pod Ray head e Ray worker.
  • Mantenimento del controllo delle versioni e degli upgrade per i pod head e worker Ray.
  • Configurazione dei requisiti delle risorse (CPU, GPU, memoria e così via) per i cluster Ray.
  • Seguendo le best practice per di proteggere i cluster Ray.
  • Affidabilità e monitoraggio per le tue applicazioni Ray.

Per saperne di più, consulta la sezione Responsabilità condivisa di GKE.

Passaggi successivi