À propos de Ray sur Google Kubernetes Engine (GKE)


Cette page présente l'opérateur Ray et les ressources personnalisées pertinentes pour déployer et gérer les clusters et les applications Ray sur Google Kubernetes Engine (GKE).

Ray est un framework de calcul unifié Open Source permettant de faire évoluer des applications d'IA, de ML et Python. Ray fournit un ensemble de bibliothèques permettant de répartir l'environnement d'exécution de calcul pour l'IA et le ML sur plusieurs nœuds de calcul.

Pour savoir comment activer l'opérateur Ray sur GKE, consultez la page Activer l'opérateur Ray sur GKE.

Pourquoi utiliser l'opérateur Ray sur GKE

L'opérateur Ray est recommandé pour déployer et gérer des clusters Ray sur GKE. Lorsque vous exécutez l'opérateur Ray sur GKE, vous bénéficiez de la compatibilité de Ray avec Python et de la fiabilité, la portabilité et l'évolutivité de niveau professionnel de GKE.

L'opérateur Ray sur GKE est basé sur KubeRay, qui fournit des API déclaratives Kubernetes spécialement conçues pour gérer les clusters Ray. Cela signifie que vous pouvez provisionner, mettre à l'échelle et gérer vos déploiements Ray avec d'autres charges de travail conteneurisées sur GKE.

Fonctionnement de l'opérateur Ray sur GKE

Lorsque vous activez l'opérateur Ray dans vos clusters GKE, GKE installe et héberge automatiquement l'opérateur KubeRay.

KubeRay fournit des ressources personnalisées Kubernetes pour gérer les déploiements Ray sur Kubernetes, y compris :

Ressource personnalisée RayCluster

La ressource personnalisée RayCluster vous permet de spécifier un cluster Ray que GKE déploie en tant que pods Kubernetes. Un cluster Ray se compose généralement d'un pod principal et de plusieurs pods de nœuds de calcul.

Ressource personnalisée RayJob

La ressource personnalisée RayJob vous permet d'exécuter un seul job Ray. KubeRay crée un RayCluster qui fournit des ressources de calcul pour le job, puis crée un job Kubernetes qui envoie le job Ray au pod principal du RayCluster.

Pour une gestion efficace des ressources, vous pouvez configurer KubeRay pour nettoyer automatiquement le RayCluster une fois votre tâche terminée.

Ressource personnalisée RayService

La ressource personnalisée RayService vous permet de configurer des applications Ray Serve, telles que des applications pour la mise en service et la mise en service de modèles. KubeRay crée un RayCluster pour fournir les ressources de calcul, puis déploie l'application Ray Serve comme spécifié par la configuration Ray Serve.

Responsabilité partagée de Ray sur GKE

Lorsque vous choisissez d'exécuter des charges de travail Ray sur GKE avec l'opérateur Ray, il est important de comprendre comment les responsabilités sont réparties entre Google Cloud et vous, en tant que client:

Responsabilités de Google

  • Maintenir la fiabilité et le temps d'activité de l'opérateur KubeRay
  • Gérer les mises à niveau de versions de l'opérateur KubeRay
  • Fonctionnalités spécifiques à KubeRay pour gérer les ressources personnalisées RayCluster, RayJob et RayService.

Responsabilités du client

  • Maintien des images de conteneur utilisées pour les pods principaux et les pods de nœuds de calcul Ray.
  • Maintien de la gestion des versions et des mises à niveau pour les pods principaux et les pods de nœuds de calcul Ray.
  • Configurer les ressources requises (processeur, GPU, mémoire, etc.) pour vos clusters Ray.
  • Suivez les bonnes pratiques pour sécuriser les clusters Ray.
  • Fiabilité et surveillance de vos applications Ray.

Pour en savoir plus, consultez Responsabilité partagée de GKE.

Étape suivante