Cette page a été traduite par l'API Cloud Translation.

Exécuter des GPU multi-instances

Cette page explique comment augmenter l'utilisation et réduire les coûts en exécutant des GPU multi-instances. Avec cette configuration, vous partitionnez une unité de traitement graphique (GPU) NVIDIA A100, H100, H200, B200 ou GB200 pour partager un seul GPU sur plusieurs conteneurs sur Google Kubernetes Engine (GKE).

Avant de lire cette page, assurez-vous de maîtriser les concepts Kubernetes tels que pod, nœuds, déploiements et espaces de noms et familiarisez-vous avec les concepts de GKE, tels que pools de nœuds, autoscaling et provisionnement automatique.

Présentation

Kubernetes attribue un GPU complet par conteneur même si le conteneur n'a besoin que d'une fraction du GPU pour sa charge de travail, ce qui peut entraîner une perte de ressources et un coût excessif, en particulier si vous utilisez la dernière génération de puissants GPU. Pour améliorer l'utilisation des GPU, les GPU multi-instances vous permettent de partitionner un seul GPU compatible et de créer jusqu'à sept tranches. Chaque tranche peut être allouée à un conteneur du nœud de manière indépendante, pour un maximum de sept conteneurs par GPU. Les GPU multi-instances fournissent une isolation matérielle entre les charges de travail, et des QoS cohérents et prévisibles pour tous les conteneurs exécutés sur le GPU.

Pour les applications CUDA, les GPU multi-instances présentent généralement une grande transparence. Chaque partition de GPU apparaît comme une ressource GPU standard et le modèle de programmation reste inchangé.

Pour en savoir plus sur les GPU multi-instances, consultez le guide de l'utilisateur sur les GPU multi-instance NVIDIA.

GPU compatibles

Les types de GPU suivants sont compatibles avec les GPU multi-instances :

NVIDIA A100 (40 Go)
NVIDIA A100 (80 Go)
NVIDIA H100 (80 Go)
NVIDIA H200 (141 Go)
NVIDIA B200 (180 Go) (1.32.2-gke.1586000 et versions ultérieures)
NVIDIA GB200 (1.33.0-gke.1636000 et versions ultérieures)

Partitions de GPU multi-instances

Les GPU A100, H100, H200, B200 et GB200 se composent chacun de sept unités de calcul et de huit unités de mémoire, que vous pouvez partitionner en instances de GPU de différentes tailles. Pour configurer les tailles de partition des GPU, utilisez la syntaxe suivante : [compute]g.[memory]gb. Par exemple, une taille de partition de GPU de 1g.5gb fait référence à une instance de GPU dotée d'une unité de calcul (1/7e de flux multiprocesseurs sur le GPU) et d'une unité de mémoire (5 Go). La taille de partition des GPU peut être spécifiée lorsque vous déployez une charge de travail Autopilot ou lorsque vous créez un cluster Standard.

La table de partitionnement du guide de l'utilisateur sur les GPU multi-instances NVIDIA répertorie toutes les différentes tailles de partitions de GPU, ainsi que la quantité de ressources de calcul et de mémoire disponibles sur chaque partition de GPU. Le tableau indique également le nombre d'instances de GPU pour chaque taille de partition pouvant être créée sur le GPU.

Le tableau suivant répertorie les tailles de partition compatibles avec GKE :

Taille de la partition	Instances de GPU
GPU : NVIDIA A100 (40 Go) (`nvidia-tesla-a100`)
`1g.5gb`	7
`2g.10gb`	3
`3g.20gb`	2
`7g.40gb`	1
GPU : NVIDIA A100 (80 Go) (`nvidia-a100-80gb`)
`1g.10gb`	7
`2g.20gb`	3
`3g.40gb`	2
`7g.80gb`	1
GPU : NVIDIA H100 (80 Go) (`nvidia-h100-80gb` et `nvidia-h100-mega-80gb`)
`1g.10gb`	7
`1g.20gb`	4
`2g.20gb`	3
`3g.40gb`	2
`7g.80gb`	1
GPU : NVIDIA H200 (141 Go) (`nvidia-h200-141gb`)
`1g.18gb`	7
`1g.35gb`	4
`2g.35gb`	3
`3g.71gb`	2
`4g.71gb`	1
`7g.141gb`	1
GPU : NVIDIA B200 (`nvidia-b200`)
`1g.23gb`	7
`1g.45gb`	4
`2g.45gb`	3
`3g.90gb`	2
`4g.90gb`	1
`7g.180gb`	1
GPU : NVIDIA GB200 (`nvidia-gb200`)
`1g.23gb`	7
`1g.47gb`	4
`2g.47gb`	3
`3g.93gb`	2
`4g.93gb`	1
`7g.186gb`	1

Chaque GPU sur chaque nœud d'un pool est partitionné de la même manière. Par exemple, considérons un pool de nœuds avec deux nœuds, quatre GPU sur chaque nœud et une taille de partition de 1g.5gb. GKE crée sept partitions de taille 1g.5gb sur chaque GPU. Étant donné que chaque nœud comporte quatre GPU, 28 partitions de GPU 1g.5gb seront disponibles sur chaque nœud. Étant donné qu'il y a deux nœuds dans le pool de nœuds, un total de 56 partitions de GPU 1g.5gb sont disponibles dans l'ensemble du pool de nœuds.

Pour créer un cluster GKE Standard avec plusieurs types de partitions de GPU, vous devez créer plusieurs pools de nœuds. Par exemple, si vous souhaitez que les nœuds possèdent des partitions de GPU 1g.5gb et 3g.20gb dans un cluster, vous devez créer deux pools de nœuds, l'un avec une taille de partition de GPU définie sur 1g.5gb, et l'autre avec 3g.20gb.

Un cluster GKE Autopilot crée automatiquement des nœuds avec la configuration de partition appropriée lorsque vous créez des charges de travail nécessitant des tailles de partition différentes.

Chaque nœud comporte un libellé avec la taille des partitions de GPU disponibles sur le nœud. Cette attribution de libellé permet aux charges de travail de cibler les nœuds avec la taille de partition de GPU nécessaire. Par exemple, sur un nœud doté d'instances de GPU 1g.5gb, le nœud présente le libellé suivant :

cloud.google.com/gke-gpu-partition-size=1g.5gb

Fonctionnement

Pour utiliser des GPU multi-instances, vous devez effectuer les tâches suivantes :

Créer un cluster avec les GPU multi-instances activés.
Installer manuellement des pilotes.
Vérifier le nombre de ressources GPU disponibles sur le nœud.
Déployer des conteneurs à l'aide de GPU multi-instances.

Tarifs

Les GPU multi-instances sont exclusifs aux GPU A100, H100, H200, B200 et GB200, et sont soumis à la tarification des GPU correspondants, en plus des autres produits permettant d'exécuter vos charges de travail. Vous ne pouvez associer que des GPU entiers aux nœuds de votre cluster pour le partitionnement. Pour en savoir plus sur les tarifs des GPU, consultez la page Tarifs des GPU.

Limites

L'utilisation de partitions de GPU multi-instances avec GKE n'est pas recommandée pour les charges de travail non approuvées.
L'autoscaling et le provisionnement automatique des partitions GPU sont entièrement compatibles avec GKE version 1.20.7-gke.400 ou ultérieure. Dans les versions antérieures, seuls les pools de nœuds avec au moins un nœud peuvent faire l'objet d'un autoscaling en fonction des tailles de partition de GPU spécifiques dont ont besoin les charges de travail.
Les métriques d'utilisation du GPU (par exemple, duty_cycle) ne sont pas disponibles pour les GPU multi-instances.
Le mode multi-instance divise un GPU physique en instances distinctes, chacune étant isolées des autres au niveau matériel. Un conteneur qui utilise une instance de GPU multi-instance ne peut accéder qu'aux ressources de processeur et de mémoire disponibles pour cette instance.
Un pod ne peut consommer qu'une seule instance de GPU multi-instance.

Avant de commencer

Avant de commencer, effectuez les tâches suivantes :

Activez l'API Google Kubernetes Engine.

Activer l'API Google Kubernetes Engine

Si vous souhaitez utiliser Google Cloud CLI pour cette tâche, installez puis initialisez gcloud CLI. Si vous avez déjà installé la gcloud CLI, obtenez la dernière version en exécutant la commande gcloud components update. Il est possible que les versions antérieures de gcloud CLI ne permettent pas d'exécuter les commandes de ce document.
Remarque : Pour les installations de la gcloud CLI existantes, veillez à définir la propriété compute/region. Si vous utilisez principalement des clusters zonaux, définissez plutôt compute/zone. En définissant un emplacement par défaut, vous pouvez éviter les erreurs gcloud CLI de ce type : One of [--zone, --region] must be supplied: Please specify location. Vous devrez peut-être spécifier l'emplacement dans certaines commandes si celui de votre cluster diffère de l'emplacement par défaut que vous avez défini.

En mode Autopilot, les GPU multi-instances sont compatibles avec GKE versions 1.29.3-gke.1093000 et ultérieures.
Vous devez disposer d'un quota de GPU NVIDIA A100 suffisant. Consultez la section Demander une augmentation de quota.
Si vous souhaitez utiliser des GPU multi-instances avec Autopilot, consultez la page Déployer des charges de travail GPU dans Autopilot pour en savoir plus.
GKE attribue la classe de calcul Accelerator à toutes les charges de travail GPU multi-instances dans les clusters Autopilot.

Créer un cluster avec les GPU multi-instances activés

Si vous utilisez GKE Standard, vous devez activer les GPU multi-instances dans le cluster. Les clusters Autopilot qui exécutent la version 1.29.3-gke.1093000 ou une version ultérieure activent les GPU multi-instances par défaut. Pour utiliser des GPU multi-instances dans Autopilot, consultez la section Déployer des conteneurs à l'aide de GPU multi-instances sur cette page.

Lorsque vous créez un cluster Standard avec des GPU multi-instances, vous devez spécifier gpuPartitionSize avec acceleratorType et acceleratorCount. acceleratorType doit être nvidia-tesla-a100, nvidia-a100-80gb, nvidia-h100-80gb, nvidia-h200-141gb, nvidia-b200 ou nvidia-gb200.

L'exemple suivant montre comment créer un cluster GKE avec un nœud, et sept partitions de GPU de taille 1g.5gb sur le nœud. Les autres étapes de cette page utilisent une taille de partition de GPU de 1g.5gb, ce qui crée sept partitions sur chaque GPU. Vous pouvez également utiliser l'une des tailles de partition de GPU compatibles mentionnées précédemment.

Vous pouvez utiliser Google Cloud CLI ou Terraform.

gcloud

Créez un cluster avec les GPU multi-instances activés :

gcloud container clusters create CLUSTER_NAME  \
    --project=PROJECT_ID  \
    --location CONTROL_PLANE_LOCATION  \
    --cluster-version=CLUSTER_VERSION  \
    --accelerator type=nvidia-tesla-a100,count=1,gpu-partition-size=1g.5gb,gpu-driver-version=DRIVER_VERSION  \
    --machine-type=a2-highgpu-1g  \
    --num-nodes=1

Remplacez les éléments suivants :

CLUSTER_NAME : nom de votre nouveau cluster
PROJECT_ID : ID de votre projet Google Cloud .
CONTROL_PLANE_LOCATION : emplacement Compute Engine du plan de contrôle de votre cluster. Indiquez une région pour les clusters régionaux ou une zone pour les clusters zonaux.
CLUSTER_VERSION : la version doit être 1.19.7-gke.2503 ou ultérieure.
DRIVER_VERSION : version du pilote NVIDIA à installer. La valeur peut être l'une des suivantes :
- default : installe la version de pilote par défaut pour votre version de GKE.
- latest : installe la dernière version de pilote disponible pour votre version de GKE. Disponible seulement pour les nœuds qui utilisent Container-Optimized OS.
- disabled : passe l'installation automatique du pilote. Vous devez installer manuellement un pilote après avoir créé le cluster. Si vous omettez la commande gpu-driver-version, cette option est celle configurée par défaut.

Terraform

Pour créer un cluster avec des GPU multi-instances activés à l'aide de Terraform, reportez-vous à l'exemple suivant :

resource "google_container_cluster" "default" {
  name               = "gke-standard-zonal-gpu"
  location           = "us-central1-a"
  initial_node_count = 1

  node_config {
    guest_accelerator {
      type  = "nvidia-tesla-t4"
      count = 1
      gpu_driver_installation_config {
        gpu_driver_version = "LATEST"
      }
    }
    machine_type = "n1-standard-2"
  }
}

Pour en savoir plus sur l'utilisation de Terraform, consultez la page Compatibilité de Terraform avec GKE.

Se connecter au cluster

Configurez kubectl pour vous connecter au cluster nouvellement créé :

gcloud container clusters get-credentials CLUSTER_NAME

Installer les pilotes

Si vous avez choisi de désactiver l'installation automatique du pilote lors de la création du cluster ou si vous exécutez une version de GKE antérieure à la version 1.27.2-gke.1200, vous devez installer manuellement un pilote NVIDIA compatible une fois la création terminée. Les GPU multi-instances nécessitent un pilote NVIDIA version 450.80.02 ou ultérieure.

Une fois le pilote installé, le mode GPU multi-instance est activé. Si vous avez installé automatiquement des pilotes, vos nœuds redémarrent lorsque le plug-in de l'appareil GPU commence à créer des partitions de GPU. Si vous avez installé manuellement les pilotes, vos nœuds redémarrent une fois l'installation du pilote terminée. Le redémarrage peut prendre quelques minutes.

Vérifier le nombre de ressources GPU disponibles sur le nœud

Exécutez la commande suivante pour vérifier que la capacité et le nombre allouables des ressources nvidia.com/gpu sont de 7 :

kubectl describe nodes

Voici la sortie de la commande :

...
Capacity:
  ...
  nvidia.com/gpu:             7
Allocatable:
  ...
  nvidia.com/gpu:             7

Déployer des conteneurs à l'aide de GPU multi-instances

Vous pouvez déployer jusqu'à un conteneur par appareil GPU multi-instance sur le nœud. Dans cet exemple, avec une taille de partition de 1g.5gb, sept partitions de GPU multi-instances sont disponibles sur le nœud. Par conséquent, vous pouvez déployer jusqu'à sept conteneurs qui demandent des GPU sur ce nœud.

Voici un exemple simple qui démarre le conteneur cuda:11.0.3-base-ubi7 et exécute nvidia-smi pour imprimer l'UUID du GPU dans le conteneur. Dans cet exemple, il y a sept conteneurs, et chaque conteneur reçoit une partition GPU. Cet exemple définit également le sélecteur de nœuds cloud.google.com/gke-gpu-partition-size pour cibler les nœuds avec des partitions de GPU 1g.5gb.

Autopilot

kubectl apply -f -  <<EOF
apiVersion: apps/v1
kind: Deployment
metadata:
  name: cuda-simple
spec:
  replicas: 7
  selector:
    matchLabels:
      app: cuda-simple
  template:
    metadata:
      labels:
        app: cuda-simple
    spec:
      nodeSelector:
        cloud.google.com/gke-gpu-partition-size: 1g.5gb
        cloud.google.com/gke-accelerator: nvidia-tesla-a100
        cloud.google.com/gke-accelerator-count: "1"
      containers:
      - name: cuda-simple
        image: nvidia/cuda:11.0.3-base-ubi7
        command:
        - bash
        - -c
        - |
          /usr/local/nvidia/bin/nvidia-smi -L; sleep 300
        resources:
          limits:
            nvidia.com/gpu: 1
EOF

Ce fichier manifeste effectue les opérations suivantes :

Demande le type de GPU nvidia-tesla-a100 en définissant le sélecteur de nœud cloud.google.com/gke-accelerator.
Divise le GPU en taille de partition 1g.5gb.
Associe un seul GPU au nœud en définissant le sélecteur de nœud cloud.google.com/gke-accelerator-count.

Standard

kubectl apply -f -  <<EOF
apiVersion: apps/v1
kind: Deployment
metadata:
  name: cuda-simple
spec:
  replicas: 7
  selector:
    matchLabels:
      app: cuda-simple
  template:
    metadata:
      labels:
        app: cuda-simple
    spec:
      nodeSelector:
        cloud.google.com/gke-gpu-partition-size: 1g.5gb
      containers:
      - name: cuda-simple
        image: nvidia/cuda:11.0.3-base-ubi7
        command:
        - bash
        - -c
        - |
          /usr/local/nvidia/bin/nvidia-smi -L; sleep 300
        resources:
          limits:
            nvidia.com/gpu: 1
EOF

Ce fichier manifeste effectue les opérations suivantes :

Demande un seul GPU avec une taille de partition de 1g.5gb.

Vérifiez que les sept pods sont en cours d'exécution :

kubectl get pods

Voici la sortie de la commande :

NAME                           READY   STATUS    RESTARTS   AGE
cuda-simple-849c47f6f6-4twr2   1/1     Running   0          7s
cuda-simple-849c47f6f6-8cjrb   1/1     Running   0          7s
cuda-simple-849c47f6f6-cfp2s   1/1     Running   0          7s
cuda-simple-849c47f6f6-dts6g   1/1     Running   0          7s
cuda-simple-849c47f6f6-fk2bs   1/1     Running   0          7s
cuda-simple-849c47f6f6-kcv52   1/1     Running   0          7s
cuda-simple-849c47f6f6-pjljc   1/1     Running   0          7s

Affichez les journaux pour voir l'UUID du GPU en utilisant le nom de n'importe quel pod de la commande précédente :

kubectl logs cuda-simple-849c47f6f6-4twr2

Voici la sortie de la commande :

GPU 0: A100-SXM4-40GB (UUID: GPU-45eafa61-be49-c331-f8a2-282736687ab1)
  MIG 1g.5gb Device 0: (UUID: MIG-GPU-45eafa61-be49-c331-f8a2-282736687ab1/11/0)

Étape suivante

Découvrez les GPU.
Découvrez comment configurer le partage de temps sur les GPU.
Découvrez la mutualisation de clusters.
Découvrez les bonnes pratiques pour l'architecture mutualisée d'entreprise.