Ajouter ou supprimer des GPU

Compute Engine offre la possibilité d'ajouter des processeurs graphiques (GPU) aux instances de machines virtuelles (VM). Vous pouvez utiliser ces GPU pour accélérer des charges de travail spécifiques sur vos VM, telles que le machine learning et le traitement des données.

Vous ne pouvez utiliser que deux familles de machines lors de l'exécution de GPU sur Compute Engine :

  • La famille de machines optimisées pour les accélérateurs. Tous les types de machines optimisés pour les accélérateurs sont associés à des GPU.
  • La famille de machines à usage général N1. Vous pouvez utiliser la plupart des types de machines N1, à l'exception du type de machine N1 à cœur partagé. Si vous n'utilisez pas de machine à usage général N1, vous pouvez passer à une machine à usage général N1, puis ajouter les GPU.

Avant de commencer

  • Pour découvrir les étapes préalables supplémentaires, telles que la sélection d'une image de l'OS et la vérification du quota de GPU, consultez le document de présentation.
  • Si ce n'est pas déjà fait, configurez l'authentification. L'authentification permet de valider votre identité pour accéder aux services et aux API Google Cloud . Pour exécuter du code ou des exemples depuis un environnement de développement local, vous pouvez vous authentifier auprès de Compute Engine en sélectionnant l'une des options suivantes :

    Select the tab for how you plan to use the samples on this page:

    Console

    When you use the Google Cloud console to access Google Cloud services and APIs, you don't need to set up authentication.

    REST

    Pour utiliser les exemples API REST de cette page dans un environnement de développement local, vous devez utiliser les identifiants que vous fournissez à la gcloud CLI.

      Installez la Google Cloud CLI. Une fois que la Google Cloud CLI est installée, initialisez-la en exécutant la commande suivante :

      gcloud init

      Si vous utilisez un fournisseur d'identité (IdP) externe, vous devez d'abord vous connecter à la gcloud CLI avec votre identité fédérée.

    Pour en savoir plus, consultez la section S'authentifier pour utiliser REST dans la documentation sur l'authentification Google Cloud .

VM optimisées pour les accélérateurs

Chaque type de machine optimisé pour les accélérateurs est associé à un modèle spécifique de GPU NVIDIA pour prendre en charge le type de charge de travail recommandé.

Charges de travail d'IA et de ML Graphiques et visualisation
Les types de machines de la série A optimisés pour les accélérateurs sont conçus pour les charges de travail de calcul hautes performances (HPC), d'intelligence artificielle (IA) et de machine learning (ML).

Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.

Les types de machines de la série G optimisés pour les accélérateurs sont conçus pour les charges de travail telles que les charges de travail de simulation NVIDIA Omniverse, les applications gourmandes en ressources graphiques, le transcodage vidéo et les postes de travail virtuels. Ces types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX.

Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.

  • A4X (superchips NVIDIA GB200)
    (nvidia-gb200)
  • A4 (NVIDIA B200)
    (nvidia-b200)
  • A3 Ultra (NVIDIA H200)
    (nvidia-h200-141gb)
  • A3 Mega (NVIDIA H100)
    (nvidia-h100-mega-80gb)
  • A3 High (NVIDIA H100)
    (nvidia-h100-80gb)
  • A3 Edge (NVIDIA H100)
    (nvidia-h100-80gb)
  • A2 Ultra (NVIDIA A100 80 Go)
    (nvidia-a100-80gb)
  • A2 Standard (NVIDIA A100)
    (nvidia-a100-40gb)
  • G4 (NVIDIA RTX PRO 6000)
    (nvidia-rtx-pro-6000)
    (nvidia-rtx-pro-6000-vws)
  • G2 (NVIDIA L4)
    (nvidia-l4)
    (nvidia-l4-vws)

Vous pouvez modifier chaque instance optimisée pour les accélérateurs comme suit :

  • Vous ne pouvez pas modifier le type de machine pour les instances A4X, A4, A3 et A2 Ultra. Si vous utilisez l'un de ces types de machine pour votre instance et que vous devez modifier le type de machine, créez une nouvelle instance.

  • Pour les instances A2 Standard, vous pouvez modifier le nombre de GPU en passant d'un type de machine standard A2 à un autre type de machine standard A2.

  • Pour les instances G4, vous pouvez modifier le nombre de GPU en passant d'un type de machine G4 à un autre type de machine G4.

  • Pour les instances G2, vous pouvez effectuer les opérations suivantes :

    • Vous pouvez modifier le nombre de GPU en passant d'un type de machine G2 à un autre type de machine G2.
    • Vous pouvez passer d'un type de machine G2 à un type de machine d'une autre famille de machines, par exemple à usage général ou optimisé pour le calcul. Consultez la section Modifier le type de machine d'une VM.
  • Vous ne pouvez pas supprimer les GPU d'un type de machine optimisé pour les accélérateurs.

Modifier le nombre de GPU

Vous pouvez modifier le nombre de GPU d'une instance standard A2, G4 ou optimisée pour les accélérateurs G2 à l'aide de la console Google Cloud ou de REST.

Console

Vous pouvez modifier le nombre de GPU de votre instance en arrêtant l'instance et en modifiant sa configuration.

  1. Vérifiez que toutes vos applications critiques sont arrêtées sur l'instance.

  2. Dans la console Google Cloud , accédez à la page Instances de VM pour afficher votre liste d'instances.

    Accéder à la page Instances de VM

  3. Cliquez sur le nom de l'instance dont vous souhaitez modifier le nombre de GPU. La page Détails s'affiche.

  4. Procédez comme suit à partir de la page Détails.

    1. Si l'instance est en cours d'exécution, cliquez sur Arrêter pour l'arrêter. Si l'option Arrêter n'est pas disponible, cliquez sur Autres actions >  Arrêter.

    2. Cliquez sur Modifier.

    3. Dans la section Configuration de la machine, sélectionnez la famille de machines GPU, puis procédez comme suit :

      1. Dans la liste Nombre de GPU, augmentez ou diminuez le nombre de GPU.

    4. Pour appliquer vos modifications, cliquez sur Enregistrer.

    5. Pour redémarrer l'instance, cliquez sur Démarrer/Reprendre.

REST

Vous pouvez modifier le nombre de GPU sur votre instance en l'arrêtant et en modifiant le type de machine. Chaque type de machine optimisé pour les accélérateurs est associé à un nombre spécifique de GPU. Si vous modifiez le type de machine, cela ajuste le nombre de GPU associés à l'instance.

  1. Vérifiez que toutes vos applications critiques sont arrêtées sur l'instance, puis créez une commande POST pour arrêter l'instance afin qu'elle puisse être déplacée vers un système hôte sur lequel les GPU sont disponibles.

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/stop
    
  2. Une fois l'instance arrêtée, créez une requête POST pour modifier le type de machine.

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setMachineType
    
    {
       machineType: "zones/ZONE/machineTypes/MACHINE_TYPE"
    }
    
  3. Démarrez-la.

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/start
    

Remplacez les éléments suivants :

  • PROJECT_ID : ID de votre projet.
  • VM_NAME : nom de l'instance à laquelle vous souhaitez ajouter des GPU.
  • ZONE : zone où se trouve l'instance Cette zone doit être compatible avec les GPU.
  • MACHINE_TYPE : type de machine que vous souhaitez utiliser. Il doit s'agir de l'un des éléments suivants :

    • Si votre instance utilise une machine standard A2, sélectionnez un autre type de machine A2 Standard.
    • Si votre instance utilise une machine G4, sélectionnez un autre type de machine G4.
    • Si votre instance utilise un type de machine G2, sélectionnez un autre type de machine G2. Les types de machines G2 sont également compatibles avec la mémoire personnalisée. La mémoire doit être un multiple de 1 024 Mo et être comprise dans la plage de mémoire compatible. Par exemple, le nom du type de machine pour une instance avec 4 processeurs virtuels et 19 Go de mémoire serait g2-custom-4-19456.

Limites

Instances A2

  • Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A2 Standard.
  • Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A2 Standard.
  • Vous ne pouvez utiliser un type de machine A2 Standard que dans certaines régions et zones.
  • Les types de machines A2 Standard ne sont disponibles que sur la plate-forme Cascade Lake.
  • Si votre instance utilise un type de machine A2 Standard, vous ne pouvez passer d'un type de machine A2 Standard qu'à un autre type de machine A2 Standard. Vous ne pouvez pas passer à un autre type de machine. Pour en savoir plus, consultez Modifier des instances optimisées pour les accélérateurs.
  • Vous ne pouvez pas utiliser le système d'exploitation Windows avec le type de machine a2-megagpu-16g. Lorsque vous utilisez un système d'exploitation Windows, choisissez un autre type de machine A2 standard.
  • Vous ne pouvez pas effectuer un formatage rapide des disques SSD locaux associés à des instances Windows qui utilisent des types de machines A2 Standard. Pour formater ces disques SSD locaux, vous devez effectuer un formatage complet en utilisant l'utilitaire diskpart et en spécifiant format fs=ntfs label=tmpfs.
  • Les types de machines A2 Standard ne sont pas compatibles avec la location unique.

Instances G2

  • Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine G2.
  • Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine G2.
  • Vous ne pouvez utiliser un type de machine G2 que dans certaines régions et zones.
  • Le type de machine G2 n'est disponible que sur la plate-forme Cascade Lake.
  • Les disques persistants standards (pd-standard) ne sont pas compatibles avec les instances qui utilisent le type de machine G2. Pour connaître les types de disques compatibles, consultez la section Types de disques compatibles pour G2.
  • Vous ne pouvez pas créer de GPU multi-instances sur une instance qui utilise un type de machine G2.
  • Si vous devez modifier le type de machine d'une instance G2, consultez la page Modifier des instances optimisées pour les accélérateurs.
  • Vous ne pouvez pas utiliser de Deep Learning VM Image en tant que disque de démarrage pour les instances utilisant le type de machine G2.
  • Le pilote par défaut actuel de Container-Optimized OS n'est pas compatible avec les GPU L4 s'exécutant sur des types de machines G2. De plus, Container-Optimized OS n'accepte qu'un ensemble sélectionné de pilotes. Si vous souhaitez utiliser Container-Optimized OS sur des types de machines G2, consultez les notes suivantes :
    • Utilisez une version de Container-Optimized OS compatible avec le pilote NVIDIA version 525.60.13 recommandée (minimum) ou ultérieure. Pour en savoir plus, consultez les Notes de version de Container-Optimized OS.
    • Lorsque vous installez le pilote, spécifiez la dernière version disponible compatible avec les GPU L4. Exemple :sudo cos-extensions install gpu -- -version=525.60.13
  • Vous devez utiliser Google Cloud CLI ou REST pour créer des instances G2 dans les scénarios suivants :
    • Vous souhaitez spécifier des valeurs personnalisées de la mémoire.
    • Vous souhaitez personnaliser le nombre de cœurs de processeur visibles.

Instances G4

Instances à usage général N1

Cette section explique comment ajouter, modifier ou supprimer des GPU sur une machine à usage général N1.

Pour résumer, le processus d'ajout, de modification ou de suppression de GPU d'une instance existante est le suivant :

  1. Vérifiez que votre instance dispose d'une taille de disque de démarrage d'au moins 40 Go.
  2. Arrêtez l'instance.
  3. Ajoutez, modifiez ou supprimez des GPU.

    Si aucun GPU n'est associé à votre instance N1, vous devez effectuer les étapes suivantes :

    1. Préparez votre instance pour la modification.
    2. Modifiez le paramètre de maintenance de l'hôte pour l'instance. Les instances comportant des GPU ne peuvent pas migrer à chaud car elles sont affectées à des périphériques matériels spécifiques. Pour en savoir plus, consultez la section Restrictions relatives aux GPU.
    3. Modifiez le type de machine. Les GPU ne sont compatibles qu'avec certains types de machines N1.
    4. Installez un pilote de GPU sur votre instance pour que votre système puisse utiliser le périphérique GPU.

Préparer votre instance

Lorsqu'un GPU est ajouté à une instance, l'ordre de l'interface réseau peut changer.

La plupart des images publiques sur Compute Engine ne possèdent pas de nom d'interface réseau persistant et s'adaptent au nouvel ordre.

Toutefois, si vous utilisez SLES ou une image personnalisée, vous devez mettre à jour le paramètre système pour empêcher la persistance de l'interface réseau. Pour empêcher la persistance de l'interface réseau, exécutez la commande suivante sur votre instance :

 rm /etc/udev/rules.d/70-persistent-net.rules 

Ajouter des GPU ou modifier le type de GPU sur des instances existantes

Cette section explique comment ajouter des GPU ou modifier le type de GPU sur des instances à usage général N1 existantes. Cette procédure accepte les types de GPU suivants :

GPU NVIDIA :

  • NVIDIA T4 : nvidia-tesla-t4
  • NVIDIA P4 : nvidia-tesla-p4
  • NVIDIA P100 : nvidia-tesla-p100
  • NVIDIA V100 : nvidia-tesla-v100

Poste de travail virtuel NVIDIA RTX (vWS) (anciennement NVIDIA GRID) :

  • Poste de travail virtuel NVIDIA T4 : nvidia-tesla-t4-vws
  • Poste de travail virtuel NVIDIA P4 : nvidia-tesla-p4-vws
  • Poste de travail virtuel NVIDIA P100 : nvidia-tesla-p100-vws

    Pour ces postes de travail virtuels, une licence de poste de travail virtuel NVIDIA RTX (vWS) est automatiquement ajoutée à votre instance.

Console

Pour ajouter des GPU ou modifier le type de GPU, procédez comme suit :

  1. Vérifiez que toutes vos applications critiques sont arrêtées sur l'instance.

  2. Dans la console Google Cloud , accédez à la page Instances de VM pour afficher votre liste d'instances.

    Accéder à la page Instances de VM

  3. Cliquez sur le nom de l'instance que vous souhaitez mettre à jour. La page Détails s'affiche.

  4. Procédez comme suit à partir de la page Détails.

    1. Si l'instance est en cours d'exécution, cliquez sur Arrêter. Si l'option Arrêter n'est pas disponible, cliquez sur Autres actions >  Arrêter.

    2. Cliquez sur Modifier.

    3. Dans la section Configuration de la machine, sélectionnez la famille de machines GPU, puis procédez comme suit :

      1. Dans la liste Type de GPU, sélectionnez ou basculez sur l'un des types de GPU compatibles avec les VM N1.

      2. Dans la liste Nombre de GPU, sélectionnez le nombre de GPU.

      3. Si votre modèle de GPU est compatible avec les postes de travail virtuels NVIDIA RTX (vWS) pour les charges de travail graphiques et que vous prévoyez d'exécuter des charges de travail graphiques lourdes sur cette instance, sélectionnez l'option Activer le poste de travail virtuel (NVIDIA GRID).

    4. Si aucun GPU n'était associé à votre instance, procédez comme suit :

      1. Si l'instance dispose d'un type de machine à cœur partagé, vous devez modifier ce type de machine. Dans la liste Type de machine, sélectionnez l'un des types de machines N1 prédéfinis. Vous pouvez également spécifier des paramètres personnalisés de type de machine.

      2. Dans la section Gestion, procédez comme suit :

        1. Dans la liste Pendant la maintenance de l'hôte, sélectionnez Arrêter l'instance de VM. Les instances avec des GPU associés ne peuvent pas être migrées à chaud. Consultez la section Gérer les événements de l'hôte GPU.

        2. Dans la liste Redémarrage automatique, sélectionnez Désactivé.

    5. Pour appliquer vos modifications, cliquez sur Enregistrer.

    6. Pour redémarrer la VM, cliquez sur Démarrer/Reprendre.

REST

Vous pouvez ajouter ou modifier des GPU sur votre instance en arrêtant l'instance et en modifiant sa configuration via l'API.

  1. Vérifiez que toutes vos applications critiques sont arrêtées sur l'instance, puis créez une commande POST pour arrêter l'instance afin qu'elle puisse être déplacée vers un système hôte sur lequel les GPU sont disponibles.

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/stop
    
  2. Si aucun GPU n'est associé à votre instance, procédez comme suit :

    1. Identifiez le type de GPU que vous souhaitez ajouter à votre instance. Vous pouvez envoyer une requête GET pour répertorier les types de GPU disponibles pour votre projet dans une zone spécifique.

      GET https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes
      
    2. Si l'instance dispose d'un type de machine à cœur partagé, vous devez modifier le type de machine pour avoir un ou plusieurs processeurs virtuels. Vous ne pouvez pas ajouter d'accélérateurs à des instances avec des types de machines à cœur partagé.

    3. Créez une commande POST pour définir les options de planification de l'instance.

      POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setScheduling
      
      {
      "onHostMaintenance": "TERMINATE",
      "automaticRestart": true
      }
      
  3. Créez une requête POST pour ajouter ou modifier les GPU associés à votre instance.

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/setMachineResources
    
        {
         "guestAccelerators": [
          {
            "acceleratorCount": ACCELERATOR_COUNT,
            "acceleratorType": "https://www.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/acceleratorTypes/ACCELERATOR_TYPE"
          }
         ]
        }
    
  4. Démarrez-la.

    POST https://compute.googleapis.com/compute/v1/projects/PROJECT_ID/zones/ZONE/instances/VM_NAME/start
    

    Remplacez les éléments suivants :

    • PROJECT_ID : ID de votre projet.
    • VM_NAME : nom de l'instance à laquelle vous souhaitez ajouter des GPU.
    • ZONE : zone où se trouve l'instance
    • ACCELERATOR_COUNT : nombre de GPU que vous souhaitez associer à votre instance. Pour obtenir la liste des limites de GPU en fonction du type de machine de votre instance, consultez la page GPU sur Compute Engine.
    • ACCELERATOR_TYPE : modèle de GPU que vous souhaitez associer ou sur lequel vous souhaitez basculer. Si vous prévoyez d'exécuter des charges de travail graphiques lourdes sur cette instance, utilisez l'un des modèles de postes de travail virtuels.

      Choisissez l'une des valeurs suivantes :

      • GPU NVIDIA :

        • NVIDIA T4 : nvidia-tesla-t4
        • NVIDIA P4 : nvidia-tesla-p4
        • NVIDIA P100 : nvidia-tesla-p100
        • NVIDIA V100 : nvidia-tesla-v100
      • Poste de travail virtuel NVIDIA RTX (vWS) (anciennement NVIDIA GRID) :

        • Poste de travail virtuel NVIDIA T4 : nvidia-tesla-t4-vws
        • Poste de travail virtuel NVIDIA P4 : nvidia-tesla-p4-vws
        • Poste de travail virtuel NVIDIA P100 : nvidia-tesla-p100-vws

        Pour ces postes de travail virtuels, une licence de poste de travail virtuel NVIDIA RTX (vWS) est automatiquement ajoutée à votre instance.

Installer les pilotes

Pour installer les pilotes, choisissez l'une des options suivantes :

Supprimer des GPU

Cette section explique comment supprimer les types de GPU suivants d'une instance à usage général N1 existante.

GPU NVIDIA :

  • NVIDIA T4 : nvidia-tesla-t4
  • NVIDIA P4 : nvidia-tesla-p4
  • NVIDIA P100 : nvidia-tesla-p100
  • NVIDIA V100 : nvidia-tesla-v100

Poste de travail virtuel NVIDIA RTX (vWS) (anciennement NVIDIA GRID) :

  • Poste de travail virtuel NVIDIA T4 : nvidia-tesla-t4-vws
  • Poste de travail virtuel NVIDIA P4 : nvidia-tesla-p4-vws
  • Poste de travail virtuel NVIDIA P100 : nvidia-tesla-p100-vws

    Pour ces postes de travail virtuels, une licence de poste de travail virtuel NVIDIA RTX (vWS) est automatiquement ajoutée à votre instance.

Vous pouvez utiliser Google Cloud console pour supprimer des GPU d'une instance existante. Pour supprimer des GPU, procédez comme suit :

  1. Vérifiez que toutes vos applications critiques sont arrêtées sur l'instance.

  2. Dans la console Google Cloud , accédez à la page Instances de VM pour afficher votre liste d'instances.

    Accéder à la page Instances de VM

  3. Cliquez sur le nom de l'instance dont vous souhaitez supprimer les GPU. La page Détails s'affiche.

  4. Procédez comme suit à partir de la page Détails.

    1. Si l'instance est en cours d'exécution, cliquez sur Arrêter pour l'arrêter. Si l'option Arrêter n'est pas disponible, cliquez sur Autres actions >  Arrêter.

    2. Dans la barre d'outils, cliquez sur Modifier.

    3. Dans la section Configuration de la machine, sélectionnez la famille de machines Usage général, puis procédez comme suit :

      1. Pour afficher les GPU associés, développez Configurations avancées.

      2. Dans la section GPU, supprimez des GPU en utilisant l'une des options suivantes :

        • Pour supprimer certains GPU, sélectionnez un nouveau nombre dans la liste Nombre de GPU.

        • Pour supprimer tous les GPU, cliquez sur Supprimer les GPU.

    4. Facultatif : Modifiez le paramètre de stratégie de maintenance de l'hôte de l'instance. La stratégie de maintenance de l'hôte des instances comportant des GPU doit être définie sur Arrêter l'instance de VM. Toutefois, si vous avez supprimé tous les GPU, vous avez la possibilité de migrer cette instance à chaud pendant la maintenance de l'hôte. Pour en savoir plus, consultez la section Définir les règles de maintenance d'hôte de VM.

    5. Pour appliquer vos modifications, cliquez sur Enregistrer.

    6. Pour redémarrer l'instance, cliquez sur Démarrer/Reprendre.

Étape suivante