Cette page a été traduite par l'API Cloud Translation.

Présentation de la création d'une instance avec des GPU associés

Linux Windows

Ce document présente les étapes requises pour créer une instance Compute Engine à laquelle sont associés des processeurs graphiques (GPU). Vous pouvez utiliser des GPU pour accélérer des charges de travail spécifiques, telles que le machine learning et le traitement des données.

Vous pouvez également utiliser certains types de machines GPU sur AI Hypercomputer. AI Hypercomputer est un système de supercalcul optimisé pour prendre en charge vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Cette option est recommandée pour créer une infrastructure à allocation dense et optimisée pour les performances, qui intègre les planificateurs Google Kubernetes Engine (GKE) et Slurm.

Pour en savoir plus sur les GPU sur Compute Engine, consultez la page À propos des GPU.

Sélectionner le modèle de GPU

Pour obtenir la liste des modèles de GPU disponibles, consultez la page Plates-formes GPU. Notez également le type de machine compatible avec le modèle de GPU sélectionné.

Il peut également être utile de passer en revue les éléments suivants pour chaque modèle :

Régions et zones disponibles.
Les tarifs des GPU pour comprendre le coût d'utilisation de chaque modèle de GPU sur vos instances. Pour les instances qui utilisent des machines optimisées pour les accélérateurs, consultez également les tarifs des instances de VM.

Limites

Outre les restrictions applicables à toutes les instances avec GPU, chaque série de machines avec GPU associés présente les limites suivantes :

Instances A4X

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A4X.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A4X.
Vous ne pouvez utiliser un type de machine A4X que dans certaines régions et zones.
Vous ne pouvez pas utiliser de disque persistant (régional ou zonal) sur une instance qui utilise un type de machine A4X.
Le type de machine A4X n'est disponible que sur la plate-forme NVIDIA Grace.
Attention : Le contrat de niveau de service Compute Engine ne s'applique pas à la série de machines A4X.
Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A4X. Vous ne pouvez créer que des instances A4X. Une fois que vous avez créé une instance à l'aide d'un type de machine A4X, vous ne pouvez plus modifier le type de machine.
Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A4X.
Les instances A4X ne sont pas compatibles avec les éléments suivants :

Instances A4

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A4.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A4.
Vous ne pouvez utiliser un type de machine A4 que dans certaines régions et zones.
Vous ne pouvez pas utiliser de disque persistant (régional ou zonal) sur une instance qui utilise un type de machine A4.
Le type de machine A4 n'est disponible que sur la plate-forme de processeur Emerald Rapids.
Vous ne pouvez pas remplacer le type de machine d'une instance existante par un type de machine A4. Vous ne pouvez créer que des instances A4. Une fois que vous avez créé une instance à l'aide d'un type de machine A4, vous ne pouvez plus modifier le type de machine.
Les types de machines A4 ne sont pas compatibles avec la location unique.
Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A4.

Instances A3 Ultra

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A3 Ultra.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A3 Ultra.
Vous ne pouvez utiliser un type de machine A3 Ultra que dans certaines régions et zones.
Vous ne pouvez pas utiliser de Persistent Disk (régional ou zonal) sur une instance qui utilise un type de machine A3 Ultra.
Le type de machine A3 Ultra n'est disponible que sur la plate-forme de processeur Emerald Rapids.
Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A3 Ultra. Vous ne pouvez créer que des instances A3-ultra. Une fois que vous avez créé une instance à l'aide d'un type de machine A3 Ultra, vous ne pouvez pas modifier le type de machine.
Les types de machines A3 Ultra ne sont pas compatibles avec la location unique.
Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A3 Ultra.

Instances A3 Mega

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A3 Mega.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A3 Mega.
Vous ne pouvez utiliser un type de machine A3 Mega que dans certaines régions et zones.
Vous ne pouvez pas utiliser de Persistent Disk régional sur une instance qui utilise un type de machine A3 Mega.
Le type de machine A3 Mega n'est disponible que sur la plate-forme de processeur Sapphire Rapids.
Vous ne pouvez pas remplacer le type de machine d'une instance existante par un type de machine A3 Mega. Vous ne pouvez créer que des instances A3-mega. Une fois que vous avez créé une instance à l'aide d'un type de machine A3 Mega, vous ne pouvez plus modifier le type de machine.
Les types de machines A3 Mega ne sont pas compatibles avec la location unique.
Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A3 Mega.

Instances A3 High

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A3 High.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A3 High.
Vous ne pouvez utiliser un type de machine A3 High que dans certaines régions et zones.
Vous ne pouvez pas utiliser de Persistent Disk régional sur une instance qui utilise un type de machine A3 High.
Le type de machine A3 High n'est disponible que sur la plate-forme de processeur Sapphire Rapids.
Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A3 High. Vous ne pouvez créer que des instances A3-high. Une fois que vous avez créé une instance à l'aide d'un type de machine A3 High, vous ne pouvez pas modifier le type de machine.
Les types de machines A3 High ne sont pas compatibles avec la location unique.
Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A3 High.
Pour les types de machines a3-highgpu-1g, a3-highgpu-2g et a3-highgpu-4g, vous devez créer des instances à l'aide de VM Spot ou de VM à démarrage flexible. Pour obtenir des instructions détaillées sur ces options, consultez les pages suivantes :
- Pour créer des VM Spot, définissez le modèle de provisionnement sur SPOT lorsque vous créez une VM optimisée pour les accélérateurs.
- Pour créer des VM avec démarrage flexible, vous pouvez utiliser l'une des méthodes suivantes :
  - Créez une VM autonome et définissez le modèle de provisionnement sur FLEX_START lorsque vous créez une VM optimisée pour les accélérateurs.
  - Créez une demande de redimensionnement dans un groupe d'instances géré (MIG). Pour obtenir des instructions, consultez Créer un MIG comprenant des VM avec GPU.
Vous ne pouvez utiliser une Confidential VM avec un type de machine a3-highgpu-1g que dans certaines régions et zones. De plus, toutes les limites applicables aux Confidential VM exécutées sur le type de machine A3 High s'appliquent.

Instances A3 Edge

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A3 Edge.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A3 Edge.
Vous ne pouvez utiliser un type de machine A3 Edge que dans certaines régions et zones.
Vous ne pouvez pas utiliser de Persistent Disk régional sur une instance qui utilise un type de machine A3 Edge.
Le type de machine A3 Edge n'est disponible que sur la plate-forme de processeur Sapphire Rapids.
Vous ne pouvez pas modifier le type de machine d'une instance existante en type de machine A3 Edge. Vous ne pouvez créer que des instances A3-edge. Une fois que vous avez créé une instance à l'aide d'un type de machine A3 Edge, vous ne pouvez plus modifier le type de machine.
Les types de machines A3 Edge ne sont pas compatibles avec la location unique.
Vous ne pouvez pas exécuter de systèmes d'exploitation Windows sur un type de machine A3 Edge.

Instances A2 standards

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A2 Standard.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A2 Standard.
Vous ne pouvez utiliser un type de machine A2 Standard que dans certaines régions et zones.
Les types de machines A2 Standard ne sont disponibles que sur la plate-forme Cascade Lake.
Si votre instance utilise un type de machine A2 Standard, vous ne pouvez passer d'un type de machine A2 Standard qu'à un autre type de machine A2 Standard. Vous ne pouvez pas passer à un autre type de machine. Pour en savoir plus, consultez Modifier des instances optimisées pour les accélérateurs.
Vous ne pouvez pas utiliser le système d'exploitation Windows avec les types de machines A2 Standard a2-megagpu-16g. Lorsque vous utilisez des systèmes d'exploitation Windows, choisissez un autre type de machine A2 Standard.
Vous ne pouvez pas effectuer un formatage rapide des disques SSD locaux associés à des instances Windows qui utilisent des types de machines A2 Standard. Pour formater ces disques SSD locaux, vous devez effectuer un formatage complet en utilisant l'utilitaire diskpart et en spécifiant format fs=ntfs label=tmpfs.
Les types de machines A2 Standard ne sont pas compatibles avec la location unique.

Instances A2 Ultra

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine A2 Ultra.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine A2 Ultra.
Vous ne pouvez utiliser un type de machine A2 Ultra que dans certaines régions et zones.
Les types de machines A2 Ultra ne sont disponibles que sur la plate-forme Cascade Lake.
Si votre instance utilise un type de machine A2 Ultra, vous ne pouvez pas le modifier. Si vous devez utiliser un autre type de machine A2 Ultra ou toute autre famille de machines, vous devez créer une instance.
Vous ne pouvez pas remplacer un autre type de machine par un type de machine A2 Ultra. Si vous avez besoin d'une instance utilisant un type de machine A2 Ultra, vous devez en créer une.
Vous ne pouvez pas effectuer un formatage rapide des disques SSD locaux associés à des instances Windows qui utilisent des types de machines A2 Ultra. Pour formater ces disques SSD locaux, vous devez effectuer un formatage complet en utilisant l'utilitaire diskpart et en spécifiant format fs=ntfs label=tmpfs.

Instances G4

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine G4.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine G4.
Vous ne pouvez utiliser un type de machine G4 que dans certaines régions et zones.
Vous ne pouvez pas utiliser de Persistent Disk (régional ou zonal) sur une instance qui utilise un type de machine G4.
Le type de machine G4 n'est disponible que sur la plate-forme AMD EPYC Turin de 5e génération.
Vous ne pouvez créer que des instances à la demande. Les réservations, les VM à démarrage flexible et les VM Spot ne sont pas compatibles. Pour commencer à utiliser les instances G4, contactez l'équipe Google chargée de votre compte.
Vous ne pouvez créer des instances G4 que dans us-central1-b.
Vous ne pouvez utiliser les types de disques Hyperdisk Balanced et Hyperdisk Extreme que sur une instance qui utilise un type de machine G4.
Vous ne pouvez pas appliquer de remises sur engagement d'utilisation aux instances qui utilisent un type de machine G4.
Vous ne pouvez pas créer d'instances de VM confidentielles qui utilisent un type de machine G4.
Vous ne pouvez pas créer d'instances G4 sur des nœuds à locataire unique.
Vous ne pouvez pas créer d'instances G4 qui utilisent NVIDIA RTX Virtual Workstation (vWS).

Instances G2

Vous ne pouvez demander de la capacité qu'en utilisant les options de consommation compatibles pour un type de machine G2.
Vous ne bénéficiez pas de remises automatiques proportionnelles à une utilisation soutenue ni de remises sur engagement d'utilisation flexibles pour les instances qui utilisent un type de machine G2.
Vous ne pouvez utiliser un type de machine G2 que dans certaines régions et zones.
Le type de machine G2 n'est disponible que sur la plate-forme Cascade Lake.
Les disques persistants standards (pd-standard) ne sont pas compatibles avec les instances qui utilisent le type de machine G2. Pour connaître les types de disques compatibles, consultez la section Types de disques compatibles pour G2.
Vous ne pouvez pas créer de GPU multi-instances sur une instance qui utilise un type de machine G2.
Si vous devez modifier le type de machine d'une instance G2, consultez la page Modifier des instances optimisées pour les accélérateurs.
Vous ne pouvez pas utiliser de Deep Learning VM Image en tant que disque de démarrage pour les instances utilisant le type de machine G2.
Le pilote par défaut actuel de Container-Optimized OS n'est pas compatible avec les GPU L4 s'exécutant sur des types de machines G2. De plus, Container-Optimized OS n'accepte qu'un ensemble sélectionné de pilotes. Si vous souhaitez utiliser Container-Optimized OS sur des types de machines G2, consultez les notes suivantes :
- Utilisez une version de Container-Optimized OS compatible avec le pilote NVIDIA version 525.60.13 recommandée (minimum) ou ultérieure. Pour en savoir plus, consultez les Notes de version de Container-Optimized OS.
- Lorsque vous installez le pilote, spécifiez la dernière version disponible compatible avec les GPU L4. Exemple :sudo cos-extensions install gpu -- -version=525.60.13
Vous devez utiliser Google Cloud CLI ou REST pour créer des instances G2 dans les scénarios suivants :
- Vous souhaitez spécifier des valeurs personnalisées de la mémoire.
- Vous souhaitez personnaliser le nombre de cœurs de processeur visibles.

Instances N1+GPU

Pour en savoir plus sur les limites des instances N1 avec GPU, consultez les fonctionnalités de la série de machines N1 et les GPU pour la série de machines N1.

Choisir un système d'exploitation

Si vous utilisez des GPU pour le machine learning, utilisez l'un des systèmes d'exploitation suivants :

Images optimisées pour les charges de travail d'IA. Vous pouvez utiliser des images Ubuntu et Rocky, disponibles dans des versions optimisées pour les accélérateurs avec les pilotes NVIDIA et CUDA Toolkit préinstallés. Consultez la section Images de l'OS dans la documentation AI Hypercomputer.
Instances Deep Learning VM Image. Chaque Deep Learning VM dispose d'un outil d'installation de pilote GPU et inclut des packages tels que TensorFlow et PyTorch. Vous pouvez également utiliser une Deep Learning VM pour les charges de travail générales des GPU. Pour en savoir plus sur les images disponibles et les packages installés sur ces images, consultez Choisir une image dans la documentation de Deep Learning VM.

Attention : Vous ne pouvez pas utiliser de Deep Learning VM Image sur les disques de démarrage de vos VM utilisant des types de machines G2. Les types de machines G2 sont des séries de machines optimisées pour les accélérateurs auxquelles sont associés des GPU NVIDIA L4.

Vous pouvez également utiliser une image publique ou personnalisée. Pour la plupart des images publiques ou des images personnalisées, vous devez installer les pilotes NVIDIA et CUDA Toolkit. Pour identifier les pilotes adaptés à votre modèle de GPU, consultez Installer des pilotes de GPU.

Vérifier le quota de GPU

Pour protéger les systèmes et les utilisateurs de Compute Engine, les nouveaux projets bénéficient d'un quota global de GPU, ce qui limite le nombre total de GPU que vous pouvez créer dans les zones disponibles. Pour consulter le quota de GPU, consultez Quota de GPU.

Si vous avez besoin d'un quota de GPU supplémentaire, demandez une augmentation de quota. Lorsque vous demandez un quota de GPU, vous devez demander un quota pour les types de GPU que vous souhaitez créer dans chaque région, mais également un quota mondial supplémentaire pour le nombre total de GPU de tout type dans toutes les zones.

Si votre projet a un historique de facturation établi, il recevra automatiquement un quota après l'envoi de la demande.

Instances de GPU et quotas d'allocation préemptifs

Les instances qui utilisent le modèle de provisionnement standard ne peuvent généralement pas utiliser les quotas d'allocation préemptifs. Les quotas préemptifs sont destinés aux charges de travail temporaires et sont généralement plus disponibles. Si votre projet ne dispose pas de quota préemptif et que vous n'en avez jamais demandé, toutes les instances de votre projet consomment des quotas d'allocation standards.

Si vous demandez un quota d'allocation préemptive, les instances qui utilisent le modèle de provisionnement standard doivent répondre à tous les critères suivants pour consommer le quota d'allocation préemptive :

Les instances sont associées à des GPU.
Les instances sont configurées pour être automatiquement supprimées après une durée d'exécution prédéfinie via le champ maxRunDuration ou terminationTime. Pour en savoir plus, consultez les ressources suivantes :
- Limiter la durée d'exécution d'une instance
- Limiter l'exécution des instances dans un MIG
L'instance n'est pas autorisée à consommer des réservations. Pour en savoir plus, consultez Empêcher les instances de calcul de consommer des réservations.

Lorsque vous consommez une allocation préemptive pour des charges de travail GPU limitées dans le temps, vous pouvez bénéficier à la fois d'une durée d'exécution ininterrompue et de la grande disponibilité du quota d'allocation préemptive. Pour en savoir plus, consultez la section Quotas préemptifs.

Créer une instance avec des GPU associés

Pour créer une instance à laquelle sont associés des GPU, procédez comme suit :

Créez l'instance. La méthode utilisée pour créer une instance dépend du modèle de GPU sélectionné.
- Pour créer une instance à laquelle sont associés des superchips NVIDIA GB200 Grace Blackwell, consultez Présentation des options de déploiement dans la documentation AI Hypercomputer.
- Pour créer une instance à laquelle sont associés des GPU NVIDIA B200 ou H200, consultez Créer une instance A3 Ultra ou A4.
- Pour créer une instance à laquelle sont associés des GPU NVIDIA H100, A100 ou L4, consultez Créer une instance A3, A2 ou G2.
- Pour savoir comment commencer à utiliser les instances G4 avec des GPU NVIDIA RTX PRO 6000 associés, contactez l'équipe chargée de votre compte Google.
- Pour créer une instance à laquelle sont associés des GPU NVIDIA T4, P4, P100 ou V100, consultez la page Créer une instance N1 associée à des GPU.
Installez le pilote de GPU sur votre instance pour que celle-ci puisse utiliser le GPU. Si vous avez activé un poste de travail virtuel NVIDIA RTX (anciennement appelé NVIDIA GRID), installez un pilote pour le poste de travail virtuel.

Étape suivante

Apprenez-en plus sur les plates-formes GPU.
Apprenez-en plus sur les fonctionnalités et limites de l'utilisation des GPU.