Cette page a été traduite par l'API Cloud Translation.

Types de machines avec GPU

Ce document décrit les modèles de GPU NVIDIA disponibles sur Compute Engine, que vous pouvez utiliser pour accélérer le machine learning (ML), le traitement des données et les charges de travail gourmandes en ressources graphiques sur vos instances de machines virtuelles (VM). Ce document indique également les GPU préassociés aux séries de machines optimisées pour les accélérateurs, telles que A4X, A4, A3, A2, G4 et G2, ainsi que les GPU que vous pouvez associer aux instances à usage général N1.

Utilisez ce document pour comparer les performances, la mémoire et les fonctionnalités de différents modèles de GPU. Pour obtenir une présentation plus détaillée de la famille de machines optimisées pour les accélérateurs, y compris des informations sur les plates-formes de processeur, les options de stockage et les capacités de mise en réseau, et pour trouver le type de machine spécifique qui correspond à votre charge de travail, consultez Famille de machines optimisées pour les accélérateurs.

Pour en savoir plus sur les GPU sur Compute Engine, consultez la page À propos des GPU.

Pour consulter les régions et les zones disponibles pour les GPU sur Compute Engine, consultez la page Régions et zones disponibles pour les GPU.

Types de machines avec GPU

Compute Engine propose différents types de machines pour prendre en charge vos diverses charges de travail.

Certains types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX. Lorsque vous créez une instance qui utilise NVIDIA RTX Virtual Workstation, Compute Engine ajoute automatiquement une licence vWS. Pour en savoir plus sur la tarification des postes de travail virtuels, consultez la page Tarifs des GPU.

Types de machines GPU
Charges de travail d'IA et de ML	Graphiques et visualisation	Autres charges de travail GPU
Les types de machines de la série A optimisés pour les accélérateurs sont conçus pour les charges de travail de calcul hautes performances (HPC), d'intelligence artificielle (IA) et de machine learning (ML). Les séries A de dernière génération sont idéales pour le pré-entraînement et l'affinage des modèles de fondation qui impliquent de grands clusters d'accélérateurs, tandis que la série A2 peut être utilisée pour l'entraînement de modèles plus petits et l'inférence à hôte unique. Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.	Les types de machines de la série G optimisés pour les accélérateurs sont conçus pour les charges de travail telles que les charges de travail de simulation NVIDIA Omniverse, les applications gourmandes en ressources graphiques, le transcodage vidéo et les postes de travail virtuels. Ces types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX. La série G peut également être utilisée pour entraîner des modèles plus petits et pour l'inférence à hôte unique. Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.	Pour les types de machines à usage général N1, à l'exception des types N1 à cœur partagé (`f1-micro` et `g1-small`), vous pouvez associer un ensemble de modèles de GPU. Certains de ces modèles de GPU sont également compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX.
A4X (superchips NVIDIA GB200) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80 Go) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	Les modèles de GPU suivants peuvent être associés aux types de machines à usage général N1 : NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

Types de machines GPU

Charges de travail d'IA et de ML Graphiques et visualisation Autres charges de travail GPU

Les types de machines de la série A optimisés pour les accélérateurs sont conçus pour les charges de travail de calcul hautes performances (HPC), d'intelligence artificielle (IA) et de machine learning (ML).

Les séries A de dernière génération sont idéales pour le pré-entraînement et l'affinage des modèles de fondation qui impliquent de grands clusters d'accélérateurs, tandis que la série A2 peut être utilisée pour l'entraînement de modèles plus petits et l'inférence à hôte unique.

Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.

Les types de machines de la série G optimisés pour les accélérateurs sont conçus pour les charges de travail telles que les charges de travail de simulation NVIDIA Omniverse, les applications gourmandes en ressources graphiques, le transcodage vidéo et les postes de travail virtuels. Ces types de machines sont compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX.

La série G peut également être utilisée pour entraîner des modèles plus petits et pour l'inférence à hôte unique.

Pour ces types de machines, le modèle de GPU est automatiquement associé à l'instance.

Pour les types de machines à usage général N1, à l'exception des types N1 à cœur partagé (f1-micro et g1-small), vous pouvez associer un ensemble de modèles de GPU. Certains de ces modèles de GPU sont également compatibles avec les postes de travail virtuels (vWS) NVIDIA RTX.

A4X (superchips NVIDIA GB200)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80 Go)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

Les modèles de GPU suivants peuvent être associés aux types de machines à usage général N1 :

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

Vous pouvez également utiliser certains types de machines GPU sur AI Hypercomputer. AI Hypercomputer est un système de supercalcul optimisé pour prendre en charge vos charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Cette option est recommandée pour créer une infrastructure à allocation dense et optimisée pour les performances, qui intègre les planificateurs Google Kubernetes Engine (GKE) et Slurm.

Série de machines A4X

Les types de machines A4X optimisés pour les accélérateurs utilisent des superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200) et sont idéaux pour l'entraînement et le serving de modèles de base.

A4X est une plate-forme exascale basée sur NVIDIA GB200 NVL72. Chaque machine dispose de deux emplacements avec des processeurs NVIDIA Grace dotés de cœurs Arm Neoverse V2. Ces processeurs sont connectés à quatre GPU NVIDIA B200 Blackwell avec une communication NVLink-C2C rapide entre les puces.

						Superchips NVIDIA GB200 Grace Blackwell associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3e)
`a4x-highgpu-4g`	140	884	12 000	6	2 000	4	720

¹ Un processeur virtuel est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
² La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Pour en savoir plus sur la bande passante réseau, consultez Bande passante réseau.
³ La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Série de machines A4

Les types de machines A4 optimisés pour les accélérateurs sont associés à des GPU NVIDIA B200 Blackwell (nvidia-b200). Ils sont idéaux pour l'entraînement et le service de modèles de base.

						GPU NVIDIA B200 Blackwell associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3e)
`a4-highgpu-8g`	224	3 968	12 000	10	3 600	8	1 440

Série de machines A3

Les types de machines A3 optimisés pour les accélérateurs sont associés à des GPU NVIDIA H100 SXM ou NVIDIA H200 SXM.

Type de machine A3 Ultra

Les types de machines A3 Ultra sont associés à des GPU NVIDIA H200 SXM (nvidia-h200-141gb) et offrent les meilleures performances réseau de la série A3. Les types de machines A3 Ultra sont idéaux pour l'entraînement et le service de modèles de fondation.

						GPU NVIDIA H200 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3e)
`a3-ultragpu-8g`	224	2 952	12 000	10	3 600	8	1128

Types de machines A3 Mega, High et Edge

Pour utiliser les GPU NVIDIA H100 SXM, vous avez les options suivantes :

A3 Mega : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-mega-80gb) et sont idéaux pour les charges de travail d'entraînement et de diffusion à grande échelle.
A3 High : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-80gb) et conviennent aussi bien aux tâches d'entraînement qu'à celles de diffusion.
A3 Edge : ces types de machines sont associés à des GPU H100 SXM (nvidia-h100-80gb), sont conçus spécifiquement pour le serving et sont disponibles dans un ensemble limité de régions.

A3 Mega

Conseil : Lorsque vous provisionnez des types de machines a3-megagpu-8g, nous vous recommandons d'utiliser un cluster de ces instances et de le déployer avec un programmeur tel que Google Kubernetes Engine (GKE) ou Slurm. Pour obtenir des instructions détaillées sur ces deux options, consultez les pages suivantes :

Pour créer un cluster Google Kubernetes Engine, consultez Déployer un cluster A3 Mega avec GKE.
Pour créer un cluster Slurm, consultez Déployer un cluster Slurm A3 Mega.

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3)
`a3-megagpu-8g`	208	1 872	6 000	9	1 800	8	640

A3 High

Conseil : Lorsque vous provisionnez des types de machines a3-highgpu-1g, a3-highgpu-2g ou a3-highgpu-4g, vous devez créer des instances à l'aide de VM Spot ou de VM à démarrage flexible. Pour obtenir des instructions détaillées sur ces options, consultez les pages suivantes :

Pour créer des VM Spot, définissez le modèle de provisionnement sur SPOT lorsque vous créez une VM optimisée pour les accélérateurs.
Pour créer des VM Flex-start, vous pouvez utiliser l'une des méthodes suivantes :
- Créez une VM autonome et définissez le modèle de provisionnement sur FLEX_START lorsque vous créez une VM optimisée pour les accélérateurs.
- Créez une demande de redimensionnement dans un groupe d'instances géré (MIG). Pour obtenir des instructions, consultez Créer un MIG comprenant des VM avec GPU.

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3)
`a3-highgpu-1g`	26	234	750	1	25	1	80
`a3-highgpu-2g`	52	468	1 500	1	50	2	160
`a3-highgpu-4g`	104	936	3 000	1	100	4	320
`a3-highgpu-8g`	208	1 872	6 000	5	1 000	8	640

A3 Edge

						GPU NVIDIA H100 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM3)
`a3-edgegpu-8g`	208	1 872	6 000	5	800 : pour asia-south1 et northamerica-northeast2 400 : pour toutes les autres régions A3 Edge	8	640

Série de machines A2

Les types de machines A2 optimisés pour les accélérateurs sont associés à des GPU NVIDIA A100 et sont idéaux pour l'affinage de modèles, l'inférence de grands modèles et l'inférence optimisée pour les coûts.

La série de machines A2 est disponible en deux types :

A2 Ultra : ces types de machines sont associés à des GPU A100 de 80 Go (nvidia-a100-80gb) et à des disques SSD locaux.
A2 Standard : ces types de machines sont associés à des GPU A100 de 40 Go (nvidia-tesla-a100). Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance A2 Standard. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.

A2 ultra

					GPU NVIDIA A100 80 Go associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local associé (Gio)	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM2e)
`a2-ultragpu-1g`	12	170	375	24	1	80
`a2-ultragpu-2g`	24	340	750	32	2	160
`a2-ultragpu-4g`	48	680	1 500	50	4	320
`a2-ultragpu-8g`	96	1 360	3 000	100	8	640

A2 standard

					GPU NVIDIA A100 40 Go associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	SSD local compatible	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (GB HBM2)
`a2-highgpu-1g`	12	85	Oui	24	1	40
`a2-highgpu-2g`	24	170	Oui	32	2	80
`a2-highgpu-4g`	48	340	Oui	50	4	160
`a2-highgpu-8g`	96	680	Oui	100	8	320
`a2-megagpu-16g`	96	1 360	Oui	100	16	640

Série de machines G4

Les types de machines G4 optimisés pour les accélérateurs utilisent des GPU NVIDIA RTX PRO 6000 Blackwell Server Edition (nvidia-rtx-pro-6000) et conviennent aux charges de travail de simulation NVIDIA Omniverse, aux applications gourmandes en ressources graphiques, au transcodage vidéo et aux postes de travail virtuels. Les types de machines G4 offrent également une solution à faible coût pour effectuer l'inférence et l'ajustement de modèles sur un seul hôte par rapport aux types de machines de la série A.

Une fonctionnalité clé de la gamme G4 est la prise en charge de la communication GPU peer-to-peer (P2P) directe sur les types de machines multi-GPU (g4-standard-96, g4-standard-192, g4-standard-384). Cela permet aux GPU d'une même instance d'échanger des données directement sur le bus PCIe, sans impliquer l'hôte du processeur. Pour en savoir plus sur la communication peer-to-peer des GPU G4, consultez Communication peer-to-peer des GPU G4.

						GPU NVIDIA RTX PRO 6000 associés
Type de machine	Nombre de vCPU¹	Mémoire de l'instance (Go)	Disque SSD Titanium maximal compatible (Gio)²	Nombre de cartes d'interface réseau physiques	Bande passante réseau maximale (Gbit/s)³	Nombre de GPU	Mémoire GPU⁴ (Go GDDR7)
`g4-standard-48`	48	180	1 500	1	50	1	96
`g4-standard-96`	96	360	3 000	1	100	2	192
`g4-standard-192`	192	720	6 000	1	200	4	384
`g4-standard-384`	384	1 440	12 000	2	400	8	768

¹ Un processeur virtuel est mis en œuvre sous la forme d'une technologie hyper-threading matérielle unique sur l'une des plates-formes de processeur disponibles.
² Vous pouvez ajouter des disques SSD Titanium lorsque vous créez une instance G4. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.
³ La bande passante de sortie maximale ne peut pas dépasser le nombre donné. La bande passante de sortie réelle dépend de l'adresse IP de destination et d'autres facteurs. Consultez la page Bande passante réseau.
⁴ La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.

Série de machines G2

Les types de machines G2 optimisés pour les accélérateurs sont associés à des GPU NVIDIA L4 et sont idéaux pour les charges de travail d'inférence optimisées pour les coûts, les charges de travail de calcul hautes performances et celles nécessitant beaucoup de ressources graphiques.

Chaque type de machine G2 dispose également d'une mémoire par défaut et d'une plage de mémoire personnalisée. La plage de mémoire personnalisée définit la quantité de mémoire que vous pouvez allouer à votre instance pour chaque type de machine. Vous pouvez également ajouter des disques SSD locaux lorsque vous créez une instance G2. Pour connaître le nombre de disques que vous pouvez associer, consultez Types de machines nécessitant le choix d'un nombre de disques SSD locaux.

						GPU NVIDIA L4 associés
Type de machine	Nombre de vCPU¹	Mémoire d'instance par défaut (Go)	Plage de mémoire d'instance personnalisée (Go)	Disque SSD local maximal compatible (Gio)	Bande passante réseau maximale (Gbit/s)²	Nombre de GPU	Mémoire GPU³ (Go GDDR6)
`g2-standard-4`	4	16	Entre 16 et 32	375	10	1	24
`g2-standard-8`	8	32	Entre 32 et 54	375	16	1	24
`g2-standard-12`	12	48	Entre 48 et 54	375	16	1	24
`g2-standard-16`	16	64	Entre 54 et 64	375	32	1	24
`g2-standard-24`	24	96	Entre 96 et 108	750	32	2	48
`g2-standard-32`	32	128	Entre 96 et 128	375	32	1	24
`g2-standard-48`	48	192	Entre 192 et 216	1 500	50	4	96
`g2-standard-96`	96	384	Entre 384 et 432	3 000	100	8	192

Série de machines N1

Vous pouvez associer les modèles de GPU suivants à un type de machine N1, à l'exception des types de machines N1 à cœur partagé.

Contrairement aux types de machines de la série optimisée pour les accélérateurs, les types de machines N1 ne sont pas fournis avec un nombre défini de GPU associés. Au lieu de cela, vous spécifiez le nombre de GPU à associer lorsque vous créez l'instance.

Les instances N1 avec moins de GPU limitent le nombre maximal de processeurs virtuels. En règle générale, un nombre plus élevé de GPU permet de créer des instances dotées d'une plus grande quantité de processeurs virtuels et de mémoire.

GPU N1+T4

Vous pouvez associer des GPU NVIDIA T4 à des instances à usage général N1 avec les configurations d'instance suivantes.

Type d'accélérateur	Nombre de GPU	Mémoire GPU¹ (Go GDDR6)	Nombre de vCPU	Mémoire de l'instance (Go)	SSD local compatible
`nvidia-tesla-t4` ou `nvidia-tesla-t4-vws`	1	16	Entre 1 et 48	Entre 1 et 312	Oui
	2	32	Entre 1 et 48	Entre 1 et 312	Oui
	4	64	Entre 1 et 96	Entre 1 et 624	Oui

GPU N1+P4

Vous pouvez associer des GPU NVIDIA P4 à des instances N1 à usage général avec les configurations d'instance suivantes.

Type d'accélérateur	Nombre de GPU	Mémoire GPU¹ (Go GDDR5)	Nombre de vCPU	Mémoire de l'instance (Go)	SSD local compatible²
`nvidia-tesla-p4` ou `nvidia-tesla-p4-vws`	1	8	Entre 1 et 24	Entre 1 et 156	Oui
	2	16	Entre 1 et 48	Entre 1 et 312	Oui
	4	32	Entre 1 et 96	Entre 1 et 624	Oui

¹ La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.
² Pour les instances avec des GPU NVIDIA P4 associés, les disques SSD locaux ne sont compatibles qu'avec les zones us-central1-c et northamerica-northeast1-b.

GPU N1+V100

Vous pouvez associer des GPU NVIDIA V100 à des instances N1 à usage général avec les configurations d'instance suivantes.

Type d'accélérateur	Nombre de GPU	Mémoire GPU¹ (Go HBM2)	Nombre de vCPU	Mémoire de l'instance (Go)	SSD local compatible²
`nvidia-tesla-v100`	1	16	Entre 1 et 12	Entre 1 et 78	Oui
	2	32	Entre 1 et 24	Entre 1 et 156	Oui
	4	64	Entre 1 et 48	Entre 1 et 312	Oui
	8	128	Entre 1 et 96	Entre 1 et 624	Oui

¹ La mémoire du GPU est la mémoire disponible sur un GPU pouvant être utilisé pour le stockage temporaire de données. Elle est distincte de la mémoire de l'instance et est spécialement conçue pour gérer les demandes de bande passante plus élevées de vos charges de travail gourmandes en ressources graphiques.
² Les disques SSD locaux ne sont pas compatibles avec us-east1-c pour les instances avec des GPU NVIDIA V100 associés.

GPU N1+P100

Vous pouvez associer des GPU NVIDIA P100 à des instances N1 à usage général avec les configurations d'instance suivantes.

Pour certains GPU NVIDIA P100, la quantité maximale de processeurs et de mémoire disponibles pour certaines configurations dépend de la zone dans laquelle la ressource GPU s'exécute.

Type d'accélérateur	Nombre de GPU	Mémoire GPU¹ (Go HBM2)	Zone	Nombre de vCPU	Mémoire de l'instance (Go)	SSD local compatible
`nvidia-tesla-p100` ou `nvidia-tesla-p100-vws`	1	16	Toutes les zones P100	Entre 1 et 16	Entre 1 et 104	Oui
	2	32	Toutes les zones P100	1 à 32	Entre 1 et 208	Oui
	4	64	`us-east1-c`, `europe-west1-d`, `europe-west1-b`	Entre 1 et 64	Entre 1 et 208	Oui
	4	64	Toutes les autres zones P100	Entre 1 et 96	Entre 1 et 624	Oui

Graphique de comparaison général

Le tableau suivant décrit la taille de la mémoire du GPU, la disponibilité des fonctionnalités, ainsi que les types de charges de travail idéaux des différents modèles de GPU disponibles sur Compute Engine.

Modèle GPU	Mémoire de GPU	Interconnexion	Utilisation optimale
GB200	180 Go HBM3e à 8 Tbit/s	NVLink Full Mesh à 1 800 Gbit/s	Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC
B200	180 Go HBM3e à 8 Tbit/s	NVLink Full Mesh à 1 800 Gbit/s	Entraînement et inférence distribués à grande échelle de LLM, de systèmes de recommandation et de HPC
H200	141 Go HBM3e à 4,8 Tbit/s	NVLink Full Mesh à 900 Gbit/s	Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
H100	80 Go HBM3 à 3,35 Tbit/s	NVLink Full Mesh à 900 Gbit/s	Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A100 80 Go	80 Go HBM2e à 1,9 Tbit/s	NVLink Full Mesh à 600 Gbit/s	Modèles volumineux avec tables de données massives pour entraînement ou inférence ML, HPC, BERT et DLRM.
A100 40 Go	40 Go HBM2 à 1,6 Tbit/s	NVLink Full Mesh à 600 Gbit/s	Entraînement et inférence ML, HPC
RTX PRO 6000	96 Go GDDR7 avec ECC à 1 597 Go/s	N/A	Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos, HPC
L4	24 Go GDDR6 à 300 Gbit/s	N/A	Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos, HPC
T4	16 Go GDDR6 à 320 Gbit/s	N/A	Inférence et entraînement ML, postes de travail à distance pour la visualisation, transcodage de vidéos
V100	16 Go HBM2 à 900 Gbit/s	NVLink Ring à 300 Gbit/s	Entraînement et inférence ML, HPC
P4	8 Go GDDR5 à 192 Gbit/s	N/A	Postes de travail à distance pour la visualisation, inférence ML et transcodage de vidéos
P100	16 Go HBM2 à 732 Gbit/s	N/A	Inférence et entraînement ML, HPC, postes de travail à distance pour la visualisation

Pour comparer les tarifs des GPU selon les différents modèles de GPU et les différentes régions disponibles sur Compute Engine, consultez la section Tarifs des GPU.

Graphique de comparaison des performances

Le tableau suivant décrit les spécifications des performances des différents modèles de GPU disponibles sur Compute Engine.

Performances de calcul

Modèle GPU	FP64	FP32	FP16	INT8
GB200	90 TFLOPS	180 TFLOPS
B200	40 TFLOPS	80 TFLOPS
H200	34 TFLOPS	67 TFLOPS
H100	34 TFLOPS	67 TFLOPS
A100 80 Go	9,7 TFLOPS	19,5 TFLOPS
A100 40 Go	9,7 TFLOPS	19,5 TFLOPS
L4	0,5 TFLOPS¹	30,3 TFLOPS
T4	0,25 TFLOPS¹	8,1 TFLOPS
V100	7,8 TFLOPS	15,7 TFLOPS
P4	0,2 TFLOPS¹	5,5 TFLOPS		22 TOPS²
P100	4,7 TFLOPS	9,3 TFLOPS	18,7 TFLOPS

¹ Pour permettre au code FP64 de fonctionner correctement, l'architecture des GPU T4, L4 et P4 inclut un petit nombre d'unités matérielles FP64.
² Téra-opérations par seconde.

Performances des cœurs Tensor

Modèle GPU	FP64	TF32	Précision mixte FP16/FP32	INT8	INT4	FP8
GB200	90 TFLOPS	2 500 TFLOPS²	5 000 TFLOPS^1, 2	10 000 TFLOPS²	20 000 TFLOPS²	10 000 TFLOPS²
B200	40 TFLOPS	1 100 TFLOPS²	4 500 TFLOPS^1, 2	9 000 TFLOPS²		9 000 TFLOPS²
H200	67 TFLOPS	989 TFLOPS²	1 979 TFLOPS^{1, 2}	3 958 TOPS²		3 958 TFLOPS²
H100	67 TFLOPS	989 TFLOPS²	1 979 TFLOPS^{1, 2}	3 958 TOPS²		3 958 TFLOPS²
A100 80 Go	19,5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1248 TOPS
A100 40 Go	19,5 TFLOPS	156 TFLOPS	312 TFLOPS¹	624 TOPS	1248 TOPS
L4		120 TFLOPS²	242 TFLOPS^{1, 2}	485 TOPS²		485 TFLOPS²
T4			65 TFLOPS	130 TOPS	260 TOPS
V100			125 TFLOPS
P4
P100

¹ Pour l'entraînement de précision mixte, les GPU NVIDIA GB200, B200, H200, H100, A100 et L4 acceptent également le type de données bfloat16.
²Les GPU NVIDIA GB200, B200, H200, H100 et L4 sont compatibles avec la parcimonie structurelle. Vous pouvez utiliser la parcimonie structurelle pour doubler les performances de vos modèles. Les valeurs documentées s'appliquent lorsque vous utilisez la parcimonie structurée. Si vous n'utilisez pas la parcimonie structurée, les valeurs sont divisées par deux.

Étape suivante

En savoir plus sur les GPU Compute Engine
Vérifiez la disponibilité des régions et des zones GPU.
Consultez Bandes passantes réseau et GPU.
Consultez les tarifs des GPU.