Tipi di macchine GPU


Puoi utilizzare le GPU su Compute Engine per accelerare carichi di lavoro specifici sulle tue VM, come il machine learning (ML) e l'elaborazione di dati. Per utilizzare le GPU, puoi eseguire il deployment di una VM ottimizzata per l'acceleratore con GPU collegate oppure collegare le GPU a una VM N1 per uso generale.

Compute Engine fornisce GPU per le tue VM in modalità passthrough in modo che le VM abbiano il controllo diretto sulle GPU e sulla memoria associata.

Per ulteriori informazioni sulle GPU su Compute Engine, consulta Informazioni sulle GPU.

Se hai carichi di lavoro ad alta intensità di grafica, come visualizzazione 3D, rendering 3D o applicazioni virtuali, puoi utilizzare le workstation virtuali NVIDIA RTX (in precedenza NVIDIA GRID).

Questo documento fornisce una panoramica delle diverse VM GPU disponibili su Compute Engine.

Per visualizzare le regioni e le zone disponibili per le GPU su Compute Engine, consulta Disponibilità di regioni e zone per le GPU.

GPU per i carichi di lavoro di calcolo

Per i carichi di lavoro di calcolo, le GPU sono supportate per i seguenti tipi di macchine:

  • VM A3: a queste VM sono collegate automaticamente GPU NVIDIA H100 da 80 GB.
  • VM A2: a queste VM sono collegate automaticamente GPU NVIDIA A100 da 80 GB o NVIDIA A100 da 40 GB.
  • VM G2: a queste VM sono collegate automaticamente GPU NVIDIA L4.
  • VM N1: per queste VM, puoi collegare i seguenti modelli di GPU: NVIDIA T4, NVIDIA V100, NVIDIA P100 o NVIDIA P4.

Serie di macchine A3

Per utilizzare le GPU NVIDIA H100 da 80 GB, devi utilizzare una macchina A3 ottimizzata per l'acceleratore. Ogni tipo di macchina A3 ha un numero fisso di GPU, vCPU e dimensioni della memoria.

Le serie di macchine A3 sono disponibili in tre tipi:

  • A3 Mega: questi tipi di macchine dispongono di GPU H100 da 80 GB (nvidia-h100-mega-80gb) e offrono le massime prestazioni di rete. Sono ideali per i carichi di lavoro di addestramento più impegnativi e su larga scala.
  • A3 High: questi tipi di macchine dispongono di GPU H100 da 80 GB (nvidia-h100-80gb) e sono adatti sia per l'addestramento di modelli di AI di grandi dimensioni sia per le attività di pubblicazione.
  • A3 Edge: questi tipi di macchine sono dotati di GPU H100 da 80 GB (nvidia-h100-80gb), sono progettati specificamente per il servizio e sono disponibili in un insieme limitato di regioni.

A3 Mega

Tipo di macchina Conteggio GPU Memoria GPU*
(GB HBM3)
Numero di vCPU Memoria VM (GB) SSD locale collegata (GiB) Numero di NIC fisiche Larghezza di banda massima della rete (Gbps)
a3-megagpu-8g 8 640 208 1.872 6000 9 1800

A3 High

Quando esegui il provisioning di tipi di macchine a3-highgpu-1g, a3-highgpu-2g o a3-highgpu-4g, devi utilizzare VM spot o una funzionalità che utilizza Dynamic Workload Scheduler (DWS), ad esempio le richieste di ridimensionamento in un gruppo di istanze gestite. Per istruzioni dettagliate su una di queste opzioni, consulta quanto segue:
Tipo di macchina Conteggio GPU Memoria GPU*
(GB HBM3)
Numero di vCPU Memoria VM (GB) SSD locale collegata (GiB) Numero di NIC fisiche Larghezza di banda massima della rete (Gbps)
a3-highgpu-1g 1 80 26 234 750 1 25
a3-highgpu-2g 2 160 52 468 1500 1 50
a3-highgpu-4g 4 320 104 936 3000 1 100
a3-highgpu-8g 8 640 208 1.872 6000 5 800

A3 Edge

Tipo di macchina Conteggio GPU Memoria GPU*
(GB HBM3)
Numero di vCPU Memoria VM (GB) SSD locale collegata (GiB) Numero di NIC fisiche Larghezza di banda massima della rete (Gbps)
a3-edgegpu-8g 8 640 208 1.872 6000 5
  • 800: per asia-south1 e northamerica-northeast2
  • 400: per tutte le altre regioni A3 Edge

*La memoria GPU è la memoria di un dispositivo GPU che può essere utilizzata per la memorizzazione temporanea dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei carichi di lavoro con uso intensivo di grafica.
Una vCPU viene implementata come un singolo hyperthread hardware su una delle piattaforme CPU disponibili.
La larghezza di banda in uscita massima non può superare il numero specificato. La larghezza di banda in uscita effettiva dipende dall'indirizzo IP di destinazione e da altri fattori. Vedi Larghezza di banda della rete.

Serie di macchine A2

Per utilizzare le GPU NVIDIA A100 su Google Cloud, devi eseguire il deployment di una macchina A2 ottimizzata per l'acceleratore. Ogni tipo di macchina A2 ha un numero fisso di GPU, vCPU e dimensioni della memoria.

Le serie di macchine A2 sono disponibili in due tipi:

  • A2 Ultra: questi tipi di macchine hanno GPU A100 da 80 GB (nvidia-a100-80gb) e dischi SSD locali collegati.
  • A2 Standard: a questi tipi di macchine sono collegate GPU A100 da 40 GB (nvidia-tesla-a100).

A2 Ultra

Tipo di macchina Conteggio GPU Memoria GPU* (GB HBM2e) Conteggio vCPU Memoria VM (GB) SSD locale collegata (GiB) Larghezza di banda massima della rete (Gbps)
a2-ultragpu-1g 1 80 12 170 375 24
a2-ultragpu-2g 2 160 24 340 750 32
a2-ultragpu-4g 4 320 48 680 1500 50
a2-ultragpu-8g 8 640 96 1360 3000 100

A2 Standard

Tipo di macchina Conteggio GPU Memoria GPU* (GB HBM2) Conteggio vCPU Memoria VM (GB) SSD locale supportato Larghezza di banda massima della rete (Gbps)
a2-highgpu-1g 1 40 12 85 24
a2-highgpu-2g 2 80 24 170 32
a2-highgpu-4g 4 160 48 340 50
a2-highgpu-8g 8 320 96 680 100
a2-megagpu-16g 16 640 96 1360 100

*La memoria GPU è la memoria disponibile su un dispositivo GPU che può essere utilizzata per lo stoccaggio temporaneo dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei carichi di lavoro con uso intensivo di grafica.

Serie di macchine G2

Per utilizzare le GPU NVIDIA L4 (nvidia-l4 o nvidia-l4-vws), devi implementare una macchina G2 ottimizzata per l'acceleratore.

A ogni tipo di macchina G2 è collegato un numero fisso di GPU NVIDIA L4 e vCPU. Ogni tipo di macchina G2 ha anche una memoria predefinita e un'intervallo di memoria personalizzato. L'intervallo di memoria personalizzato definisce la quantità di memoria che puoi allocare alla VM per ciascun tipo di macchina. Puoi specificare la memoria personalizzata durante la creazione della VM.

Tipo di macchina Conteggio GPU Memoria GPU* (GB GDDR6) Conteggio vCPU Memoria VM predefinita (GB) Intervallo di memoria VM personalizzato (GB) SSD locale massima supportata (GiB) Larghezza di banda massima della rete (Gbps)
g2-standard-4 1 24 4 16 Da 16 a 32 375 10
g2-standard-8 1 24 8 32 Da 32 a 54 375 16
g2-standard-12 1 24 12 48 Da 48 a 54 375 16
g2-standard-16 1 24 16 64 Da 54 a 64 375 32
g2-standard-24 2 48 24 96 Da 96 a 108 750 32
g2-standard-32 1 24 32 128 Da 96 a 128 375 32
g2-standard-48 4 96 48 192 Da 192 a 216 1500 50
g2-standard-96 8 192 96 384 Da 384 a 432 3000 100

*La memoria GPU è la memoria disponibile su un dispositivo GPU che può essere utilizzata per lo stoccaggio temporaneo dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei carichi di lavoro con uso intensivo di grafica.

Serie di macchine N1

Puoi collegare i seguenti modelli di GPU a un tipo di macchina N1, con l'eccezione del tipo di macchina N1 con core condivisi.

Le VM N1 con un numero inferiore di GPU sono limitate a un numero massimo di vCPU. In generale, un numero maggiore di GPU consente di creare istanze VM con un numero maggiore di vCPU e memoria.

GPU N1+T4

Puoi collegare GPU NVIDIA T4 alle VM N1 per uso generale con le seguenti configurazioni VM.

Tipo di acceleratore Conteggio GPU Memoria GPU* (GB GDDR6) Conteggio vCPU Memoria VM (GB) SSD locale supportato
nvidia-tesla-t4 o
nvidia-tesla-t4-vws
1 16 Da 1 a 48 Da 1 a 312
2 32 Da 1 a 48 Da 1 a 312
4 64 Da 1 a 96 Da 1 a 624

*La memoria GPU è la memoria disponibile su un dispositivo GPU che può essere utilizzata per lo stoccaggio temporaneo dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei carichi di lavoro con uso intensivo di grafica.

GPU N1+P4

Puoi collegare GPU NVIDIA P4 alle VM N1 per uso generale con le seguenti configurazioni VM.

Tipo di acceleratore Conteggio GPU Memoria GPU* (GB GDDR5) Conteggio vCPU Memoria VM (GB) SSD locale supportata
nvidia-tesla-p4 o
nvidia-tesla-p4-vws
1 8 Da 1 a 24 Da 1 a 156
2 16 Da 1 a 48 Da 1 a 312
4 32 Da 1 a 96 Da 1 a 624

*La memoria GPU è la memoria disponibile su un dispositivo GPU che può essere utilizzata per lo stoccaggio temporaneo dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei carichi di lavoro con uso intensivo di grafica.

Per le VM con GPU NVIDIA P4 collegate, i dischi SSD locali sono supportati solo nelle zone us-central1-c e northamerica-northeast1-b.

GPU N1+V100

Puoi collegare GPU NVIDIA V100 alle VM N1 per uso generale con le seguenti configurazioni VM.

Tipo di acceleratore Conteggio GPU Memoria GPU* (GB HBM2) Conteggio vCPU Memoria VM (GB) SSD locale supportata
nvidia-tesla-v100 1 16 Da 1 a 12 Da 1 a 78
2 32 Da 1 a 24 Da 1 a 156
4 64 Da 1 a 48 Da 1 a 312
8 128 Da 1 a 96 Da 1 a 624

*La memoria GPU è la memoria disponibile su un dispositivo GPU che può essere utilizzata per lo stoccaggio temporaneo dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei carichi di lavoro con uso intensivo di grafica.
Per le VM con GPU NVIDIA V100 collegate, i dischi SSD locali non sono supportati in us-east1-c.

GPU N1+P100

Puoi collegare GPU NVIDIA P100 alle VM N1 per uso generale con le seguenti configurazioni VM.

Per alcune GPU NVIDIA P100, la CPU e la memoria massime disponibili per alcune configurazioni dipendono dalla zona in cui è in esecuzione la risorsa GPU.

Tipo di acceleratore Conteggio GPU Memoria GPU* (GB HBM2) Conteggio vCPU Memoria VM (GB) SSD locale supportato
nvidia-tesla-p100 o
nvidia-tesla-p100-vws
1 16 Da 1 a 16 Da 1 a 104
2 32 Da 1 a 32 Da 1 a 208
4 64

Da 1 a 64
(us-east1-c, europe-west1-d, europe-west1-b)

Da 1 a 96
(tutte le zone P100)

Da 1 a 208
(us-east1-c, europe-west1-d, europe-west1-b)

Da 1 a 624
(tutte le zone P100)

*La memoria GPU è la memoria disponibile su un dispositivo GPU che può essere utilizzata per lo stoccaggio temporaneo dei dati. È separata dalla memoria della VM ed è progettata specificamente per gestire le richieste di larghezza di banda più elevate dei carichi di lavoro con uso intensivo di grafica.

Workstation virtuali (vWS) NVIDIA RTX per i carichi di lavoro grafici

Se hai carichi di lavoro ad alta intensità di grafica, come la visualizzazione 3D, puoi creare workstation virtuali che utilizzano le workstation virtuali (vWS) NVIDIA RTX (precedentemente note come NVIDIA GRID). Quando crei una workstation virtuale, alla VM viene aggiunta automaticamente una licenza per workstation virtuale (vWS) NVIDIA RTX.

Per informazioni sui prezzi delle workstation virtuali, consulta la pagina dei prezzi delle GPU.

Per i carichi di lavoro grafici, sono disponibili i seguenti modelli di workstation virtuale (vWS) NVIDIA RTX:

  • Serie di macchine G2: per i tipi di macchine G2 puoi attivare le workstation virtuali (vWS) NVIDIA L4: nvidia-l4-vws

  • Serie di macchine N1: per i tipi di macchine N1, puoi attivare le seguenti workstation virtuali:

    • Workstation virtuali NVIDIA T4: nvidia-tesla-t4-vws
    • Virtual Workstation NVIDIA P100: nvidia-tesla-p100-vws
    • Virtual Workstation NVIDIA P4: nvidia-tesla-p4-vws

Grafico di confronto generale

La seguente tabella descrive le dimensioni della memoria GPU, la disponibilità delle funzionalità e i tipi di carichi di lavoro ideali dei diversi modelli di GPU disponibili su Compute Engine.

Modello GPU Memoria GPU Interconnessione Supporto della workstation virtuale (vWS) NVIDIA RTX Ideale per
H100 80GB 80 GB HBM3 a 3,35 TB/s NVLink Full Mesh a 900 GBps Modelli di grandi dimensioni con enormi tabelle di dati per addestramento ML, inferenza, HPC, BERT, DLRM
A100 80 GB HBM2e da 80 GB a 1,9 TB/s NVLink Full Mesh a 600 GB/s Modelli di grandi dimensioni con enormi tabelle di dati per addestramento ML, inferenza, HPC, BERT, DLRM
A100 40 GB HBM2 da 40 GB a 1,6 TB/s NVLink Full Mesh a 600 GB/s Addestramento ML, inferenza, HPC
L4 24 GB GDDR6 a 300 GB/s N/D Intepretazione ML, addestramento, workstation di visualizzazione remota, transcodifica video, HPC
T4 16 GB GDDR6 a 320 GB/s N/D Interruzione ML, addestramento, workstation di visualizzazione remota, transcodifica video
V100 HBM2 da 16 GB a 900 GB/s Anello NVLink a 300 GBps Addestramento ML, inferenza, HPC
P4 8 GB GDDR5 a 192 GB/s N/D Workstation di visualizzazione remota, inferenza ML e transcodifica video
P100 HBM2 da 16 GB a 732 GB/s N/D Addestramento ML, inferenza, HPC, workstation di visualizzazione remota

Per confrontare i prezzi delle GPU per i diversi modelli e regioni disponibili su Compute Engine, consulta Prezzi delle GPU.

Grafico di confronto del rendimento

La tabella seguente descrive le specifiche di prestazioni dei diversi modelli di GPU disponibili su Compute Engine.

Prestazioni di calcolo

Modello GPU FP64 FP32 FP16 INT8
H100 80GB 34 TFLOPS 67 TFLOPS
A100 80 GB 9,7 TFLOPS 19,5 TFLOPS
A100 40 GB 9,7 TFLOPS 19,5 TFLOPS
L4 0,5 TFLOPS* 30,3 TFLOPS
T4 0,25 TFLOPS* 8,1 TFLOPS
V100 7,8 TFLOPS 15,7 TFLOPS
P4 0,2 TFLOPS* 5,5 TFLOPS 22 TOPS
P100 4,7 TFLOPS 9,3 TFLOPS 18,7 TFLOPS

*Per consentire il corretto funzionamento del codice FP64, nell'architettura delle GPU T4, L4 e P4 è incluso un numero ridotto di unità hardware FP64.
TeraOperations per secondo.

Prestazioni del core tensor

Modello GPU FP64 TF32 FP16/FP32 a precisione mista INT8 INT4 FP8
H100 80GB 67 TFLOPS 989 TFLOPS 1979 TFLOPS*, † 3958 TOPS 3958 TFLOPS
A100 80 GB 19,5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
A100 40 GB 19,5 TFLOPS 156 TFLOPS 312 TFLOPS* 624 TOPS 1248 TOPS
L4 120 TFLOPS 242 TFLOPS*, † 485 TOPS 485 TFLOPS
T4 65 TFLOPS 130 TOPS 260 TOPS
V100 125 TFLOPS
P4
P100

*Per l'addestramento con precisione mista, le GPU NVIDIA H100, A100 e L4 supportano anche il tipo di dati bfloat16.
Per le GPU H100 e L4 è supportata la sparsità strutturale, che puoi utilizzare per raddoppiare il valore delle prestazioni. I valori mostrati sono con sparsity. Le specifiche sono dimezzate senza la presenza di dati sparsi.

Passaggi successivi