Per accelerare carichi di lavoro specifici su Compute Engine, puoi eseguire il deployment di una VM ottimizzata per l'acceleratore con GPU collegate oppure collegare le GPU a una VM N1 per uso generale.
Questo documento descrive le funzionalità e le limitazioni delle GPU in esecuzione su Compute Engine.
GPU e serie di macchine
Le GPU sono supportate per le macchine per uso generico N1 e le serie di macchine ottimizzate per l'acceleratore (A3, A2 e G2). Per le VM che utilizzano tipi di macchine N1, colleghi la GPU alla VM durante o dopo la creazione. Per le VM che utilizzano tipi di macchine A3, A2 o G2, le GPU vengono collegate automaticamente quando crei la VM. Le GPU non possono essere utilizzate con altre serie di macchine.
Serie di macchine ottimizzate per l'acceleratore
A ogni tipo di macchina ottimizzato per l'acceleratore è collegato un modello specifico di GPU NVIDIA.
- Per i tipi di macchina A3 ottimizzati per l'acceleratore, sono collegate GPU NVIDIA H100 da 80 GB. Sono disponibili nelle seguenti opzioni:
- A3 Mega: a questi tipi di macchine sono collegate GPU H100 da 80 GB
- A3 High: a questi tipi di macchine sono collegate GPU H100 da 80 GB
- A3 Edge: a questi tipi di macchine sono collegate GPU H100 da 80 GB
- Per i tipi di macchine A2 ottimizzati per l'acceleratore, sono collegate GPU NVIDIA A100. Sono disponibili nelle seguenti opzioni:
- A2 Ultra: a questi tipi di macchine sono collegate GPU A100 da 80 GB
- A2 Standard: a questi tipi di macchine sono collegate GPU A100 da 40 GB
- Per i tipi di macchina G2 ottimizzati per l'acceleratore, sono collegate GPU NVIDIA L4.
Per ulteriori informazioni, consulta Serie di macchine ottimizzate per gli acceleratori.
Serie di macchine per uso generico N1
Per tutti gli altri tipi di GPU, puoi utilizzare la maggior parte dei tipi di macchine N1, ad eccezione del tipo N1 con core condivisi (f1-micro
e g1-small
).
Per questa serie di macchine, puoi utilizzare tipi di macchine predefiniti o personalizzati.
GPU su VM spot
Puoi aggiungere GPU alle tue VM Spot a prezzi spot inferiori per le GPU. Le GPU collegate alle VM Spot funzionano come le normali GPU, ma rimangono attive solo per la durata della VM. Le VM spot con GPU seguono la stessa procedura di preemption di tutte le VM spot.
Valuta la possibilità di richiedere una quota Preemptible GPU
dedicata da utilizzare per le GPU sulle VM spot. Per ulteriori informazioni, consulta
Quota per le VM spot.
Durante gli eventi di manutenzione, le VM spot con GPU vengono prelevate per impostazione predefinita e non possono essere riavviate automaticamente. Se vuoi ricreare le VM dopo che sono state prerilasciate, utilizza un gruppo di istanze gestite. I gruppi di istanze gestite ricreano le istanze VM se le risorse vCPU, memoria e GPU sono disponibili.
Se vuoi ricevere un avviso prima che le VM vengano prerilasciate o se vuoi configurarle in modo che si riavviino automaticamente dopo un evento di manutenzione, utilizza le VM standard con una GPU. Per le VM standard con GPU, Compute Engine fornisce un preavviso di un'ora prima del prerilascio.
Compute Engine non ti addebita le GPU se le VM vengono prerilasciate nel primo minuto dopo l'inizio dell'esecuzione.
Per scoprire come creare VM spot con GPU collegate, leggi Creare una VM con GPU collegate e Creare VM spot.
GPU su VM con tempi di esecuzione predefiniti
Le risorse per le VM che utilizzano il modello di provisioning standard predefinito (VM standard) in genere non possono utilizzare le quote di allocazione prerilasciabili, destinate ai carichi di lavoro temporanei e in genere più disponibili. Se il tuo progetto non ha una quota preassegnata e non hai mai richiesto una quota preassegnata, tutte le VM del progetto consumano quote di allocazione standard.
Tuttavia, una volta richiesta la quota di allocazione preassegnata, le VM standard che soddisfano tutti i seguenti criteri possono consumare solo la quota di allocazione preassegnata.
- La VM ha GPU collegate. Può essere una VM N1 con GPU collegate o una VM ottimizzata per l'acceleratore.
- La VM è configurata per essere eliminata automaticamente dopo un tempo di esecuzione predefinito di massimo 7 giorni tramite uno dei seguenti metodi:
- Utilizza il campo
maxRunDuration
oterminationTime
. Per ulteriori informazioni, consulta Limitare il tempo di esecuzione di una VM o Limitare il tempo di esecuzione delle VM in un gruppo di istanze gestite. - Utilizzando il campo
requestedRunDuration
, disponibile solo per i gruppi di istanze gestite (MIG). Per ulteriori informazioni, consulta la pagina Informazioni sulle richieste di ridimensionamento in un gruppo di istanze gestite.
- Utilizza il campo
- La VM non è autorizzata a utilizzare le prenotazioni. Per ulteriori informazioni, consulta Creare VM senza utilizzare prenotazioni.
Se utilizzi la quota di allocazione preassegnata per questi carichi di lavoro, puoi usufruire sia dei vantaggi del tempo di esecuzione ininterrotto delle VM standard sia della maggiore disponibilità della quota di allocazione preassegnata.
Indipendentemente dalla quota utilizzata, le VM standard non sono idonee per i prezzi delle VM spot e non sono soggette a preemption.
Per ulteriori informazioni, consulta Quote prelevabili.
GPU e VM riservate
Non puoi collegare GPU alle istanze VM riservate. Per maggiori informazioni su Confidential VM, consulta la panoramica di Confidential VM.
GPU e archiviazione a blocchi
Quando crei una VM su una piattaforma GPU, puoi aggiungere allo spazio di archiviazione a blocchi della VM uno spazio di archiviazione permanente o temporaneo. Per archiviare dati non temporanei, utilizza lo archiviazione a blocchi permanente come Hyperdisk ML o Disco permanente in quanto i dischi sono indipendenti dal ciclo di vita della VM. I dati nello spazio di archiviazione permanente possono essere conservati anche dopo l'eliminazione della VM.
Per l'archiviazione temporanea o le cache, utilizza l'archiviazione a blocchi temporanea aggiungendo dischi SSD locali quando crei la VM.
Archiviazione a blocchi permanente con volumi Persistent Disk e Hyperdisk
Puoi collegare volumi ML di Persistent Disk e Hyperdisk a VM con GPU abilitata.
Per i carichi di lavoro di addestramento e pubblicazione del machine learning, Google consiglia di utilizzare i volumi Hyperdisk per l'ML, che offrono un'elevata velocità in uscita e tempi di caricamento dei dati più brevi. Questo rende Hyperdisk ML un'opzione più economicamente vantaggiosa per i carichi di lavoro ML, in quanto offre tempi di inattività della GPU inferiori.
I volumi Hyperdisk ML forniscono il supporto del multi-attacco di sola lettura, quindi puoi collegare lo stesso disco a più VM, dando a ciascuna VM l'accesso agli stessi dati.
Per ulteriori informazioni sui tipi di dischi supportati per le serie di macchine che supportano le GPU, consulta le pagine delle serie di macchine N1 e ottimizzate per l'acceleratore.
Dischi SSD locali
I dischi SSD locali forniscono uno spazio di archiviazione temporaneo e veloce per la memorizzazione nella cache, l'elaborazione dei dati o altri dati temporanei. I dischi SSD locali sono un tipo di archiviazione rapido perché sono collegati fisicamente al server che ospita la VM. Sono temporanei perché i dati vengono persi se la VM si riavvia.
Non dovresti archiviare dati con requisiti di persistenza elevati sui dischi SSD locali. Per archiviare dati non temporanei, utilizza l'archiviazione persistente.
Se interrompi manualmente una VM con una GPU, puoi conservare i dati dell'SSD locale, con alcune limitazioni. Per ulteriori dettagli, consulta la documentazione relativa agli SSD locali.
Per il supporto regionale dell'SSD locale con tipi di GPU, consulta Disponibilità dell'SSD locale per regioni e zone GPU.
GPU e manutenzione dell'host
Le VM con GPU collegate vengono sempre arrestate quando Compute Engine esegue eventi di manutenzione sulle VM. Se alla VM sono collegati dischi SSD locali, i dati degli SSD locali andranno persi dopo l'arresto della VM.
Per informazioni sulla gestione degli eventi di manutenzione, consulta Gestione degli eventi di manutenzione degli host GPU.
Prezzi delle GPU
La maggior parte delle VM con una GPU collegata riceve sconti per utilizzo sostenuto simili a quelli delle vCPU. Quando selezioni una GPU per una workstation virtuale, alla VM viene aggiunta una licenza NVIDIA RTX Virtual Workstation.
Per i prezzi orari e mensili delle GPU, consulta la pagina dei prezzi delle GPU.
Prenotazione di GPU con sconti per impegno di utilizzo
Per prenotare risorse GPU in una zona specifica, consulta la pagina relativa alle prenotazioni di risorse zonali di Compute Engine.
Per ricevere sconti per impegno di utilizzo per le GPU in una zona specifica, devi acquistare impegni basati sulle risorse per le GPU e collegare anche prenotazioni che specificano le GPU corrispondenti ai tuoi impegni. Per ulteriori informazioni, consulta Collegare le prenotazioni agli impegni basati sulle risorse.
Restrizioni e limitazioni della GPU
Per le VM con GPU collegate, si applicano le seguenti limitazioni:
Le GPU sono supportate solo con i tipi di macchina N1 per uso generico o ottimizzati per l'acceleratore (A3, A2 e G2).
Per proteggere gli utenti e i sistemi Compute Engine, i nuovi progetti hanno una quota GPU globale che limita il numero totale di GPU che puoi creare in qualsiasi zona supportata. Quando richiedi una quota GPU, devi richiederne una per i modelli di GPU che vuoi creare in ciascuna area geografica e una quota globale aggiuntiva per il numero totale di GPU di tutti i tipi in tutte le zone.
Le VM con una o più GPU hanno un numero massimo di vCPU per ogni GPU aggiunta alla VM. Per visualizzare gli intervalli di vCPU e memoria disponibili per le diverse configurazioni GPU, consulta l'elenco delle GPU.
Le GPU richiedono driver di dispositivo per funzionare correttamente. Le GPU NVIDIA in esecuzione su Compute Engine devono utilizzare una versione minima del driver. Per ulteriori informazioni sulle versioni dei driver, consulta le versioni dei driver NVIDIA richieste.
Le VM con un modello di GPU collegato specifico sono coperte dall'SLA di Compute Engine solo se il modello di GPU collegato è di disponibilità generale ed è supportato in più di una zona nella stessa regione. Lo SLA di Compute Engine non copre i modelli di GPU nelle seguenti zone:
- NVIDIA H100 da 80 GB:
asia-south1-c
australia-southeast1-c
europe-west2-b
europe-west1-b
europe-west2-b
europe-west3-a
europe-west4-b
europe-west8-c
europe-west9-c
europe-west12-b
us-east5-a
us-west4-a
- NVIDIA L4:
asia-northeast1-b
northamerica-northeast2-a
- NVIDIA A100 da 80 GB:
asia-southeast1-c
us-east4-c
us-east5-b
- NVIDIA A100 40GB:
us-east1-b
us-west1-b
us-west3-b
us-west4-b
- NVIDIA T4:
europe-west3-b
southamerica-east1-c
us-west3-b
- NVIDIA V100:
asia-east1-c
us-east1-c
- NVIDIA P100:
australia-southeast1-c
europe-west4-a
- NVIDIA H100 da 80 GB:
Compute Engine supporta l'esecuzione di un utente contemporaneamente per GPU.
Passaggi successivi
- Scopri come creare VM con GPU collegate.
- Scopri come aggiungere o rimuovere GPU.