Vertex AI alloca nodi per gestire le previsioni online e batch.
Quando esegui il deployment di un modello con addestramento personalizzato o di un modello AutoML in una risorsa Endpoint
per generare previsioni online o quando richiedi previsioni batch, puoi personalizzare il tipo di macchina virtuale utilizzata dal servizio di previsione per questi nodi. Se vuoi, puoi configurare i nodi di previsione in modo che utilizzino le GPU.
I tipi di macchine differiscono in alcuni modi:
- Numero di CPU virtuali (vCPU) per nodo
- Quantità di memoria per nodo
- Prezzi
Se selezioni un tipo di macchina con più risorse di calcolo, puoi generare predizioni con una latenza inferiore o gestire più richieste di previsione contemporaneamente.
Gestire il costo e la disponibilità
Per aiutarti a gestire i costi o garantire la disponibilità delle risorse VM, Vertex AI offre quanto segue:
Per assicurarti che le risorse VM siano disponibili quando i job di previsione ne hanno bisogno, puoi utilizzare le prenotazioni di Compute Engine. Le prenotazioni offrono un alto livello di garanzia per l'ottenimento di capacità per le risorse Compute Engine. Per ulteriori informazioni, consulta la sezione Utilizzare le prenotazioni con la previsione.
Per ridurre il costo di esecuzione dei job di previsione, puoi utilizzare le VM spot. Le VM spot sono istanze di macchine virtuali (VM) che rappresentano la capacità in eccesso di Compute Engine. Le VM spot hanno sconti significativi, ma Compute Engine potrebbe arrestare o eliminare prevedibilmente le VM spot per recuperare la capacità in qualsiasi momento. Per ulteriori informazioni, consulta Utilizzare le VM spot con la previsione.
Dove specificare le risorse di calcolo
Previsione online
Se vuoi utilizzare un modello con addestramento personalizzato o un modello tabulare AutoML per generare predizioni online, devi specificare un tipo di macchina quando esegui il deployment della risorsa Model
come DeployedModel
in un Endpoint
. Per altri tipi di modelli
AutoML, Vertex AI configura automaticamente i tipi di macchine.
Specifica il tipo di macchina (e, facoltativamente, la configurazione della GPU) nel
campo dedicatedResources.machineSpec
di
DeployedModel
.
Scopri come eseguire il deployment di ciascun tipo di modello:
- Eseguire il deployment di un modello tabulare AutoML nella console Google Cloud
- Eseguire il deployment di un modello addestrato in base alle esigenze nella console Google Cloud
- Eseguire il deployment di un modello con addestramento personalizzato utilizzando le librerie client
Previsione batch
Se vuoi ottenere previsioni batch da un modello con addestramento personalizzato o da un modello tabulare AutoML, devi specificare un tipo di macchina quando crei una risorsaBatchPredictionJob
. Specifica il
tipo di macchina (e, facoltativamente, la configurazione della GPU) nel
campo dedicatedResources.machineSpec
di
BatchPredictionJob
.
Tipi di macchina
La tabella seguente mette a confronto i tipi di macchine disponibili per l'invio di previsioni da modelli con addestramento personalizzato e modelli tabulari AutoML:
Serie E2
Nome | vCPU | Memoria (GB) |
---|---|---|
e2-standard-2 |
2 | 8 |
e2-standard-4 |
4 | 16 |
e2-standard-8 |
8 | 32 |
e2-standard-16 |
16 | 64 |
e2-standard-32 |
32 | 128 |
e2-highmem-2 |
2 | 16 |
e2-highmem-4 |
4 | 32 |
e2-highmem-8 |
8 | 64 |
e2-highmem-16 |
16 | 128 |
e2-highcpu-2 |
2 | 2 |
e2-highcpu-4 |
4 | 4 |
e2-highcpu-8 |
8 | 8 |
e2-highcpu-16 |
16 | 16 |
e2-highcpu-32 |
32 | 32 |
Serie N1
Nome | vCPU | Memoria (GB) |
---|---|---|
n1-standard-2 |
2 | 7,5 |
n1-standard-4 |
4 | 15 |
n1-standard-8 |
8 | 30 |
n1-standard-16 |
16 | 60 |
n1-standard-32 |
32 | 120 |
n1-highmem-2 |
2 | 13 |
n1-highmem-4 |
4 | 26 |
n1-highmem-8 |
8 | 52 |
n1-highmem-16 |
16 | 104 |
n1-highmem-32 |
32 | 208 |
n1-highcpu-4 |
4 | 3,6 |
n1-highcpu-8 |
8 | 7.2 |
n1-highcpu-16 |
16 | 14,4 |
n1-highcpu-32 |
32 | 28,8 |
Serie N2
Nome | vCPU | Memoria (GB) |
---|---|---|
n2-standard-2 |
2 | 8 |
n2-standard-4 |
4 | 16 |
n2-standard-8 |
8 | 32 |
n2-standard-16 |
16 | 64 |
n2-standard-32 |
32 | 128 |
n2-standard-48 |
48 | 192 |
n2-standard-64 |
64 | 256 |
n2-standard-80 |
80 | 320 |
n2-standard-96 |
96 | 384 |
n2-standard-128 |
128 | 512 |
n2-highmem-2 |
2 | 16 |
n2-highmem-4 |
4 | 32 |
n2-highmem-8 |
8 | 64 |
n2-highmem-16 |
16 | 128 |
n2-highmem-32 |
32 | 256 |
n2-highmem-48 |
48 | 384 |
n2-highmem-64 |
64 | 512 |
n2-highmem-80 |
80 | 640 |
n2-highmem-96 |
96 | 768 |
n2-highmem-128 |
128 | 864 |
n2-highcpu-2 |
2 | 2 |
n2-highcpu-4 |
4 | 4 |
n2-highcpu-8 |
8 | 8 |
n2-highcpu-16 |
16 | 16 |
n2-highcpu-32 |
32 | 32 |
n2-highcpu-48 |
48 | 48 |
n2-highcpu-64 |
64 | 64 |
n2-highcpu-80 |
80 | 80 |
n2-highcpu-96 |
96 | 96 |
Serie N2D
Nome | vCPU | Memoria (GB) |
---|---|---|
n2d-standard-2 |
2 | 8 |
n2d-standard-4 |
4 | 16 |
n2d-standard-8 |
8 | 32 |
n2d-standard-16 |
16 | 64 |
n2d-standard-32 |
32 | 128 |
n2d-standard-48 |
48 | 192 |
n2d-standard-64 |
64 | 256 |
n2d-standard-80 |
80 | 320 |
n2d-standard-96 |
96 | 384 |
n2d-standard-128 |
128 | 512 |
n2d-standard-224 |
224 | 896 |
n2d-highmem-2 |
2 | 16 |
n2d-highmem-4 |
4 | 32 |
n2d-highmem-8 |
8 | 64 |
n2d-highmem-16 |
16 | 128 |
n2d-highmem-32 |
32 | 256 |
n2d-highmem-48 |
48 | 384 |
n2d-highmem-64 |
64 | 512 |
n2d-highmem-80 |
80 | 640 |
n2d-highmem-96 |
96 | 768 |
n2d-highcpu-2 |
2 | 2 |
n2d-highcpu-4 |
4 | 4 |
n2d-highcpu-8 |
8 | 8 |
n2d-highcpu-16 |
16 | 16 |
n2d-highcpu-32 |
32 | 32 |
n2d-highcpu-48 |
48 | 48 |
n2d-highcpu-64 |
64 | 64 |
n2d-highcpu-80 |
80 | 80 |
n2d-highcpu-96 |
96 | 96 |
n2d-highcpu-128 |
128 | 128 |
n2d-highcpu-224 |
224 | 224 |
Serie C2
Nome | vCPU | Memoria (GB) |
---|---|---|
c2-standard-4 |
4 | 16 |
c2-standard-8 |
8 | 32 |
c2-standard-16 |
16 | 64 |
c2-standard-30 |
30 | 120 |
c2-standard-60 |
60 | 240 |
Serie C2D
Nome | vCPU | Memoria (GB) |
---|---|---|
c2d-standard-2 |
2 | 8 |
c2d-standard-4 |
4 | 16 |
c2d-standard-8 |
8 | 32 |
c2d-standard-16 |
16 | 64 |
c2d-standard-32 |
32 | 128 |
c2d-standard-56 |
56 | 224 |
c2d-standard-112 |
112 | 448 |
c2d-highcpu-2 |
2 | 4 |
c2d-highcpu-4 |
4 | 8 |
c2d-highcpu-8 |
8 | 16 |
c2d-highcpu-16 |
16 | 32 |
c2d-highcpu-32 |
32 | 64 |
c2d-highcpu-56 |
56 | 112 |
c2d-highcpu-112 |
112 | 224 |
c2d-highmem-2 |
2 | 16 |
c2d-highmem-4 |
4 | 32 |
c2d-highmem-8 |
8 | 64 |
c2d-highmem-16 |
16 | 128 |
c2d-highmem-32 |
32 | 256 |
c2d-highmem-56 |
56 | 448 |
c2d-highmem-112 |
112 | 896 |
Serie C3
Nome | vCPU | Memoria (GB) |
---|---|---|
c3-highcpu-4 |
4 | 8 |
c3-highcpu-8 |
8 | 16 |
c3-highcpu-22 |
22 | 44 |
c3-highcpu-44 |
44 | 88 |
c3-highcpu-88 |
88 | 176 |
c3-highcpu-176 |
176 | 352 |
Serie A2
Nome | vCPU | Memoria (GB) | GPU (NVIDIA A100) |
---|---|---|---|
a2-highgpu-1g |
12 | 85 | 1 (A100 40GB) |
a2-highgpu-2g |
24 | 170 | 2 (A100 40GB) |
a2-highgpu-4g |
48 | 340 | 4 (A100 40GB) |
a2-highgpu-8g |
96 | 680 | 8 (A100 40GB) |
a2-megagpu-16g |
96 | 1360 | 16 (A100 40GB) |
a2-ultragpu-1g |
12 | 170 | 1 (A100 80GB) |
a2-ultragpu-2g |
24 | 340 | 2 (A100 80GB) |
a2-ultragpu-4g |
48 | 680 | 4 (A100 80GB) |
a2-ultragpu-8g |
96 | 1360 | 8 (A100 80GB) |
Serie A3
Nome | vCPU | Memoria (GB) | GPU (NVIDIA H100) |
---|---|---|---|
a3-highgpu-8g |
208 | 1872 | 8 (H100 80GB) |
Serie G2
Nome | vCPU | Memoria (GB) | GPU (NVIDIA L4) |
---|---|---|---|
g2-standard-4 |
4 | 16 | 1 |
g2-standard-8 |
8 | 32 | 1 |
g2-standard-12 |
12 | 48 | 1 |
g2-standard-16 |
16 | 64 | 1 |
g2-standard-24 |
24 | 96 | 2 |
g2-standard-32 |
32 | 128 | 1 |
g2-standard-48 |
48 | 192 | 4 |
g2-standard-96 |
96 | 384 | 8 |
Scopri di più sui prezzi per ogni tipo di macchina. Scopri di più sulle specifiche dettagliate di questi tipi di macchine nella documentazione di Compute Engine sui tipi di macchine.
Trovare il tipo di macchina ideale
Previsione online
Per trovare il tipo di macchina ideale per il tuo caso d'uso, ti consigliamo di caricare il modello su più tipi di macchine e di misurare caratteristiche come latenza, costo, concorrenza e throughput.
Un modo per farlo è eseguire questo notebook su più tipi di macchine e confrontare i risultati per trovare quello più adatto alle tue esigenze.
Vertex AI riserva circa 1 vCPU su ogni replica per l'esecuzione dei processi di sistema. Ciò significa che l'esecuzione del notebook su un tipo di macchina con un solo core sarebbe paragonabile all'utilizzo di un tipo di macchina con 2 core per l'invio di previsioni.
Quando valuti i costi di previsione, ricorda che, anche se le macchine più grandi costano di più, possono ridurre il costo complessivo perché sono necessarie meno repliche per gestire lo stesso carico di lavoro. Questo è particolarmente evidente per le GPU, che tendono a costare più di un'ora, ma possono offrire una latenza inferiore e un costo complessivo inferiore.
Previsione batch
Per ulteriori informazioni, consulta Scegliere il tipo di macchina e il numero di repliche.
Acceleratori GPU facoltativi
Alcune configurazioni, come la serie A2 e la serie G2, hanno un numero fisso di GPU integrate.
Altre configurazioni, come la serie N1, ti consentono di aggiungere facoltativamente GPU per accelerare ogni nodo di previsione.
Per aggiungere acceleratori GPU facoltativi, devi tenere conto di diversi requisiti:
- Puoi utilizzare le GPU solo quando la risorsa
Model
si basa su un modello salvato di TensorFlow o quando utilizzi un contenitore personalizzato progettato per sfruttare le GPU. Non puoi utilizzare le GPU per i modelli scikit-learn o XGBoost. - La disponibilità di ogni tipo di GPU varia in base alla regione utilizzata per il modello. Scopri quali tipi di GPU sono disponibili in quali regioni.
- Puoi utilizzare un solo tipo di GPU per la risorsa
DeployedModel
oBatchPredictionJob
e ci sono limitazioni sul numero di GPU che puoi aggiungere a seconda del tipo di macchina in uso. La tabella seguente descrive queste limitazioni.
La tabella seguente mostra le GPU facoltative disponibili per la previsione online e il numero di GPU di ogni tipo che puoi utilizzare con ogni tipo di macchina Compute Engine:
Numeri di GPU validi per ogni tipo di macchina | |||||
---|---|---|---|---|---|
Tipo di macchina | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA Tesla P4 | NVIDIA Tesla T4 | |
n1-standard-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-standard-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 | |
n1-highmem-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highmem-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 | |
n1-highcpu-2 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-4 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-8 |
1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-16 |
1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 | |
n1-highcpu-32 |
2, 4 | 4, 8 | 2, 4 | 2, 4 |
Le GPU facoltative comportano costi aggiuntivi.
Passaggi successivi
- Eseguire il deployment di un modello tabulare AutoML nella console Google Cloud
- Eseguire il deployment di un modello addestrato in base alle esigenze nella console Google Cloud
- Eseguire il deployment di un modello con addestramento personalizzato utilizzando le librerie client
- Generare previsioni batch