Vertex AI alloca i nodi per gestire le previsioni online e batch.
Quando esegui il deployment di un modello con addestramento personalizzato o di un modello AutoML in una risorsa Endpoint
per fornire previsioni online o quando richiedi previsioni batch, puoi personalizzare il tipo di macchina virtuale utilizzato dal servizio di previsione per questi nodi. Facoltativamente, puoi configurare nodi di previsione per l'utilizzo delle GPU.
I tipi di macchina differiscono per alcuni aspetti:
- Numero di CPU virtuali (vCPU) per nodo
- Quantità di memoria per nodo
- Prezzi
Selezionando un tipo di macchina con più risorse di calcolo, puoi fornire previsioni con minore latenza o gestire più richieste di previsione contemporaneamente.
Dove specificare le risorse di computing
Previsione online
Se vuoi utilizzare un modello con addestramento personalizzato o un modello tabulare AutoML per fornire previsioni online, devi specificare un tipo di macchina quando esegui il deployment della risorsa Model
come DeployedModel
in un Endpoint
. Per altri tipi di modelli AutoML, Vertex AI configura automaticamente i tipi di macchina.
Specifica il tipo di macchina (e, facoltativamente, la configurazione GPU) nel campo dedicatedResources.machineSpec
di DeployedModel
.
Scopri come eseguire il deployment di ogni tipo di modello:
- Esegui il deployment di un modello tabulare AutoML nella console Google Cloud
- Esegui il deployment di un modello con addestramento personalizzato nella console Google Cloud
- Eseguire il deployment di un modello con addestramento personalizzato utilizzando le librerie client
Previsione batch
Se vuoi ottenere previsioni batch da un modello con addestramento personalizzato o da un modello tabulare AutoML, devi specificare un tipo di macchina quando crei una risorsa BatchPredictionJob
. Specifica il
tipo di macchina (e, facoltativamente, la configurazione GPU) nel
campo dedicatedResources.machineSpec
di
BatchPredictionJob
.
Tipi di macchina
La tabella seguente confronta i tipi di macchina disponibili per fornire previsioni da modelli con addestramento personalizzato e modelli tabulari AutoML:
Serie E2
Nome | vCPUs | Memoria (GB) |
---|---|---|
e2-standard-2 |
2 | 8 |
e2-standard-4 |
4 | 16 |
e2-standard-8 |
8 | 32 |
e2-standard-16 |
16 | 64 |
e2-standard-32 |
32 | 128 |
e2-highmem-2 |
2 | 16 |
e2-highmem-4 |
4 | 32 |
e2-highmem-8 |
8 | 64 |
e2-highmem-16 |
16 | 128 |
e2-highcpu-2 |
2 | 2 |
e2-highcpu-4 |
4 | 4 |
e2-highcpu-8 |
8 | 8 |
e2-highcpu-16 |
16 | 16 |
e2-highcpu-32 |
32 | 32 |
Serie N1
Nome | vCPUs | Memoria (GB) |
---|---|---|
n1-standard-2 |
2 | 7,5 |
n1-standard-4 |
4 | 15 |
n1-standard-8 |
8 | 30 |
n1-standard-16 |
16 | 60 |
n1-standard-32 |
32 | 120 |
n1-highmem-2 |
2 | 13 |
n1-highmem-4 |
4 | 26 |
n1-highmem-8 |
8 | 52 |
n1-highmem-16 |
16 | 104 |
n1-highmem-32 |
32 | 208 |
n1-highcpu-4 |
4 | 3,6 |
n1-highcpu-8 |
8 | 7,2 |
n1-highcpu-16 |
16 | 14,4 |
n1-highcpu-32 |
32 | 28,8 |
Serie N2
Nome | vCPUs | Memoria (GB) |
---|---|---|
n2-standard-2 |
2 | 8 |
n2-standard-4 |
4 | 16 |
n2-standard-8 |
8 | 32 |
n2-standard-16 |
16 | 64 |
n2-standard-32 |
32 | 128 |
n2-standard-48 |
48 | 192 |
n2-standard-64 |
64 | 256 |
n2-standard-80 |
80 | 320 |
n2-standard-96 |
96 | 384 |
n2-standard-128 |
128 | 512 |
n2-highmem-2 |
2 | 16 |
n2-highmem-4 |
4 | 32 |
n2-highmem-8 |
8 | 64 |
n2-highmem-16 |
16 | 128 |
n2-highmem-32 |
32 | 256 |
n2-highmem-48 |
48 | 384 |
n2-highmem-64 |
64 | 512 |
n2-highmem-80 |
80 | 640 |
n2-highmem-96 |
96 | 768 |
n2-highmem-128 |
128 | 864 |
n2-highcpu-2 |
2 | 2 |
n2-highcpu-4 |
4 | 4 |
n2-highcpu-8 |
8 | 8 |
n2-highcpu-16 |
16 | 16 |
n2-highcpu-32 |
32 | 32 |
n2-highcpu-48 |
48 | 48 |
n2-highcpu-64 |
64 | 64 |
n2-highcpu-80 |
80 | 80 |
n2-highcpu-96 |
96 | 96 |
Serie N2D
Nome | vCPUs | Memoria (GB) |
---|---|---|
n2d-standard-2 |
2 | 8 |
n2d-standard-4 |
4 | 16 |
n2d-standard-8 |
8 | 32 |
n2d-standard-16 |
16 | 64 |
n2d-standard-32 |
32 | 128 |
n2d-standard-48 |
48 | 192 |
n2d-standard-64 |
64 | 256 |
n2d-standard-80 |
80 | 320 |
n2d-standard-96 |
96 | 384 |
n2d-standard-128 |
128 | 512 |
n2d-standard-224 |
224 | 896 |
n2d-highmem-2 |
2 | 16 |
n2d-highmem-4 |
4 | 32 |
n2d-highmem-8 |
8 | 64 |
n2d-highmem-16 |
16 | 128 |
n2d-highmem-32 |
32 | 256 |
n2d-highmem-48 |
48 | 384 |
n2d-highmem-64 |
64 | 512 |
n2d-highmem-80 |
80 | 640 |
n2d-highmem-96 |
96 | 768 |
n2d-highcpu-2 |
2 | 2 |
n2d-highcpu-4 |
4 | 4 |
n2d-highcpu-8 |
8 | 8 |
n2d-highcpu-16 |
16 | 16 |
n2d-highcpu-32 |
32 | 32 |
n2d-highcpu-48 |
48 | 48 |
n2d-highcpu-64 |
64 | 64 |
n2d-highcpu-80 |
80 | 80 |
n2d-highcpu-96 |
96 | 96 |
n2d-highcpu-128 |
128 | 128 |
n2d-highcpu-224 |
224 | 224 |
Serie C2
Nome | vCPUs | Memoria (GB) |
---|---|---|
c2-standard-4 |
4 | 16 |
c2-standard-8 |
8 | 32 |
c2-standard-16 |
16 | 64 |
c2-standard-30 |
30 | 120 |
c2-standard-60 |
60 | 240 |
Serie C2D
Nome | vCPUs | Memoria (GB) |
---|---|---|
c2d-standard-2 |
2 | 8 |
c2d-standard-4 |
4 | 16 |
c2d-standard-8 |
8 | 32 |
c2d-standard-16 |
16 | 64 |
c2d-standard-32 |
32 | 128 |
c2d-standard-56 |
56 | 224 |
c2d-standard-112 |
112 | 448 |
c2d-highcpu-2 |
2 | 4 |
c2d-highcpu-4 |
4 | 8 |
c2d-highcpu-8 |
8 | 16 |
c2d-highcpu-16 |
16 | 32 |
c2d-highcpu-32 |
32 | 64 |
c2d-highcpu-56 |
56 | 112 |
c2d-highcpu-112 |
112 | 224 |
c2d-highmem-2 |
2 | 16 |
c2d-highmem-4 |
4 | 32 |
c2d-highmem-8 |
8 | 64 |
c2d-highmem-16 |
16 | 128 |
c2d-highmem-32 |
32 | 256 |
c2d-highmem-56 |
56 | 448 |
c2d-highmem-112 |
112 | 896 |
Serie C3
Nome | vCPUs | Memoria (GB) |
---|---|---|
c3-highcpu-4 |
4 | 8 |
c3-highcpu-8 |
8 | 16 |
c3-highcpu-22 |
22 | 44 |
c3-highcpu-44 |
44 | 88 |
c3-highcpu-88 |
88 | 176 |
c3-highcpu-176 |
176 | 352 |
Serie A2
Nome | vCPUs | Memoria (GB) | GPU (NVIDIA A100) |
---|---|---|---|
a2-highgpu-1g |
12 | 85 | 1 (A100 da 40 GB) |
a2-highgpu-2g |
24 | 170 | 2 (A100 da 40 GB) |
a2-highgpu-4g |
48 | 340 | 4 (A100 da 40 GB) |
a2-highgpu-8g |
96 | 680 | 8 (A100 da 40 GB) |
a2-megagpu-16g |
96 | 1360 | 16 (A100 da 40 GB) |
a2-ultragpu-1g |
12 | 170 | 1 (A100 da 80 GB) |
a2-ultragpu-2g |
24 | 340 | 2 (A100 da 80 GB) |
a2-ultragpu-4g |
48 | 680 | 4 (A100 da 80 GB) |
a2-ultragpu-8g |
96 | 1360 | 8 (A100 da 80 GB) |
Serie A3
Nome | vCPUs | Memoria (GB) | GPU (NVIDIA H100) |
---|---|---|---|
a3-highgpu-8g |
208 | 1872 | 8 (H100 da 80 GB) |
Serie G2
Nome | vCPUs | Memoria (GB) | GPU (NVIDIA L4) |
---|---|---|---|
g2-standard-4 |
4 | 16 | 1 |
g2-standard-8 |
8 | 32 | 1 |
g2-standard-12 |
12 | 48 | 1 |
g2-standard-16 |
16 | 64 | 1 |
g2-standard-24 |
24 | 96 | 2 |
g2-standard-32 |
32 | 128 | 1 |
g2-standard-48 |
48 | 192 | 4 |
g2-standard-96 |
96 | 384 | 8 |
Scopri di più sui prezzi per ciascun tipo di macchina. Scopri di più sulle specifiche dettagliate di questi tipi di macchina nella documentazione di Compute Engine sui tipi di macchina.
Trova il tipo di macchina ideale
Previsione online
Per trovare il tipo di macchina ideale per il tuo caso d'uso, ti consigliamo di caricare il modello su più tipi di macchine e misurare caratteristiche come latenza, costo, contemporaneità e velocità effettiva.
Un modo per farlo è eseguire questo blocco note su più tipi di macchine e confrontare i risultati per trovare quello più adatto alle tue esigenze.
Vertex AI riserva circa 1 vCPU su ogni replica per l'esecuzione dei processi di sistema. Ciò significa che l'esecuzione del blocco note su un tipo di macchina con core singolo sarebbe paragonabile all'utilizzo di un tipo di macchina a 2 core per fornire previsioni.
Quando valuti i costi di previsione, ricorda che, anche se le macchine più grandi hanno un costo maggiore, possono ridurre i costi complessivi perché sono necessarie meno repliche per gestire lo stesso carico di lavoro. Questo è particolarmente evidente per le GPU, che tendono a costare di più all'ora, ma possono fornire una latenza minore e costi complessivi inferiori.
Previsione batch
Per saperne di più, vedi Scegliere il tipo di macchina e il conteggio delle repliche.
Acceleratori GPU facoltativi
Alcune configurazioni, ad esempio la serie A2 e la serie G2, hanno un numero fisso di GPU integrate.
Altre configurazioni, come la serie N1, consentono di aggiungere facoltativamente GPU per accelerare ogni nodo di previsione.
Per aggiungere acceleratori GPU facoltativi, devi tenere conto di diversi requisiti:
- Puoi utilizzare le GPU solo se la risorsa
Model
si basa su TensorFlow saveModel o quando utilizzi un container personalizzato progettato per sfruttare al meglio le GPU. Non puoi utilizzare GPU per i modelli scikit-learn o XGBoost. - La disponibilità di ogni tipo di GPU varia in base all'area geografica utilizzata per il modello. Scopri quali tipi di GPU sono disponibili e in quali regioni.
- Puoi utilizzare un solo tipo di GPU per la tua risorsa
DeployedModel
oBatchPredictionJob
e il numero di GPU che puoi aggiungere è limitato a seconda del tipo di macchina utilizzato. La tabella seguente descrive questi limiti.
La seguente tabella mostra le GPU facoltative disponibili per la previsione online e il numero di GPU di ciascun tipo che puoi utilizzare con ogni tipo di macchina Compute Engine:
Numeri validi di GPU per ciascun tipo di macchina | |||||
---|---|---|---|---|---|
Tipo di macchina | NVIDIA Tesla K80 | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA Tesla P4 | NVIDIA Tesla T4 |
n1-standard-2 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-standard-4 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-standard-8 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-standard-16 |
2, 4, 8 | 1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-standard-32 |
4, 8 | 2, 4 | 4, 8 | 2, 4 | 2, 4 |
n1-highmem-2 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-highmem-4 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-highmem-8 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-highmem-16 |
2, 4, 8 | 1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-highmem-32 |
4, 8 | 2, 4 | 4, 8 | 2, 4 | 2, 4 |
n1-highcpu-2 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-highcpu-4 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-highcpu-8 |
1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-highcpu-16 |
2, 4, 8 | 1, 2, 4 | 2, 4, 8 | 1, 2, 4 | 1, 2, 4 |
n1-highcpu-32 |
4, 8 | 2, 4 | 4, 8 | 2, 4 | 2, 4 |
Le GPU facoltative comportano costi aggiuntivi.
Passaggi successivi
- Esegui il deployment di un modello tabulare AutoML nella console Google Cloud
- Esegui il deployment di un modello con addestramento personalizzato nella console Google Cloud
- Eseguire il deployment di un modello con addestramento personalizzato utilizzando le librerie client
- Ottieni previsioni batch