Configurazione delle risorse di calcolo per la previsione

Vertex AI alloca i nodi per gestire le previsioni online e batch. Quando esegui il deployment di un modello con addestramento personalizzato o di un modello AutoML in un Endpoint per fornire previsioni online o quando puoi richiedere previsioni batch, puoi personalizzare il tipo di macchina virtuale utilizzato dal servizio di previsione su questi nodi. Se vuoi, puoi configurare i nodi di previsione in modo che utilizzino le GPU.

I tipi di macchine si differenziano per diversi aspetti:

  • Numero di CPU virtuali (vCPU) per nodo
  • Quantità di memoria per nodo
  • Prezzi

Se selezioni un tipo di macchina con più risorse di calcolo, puoi generare predizioni con una latenza inferiore o gestire più richieste di previsione contemporaneamente.

Gestisci costi e disponibilità

Per aiutarti a gestire i costi o a garantire la disponibilità delle risorse VM, Vertex AI offre quanto segue:

  • Per assicurarti che le risorse VM siano disponibili quando i job di previsione ne hanno bisogno, puoi utilizzare le prenotazioni Compute Engine. Le prenotazioni offrono un un alto livello di garanzia nell'ottenimento di capacità per Compute Engine Google Cloud. Per ulteriori informazioni, consulta la sezione Utilizzare le prenotazioni con la previsione.

  • Per ridurre il costo di esecuzione dei job di previsione, puoi utilizzare le VM spot. Le VM spot sono macchine virtuali (VM) che rappresentano una capacità in eccesso di Compute Engine. Le VM spot hanno sconti significativi, Compute Engine potrebbe arrestarsi o eliminare Trova le VM per recuperare la capacità in qualsiasi momento. Per ulteriori informazioni, vedi Utilizza le VM spot con la previsione.

Dove specificare le risorse di calcolo

Previsione online

Se vuoi utilizzare un modello con addestramento personalizzato o un modello tabulare AutoML devi specificare un tipo di macchina quando esegui il deployment dell'Model risorsa come DeployedModel a Endpoint. Per altri tipi di modelli AutoML, Vertex AI configura automaticamente i tipi di macchine.

Specifica il tipo di macchina (e, facoltativamente, la configurazione GPU) nella dedicatedResources.machineSpec del tuo DeployedModel.

Scopri come eseguire il deployment di ciascun tipo di modello:

Previsione batch

Se vuoi ottenere previsioni batch da un modello con addestramento personalizzato o da un modello tabulare AutoML, devi specificare un tipo di macchina quando crei una risorsaBatchPredictionJob. Specifica il tipo di macchina (e, facoltativamente, la configurazione della GPU) nel campo dedicatedResources.machineSpec di BatchPredictionJob.

Tipi di macchina

La tabella seguente mette a confronto i tipi di macchine disponibili per fornire previsioni da modelli con addestramento personalizzato e modelli tabulari AutoML:

Serie E2

Nome vCPU Memoria (GB)
e2-standard-2 2 8
e2-standard-4 4 16
e2-standard-8 8 32
e2-standard-16 16 64
e2-standard-32 32 128
e2-highmem-2 2 16
e2-highmem-4 4 32
e2-highmem-8 8 64
e2-highmem-16 16 128
e2-highcpu-2 2 2
e2-highcpu-4 4 4
e2-highcpu-8 8 8
e2-highcpu-16 16 16
e2-highcpu-32 32 32

Serie N1

Nome vCPU Memoria (GB)
n1-standard-2 2 7,5
n1-standard-4 4 15
n1-standard-8 8 30
n1-standard-16 16 60
n1-standard-32 32 120
n1-highmem-2 2 13
n1-highmem-4 4 26
n1-highmem-8 8 52
n1-highmem-16 16 104
n1-highmem-32 32 208
n1-highcpu-4 4 3,6
n1-highcpu-8 8 7.2
n1-highcpu-16 16 14,4
n1-highcpu-32 32 28,8

Serie N2

Nome vCPU Memoria (GB)
n2-standard-2 2 8
n2-standard-4 4 16
n2-standard-8 8 32
n2-standard-16 16 64
n2-standard-32 32 128
n2-standard-48 48 192
n2-standard-64 64 256
n2-standard-80 80 320
n2-standard-96 96 384
n2-standard-128 128 512
n2-highmem-2 2 16
n2-highmem-4 4 32
n2-highmem-8 8 64
n2-highmem-16 16 128
n2-highmem-32 32 256
n2-highmem-48 48 384
n2-highmem-64 64 512
n2-highmem-80 80 640
n2-highmem-96 96 768
n2-highmem-128 128 864
n2-highcpu-2 2 2
n2-highcpu-4 4 4
n2-highcpu-8 8 8
n2-highcpu-16 16 16
n2-highcpu-32 32 32
n2-highcpu-48 48 48
n2-highcpu-64 64 64
n2-highcpu-80 80 80
n2-highcpu-96 96 96

Serie N2D

Nome vCPU Memoria (GB)
n2d-standard-2 2 8
n2d-standard-4 4 16
n2d-standard-8 8 32
n2d-standard-16 16 64
n2d-standard-32 32 128
n2d-standard-48 48 192
n2d-standard-64 64 256
n2d-standard-80 80 320
n2d-standard-96 96 384
n2d-standard-128 128 512
n2d-standard-224 224 896
n2d-highmem-2 2 16
n2d-highmem-4 4 32
n2d-highmem-8 8 64
n2d-highmem-16 16 128
n2d-highmem-32 32 256
n2d-highmem-48 48 384
n2d-highmem-64 64 512
n2d-highmem-80 80 640
n2d-highmem-96 96 768
n2d-highcpu-2 2 2
n2d-highcpu-4 4 4
n2d-highcpu-8 8 8
n2d-highcpu-16 16 16
n2d-highcpu-32 32 32
n2d-highcpu-48 48 48
n2d-highcpu-64 64 64
n2d-highcpu-80 80 80
n2d-highcpu-96 96 96
n2d-highcpu-128 128 128
n2d-highcpu-224 224 224

Serie C2

Nome vCPU Memoria (GB)
c2-standard-4 4 16
c2-standard-8 8 32
c2-standard-16 16 64
c2-standard-30 30 120
c2-standard-60 60 240

Serie C2D

Nome vCPU Memoria (GB)
c2d-standard-2 2 8
c2d-standard-4 4 16
c2d-standard-8 8 32
c2d-standard-16 16 64
c2d-standard-32 32 128
c2d-standard-56 56 224
c2d-standard-112 112 448
c2d-highcpu-2 2 4
c2d-highcpu-4 4 8
c2d-highcpu-8 8 16
c2d-highcpu-16 16 32
c2d-highcpu-32 32 64
c2d-highcpu-56 56 112
c2d-highcpu-112 112 224
c2d-highmem-2 2 16
c2d-highmem-4 4 32
c2d-highmem-8 8 64
c2d-highmem-16 16 128
c2d-highmem-32 32 256
c2d-highmem-56 56 448
c2d-highmem-112 112 896

Serie C3

Nome vCPU Memoria (GB)
c3-highcpu-4 4 8
c3-highcpu-8 8 16
c3-highcpu-22 22 44
c3-highcpu-44 44 88
c3-highcpu-88 88 176
c3-highcpu-176 176 352

Serie A2

Nome vCPU Memoria (GB) GPU (NVIDIA A100)
a2-highgpu-1g 12 85 1 (A100 40GB)
a2-highgpu-2g 24 170 2 (A100 40GB)
a2-highgpu-4g 48 340 4 (A100 40GB)
a2-highgpu-8g 96 680 8 (A100 40GB)
a2-megagpu-16g 96 1360 16 (A100 40GB)
a2-ultragpu-1g 12 170 1 (A100 80GB)
a2-ultragpu-2g 24 340 2 (A100 80GB)
a2-ultragpu-4g 48 680 4 (A100 80GB)
a2-ultragpu-8g 96 1360 8 (A100 80GB)

Serie A3

Nome vCPU Memoria (GB) GPU (NVIDIA H100)
a3-highgpu-8g 208 1872 8 (H100 80 GB)

Serie G2

Nome vCPU Memoria (GB) GPU (NVIDIA L4)
g2-standard-4 4 16 1
g2-standard-8 8 32 1
g2-standard-12 12 48 1
g2-standard-16 16 64 1
g2-standard-24 24 96 2
g2-standard-32 32 128 1
g2-standard-48 48 192 4
g2-standard-96 96 384 8

Scopri di più sui prezzi per ogni tipo di macchina. Scopri di più sulle specifiche dettagliate di questi tipi di macchina nella documentazione di Compute Engine di classificazione.

Trova il tipo di macchina ideale

Previsione online

Per trovare il tipo di macchina ideale per il tuo caso d'uso, ti consigliamo di caricare il modello su più tipi di macchina e di misurare caratteristiche come latenza, costo, contemporaneità e velocità effettiva.

Un modo per farlo è eseguire questo notebook su più tipi di macchine e confrontare i risultati per trovare quello più adatto alle tue esigenze.

Vertex AI riserva circa 1 vCPU su ogni replica per l'esecuzione dei processi di sistema. Ciò significa che l'esecuzione del blocco note su una singola sarebbe paragonabile a un tipo di macchina bi-core per la distribuzione per le previsioni.

Quando valuti i costi di previsione, ricorda che, anche se le macchine più grandi costano di più, possono ridurre il costo complessivo perché sono necessarie meno repliche per gestire lo stesso carico di lavoro. Questo è particolarmente evidente per le GPU, che tendono a costare in più all'ora, ma possono offrire una latenza minore e un costo complessivo inferiore.

Previsione batch

Per ulteriori informazioni, consulta Scegliere il tipo di macchina e il numero di repliche.

Acceleratori GPU facoltativi

Alcune configurazioni, ad esempio la serie A2. e la serie G2, hanno un un numero fisso di GPU integrate.

Altre configurazioni, come la serie N1, ti consentono di aggiungere facoltativamente GPU per accelerare ogni nodo di previsione.

Per aggiungere acceleratori GPU facoltativi, devi tenere conto di diversi requisiti:

  • Puoi utilizzare le GPU solo quando la risorsa Model si basa su un modello salvato di TensorFlow o quando utilizzi un contenitore personalizzato progettato per sfruttare le GPU. Non puoi utilizzare GPU per scikit-learn o modelli XGBoost.
  • La disponibilità di ogni tipo di GPU varia in base alla regione utilizzata per il modello. Scopri quali tipi di GPU sono disponibili nelle varie regioni.
  • Puoi utilizzare un solo tipo di GPU per la risorsa DeployedModel oppure BatchPredictionJob e ci sono Limitazioni al numero di GPU che puoi aggiungere in base al tipo di macchina che stai utilizzando. La tabella seguente descrive queste limitazioni.

La tabella seguente mostra le GPU facoltative disponibili online e il numero di GPU di ciascun tipo che puoi utilizzare Tipo di macchina Compute Engine:

Numeri validi di GPU per ogni tipo di macchina
Tipo di macchina NVIDIA Tesla P100 NVIDIA Tesla V100 NVIDIA Tesla P4 NVIDIA Tesla T4
n1-standard-2 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-standard-4 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-standard-8 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-standard-16 1, 2, 4 2, 4, 8 1, 2, 4 1, 2, 4
n1-standard-32 2, 4 4, 8 2, 4 2, 4
n1-highmem-2 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highmem-4 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highmem-8 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highmem-16 1, 2, 4 2, 4, 8 1, 2, 4 1, 2, 4
n1-highmem-32 2, 4 4, 8 2, 4 2, 4
n1-highcpu-2 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highcpu-4 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highcpu-8 1, 2, 4 1, 2, 4, 8 1, 2, 4 1, 2, 4
n1-highcpu-16 1, 2, 4 2, 4, 8 1, 2, 4 1, 2, 4
n1-highcpu-32 2, 4 4, 8 2, 4 2, 4

Le GPU facoltative comportano costi aggiuntivi.

Passaggi successivi