Informazioni sulle GPU su Google Cloud


Google Cloud si impegna a fornire un'infrastruttura di intelligenza artificiale (AI) di livello mondiale per potenziare i carichi di lavoro accelerati da GPU più impegnativi in un'ampia gamma di segmenti. Puoi utilizzare le GPU su Google Cloud per eseguire applicazioni di AI, machine learning (ML), scientifiche, di analisi, di ingegneria, per consumatori ed enterprise.

Grazie alla nostra partnership con NVIDIA, Google Cloud offre le GPU più recenti e al contempo ottimizza lo stack software con un'ampia gamma di opzioni di archiviazione e networking. Per un elenco completo delle GPU disponibili, consulta Piattaforme GPU.

Le sezioni seguenti illustrano i vantaggi delle GPU su Google Cloud.

VM accelerate da GPU

Su Google Cloud, puoi accedere alle GPU e eseguirne il provisioning nel modo più adatto alle tue esigenze. È disponibile una famiglia di macchine ottimizzate per l'acceleratore specializzata, con GPU pre-collegate e funzionalità di rete ideali per massimizzare le prestazioni. Sono disponibili nelle serie di macchine A3, A2 e G2.

Più opzioni di provisioning

Puoi eseguire il provisioning dei cluster utilizzando la famiglia di macchine ottimizzata per gli acceleratori con uno dei seguenti prodotti open source o Google Cloud.

Vertex AI

Vertex AI è una piattaforma di machine learning (ML) completamente gestita che puoi utilizzare per addestrare ed eseguire il deployment di modelli ML e applicazioni AI. Nelle applicazioni Vertex AI, puoi utilizzare le VM con accelerazione GPU per migliorare le prestazioni nei seguenti modi:

GKE e Slurm

Le piattaforme di orchestrazione su larga scala, come GKE, sono ideali per il provisioning di grandi cluster che possono essere utilizzati per l'addestramento e l'ottimizzazione di modelli di ML su larga scala. I modelli di ML su larga scala sono quelli che utilizzano grandi quantità di dati.

Le seguenti piattaforme di orchestrazione sono disponibili su Google Cloud.

  • Google Kubernetes Engine (GKE): è un servizio che puoi utilizzare per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando l'infrastruttura di Google.

  • Slurm: è uno strumento di gestione dei cluster e di pianificazione dei job open source. Su Google Cloud puoi eseguire il deployment di cluster Slurm utilizzando Cluster Toolkit.

Esegui addestramento e ottimizzazione di modelli su larga scala

Per l'addestramento o la messa a punto di modelli su larga scala, ti consigliamo di utilizzare un cluster di macchine A3 Mega (a3-megagpu-8g) e di eseguire il deployment con uno scheduler come GKE o Slurm.

Opzione di deployment

Guide al deployment

Slurm

Eseguire il deployment di un cluster Mega Slurm A3

GKE

Esegui il deployment di un cluster A3 Mega con GKE

Esegui l'addestramento e l'ottimizzazione dei modelli tradizionali

Per l'addestramento e l'ottimizzazione dei modelli tradizionali, consigliamo di utilizzare A3 High con 8 GPU (a3-highgpu-8g) ed eseguire il deployment con uno scheduler come GKE o Slurm. Puoi anche utilizzare un tipo di macchina A2 o G2.

Opzione di deployment

Guide al deployment

Workload

GKE

Esegui il deployment di pool di nodi Autopilot o standard

Interruzione: pubblica i modelli su GKE

Addestramento: addestra un modello su GKE

Slurm

Eseguire l'ottimizzazione di Llama 2 su un cluster Slurm G2

VM singole

Creare VM A3 High (con GPUDirect-TCPX abilitato)

Compute Engine

Puoi anche creare e gestire singole VM o cluster più piccoli di VM con GPU collegate su Compute Engine. Questo metodo viene utilizzato principalmente per eseguire carichi di lavoro con uso intensivo di risorse grafiche, carichi di lavoro di simulazione o addestramento su piccola scala. Per questi carichi di lavoro consigliamo G2, A3 High di piccole dimensioni (quelle con 1, 2 o 4 GPU collegate) e tipi di macchine N1 con GPU T4, P4, P100 e V100.

Opzione di deployment

Guide al deployment

Creare una VM per la pubblicazione e i carichi di lavoro a singolo nodo

Creare una VM A3 Edge o A3 High

Crea gruppi di istanze gestite (MIG)

Questa opzione utilizza Dynamic Workload Scheduler (DWS) per eseguire il provisioning delle VM.

Crea un gruppo di istanze gestite con VM GPU

Creare VM collettivamente

Creare un gruppo di VM GPU collettivamente

Crea una singola VM

Crea una singola VM GPU (VM standard o spot)

Creare workstation virtuali

Creare una workstation virtuale con accelerazione GPU

Cloud Run

Puoi configurare le GPU per il tuo servizio Cloud Run. Le GPU sono ideali per eseguire carichi di lavoro di inferenza AI utilizzando modelli linguistici di grandi dimensioni su Cloud Run.

In Cloud Run, consulta queste risorse per eseguire carichi di lavoro di AI su GPU: