Informazioni sulle GPU su Google Cloud

Google Cloud si concentra sulla fornitura di un'infrastruttura di intelligenza artificiale (AI) di altissimo livello per supportare i carichi di lavoro con accelerazione GPU più impegnativi in una vasta gamma di segmenti. Puoi utilizzare le GPU su Google Cloud per eseguire applicazioni di AI, machine learning (ML), scientifiche, di analisi, progettazione, consumer e aziendali.

Grazie alla nostra partnership con NVIDIA, Google Cloud fornisce le GPU più recenti ottimizzando lo stack software con un'ampia gamma di opzioni di archiviazione e networking. Per un elenco completo delle GPU disponibili, consulta il documento sulle piattaforme GPU.

Le seguenti sezioni descrivono i vantaggi delle GPU su Google Cloud.

VM con accelerazione GPU

Su Google Cloud, puoi accedere alle GPU ed eseguirne il provisioning nel modo più adatto alle tue esigenze. È disponibile una famiglia di macchine ottimizzate per l'acceleratore, con GPU precollegate e funzionalità di networking ideali per massimizzare le prestazioni. Questi modelli sono disponibili nelle serie di macchine A3, A2 e G2.

Più opzioni di provisioning

Puoi eseguire il provisioning dei cluster utilizzando la famiglia di macchine ottimizzate per l'acceleratore con uno dei seguenti prodotti open source o Google Cloud.

Vertex AI

Vertex AI è una piattaforma di machine learning (ML) completamente gestita, che puoi utilizzare per addestrare ed eseguire il deployment di modelli ML e applicazioni IA. Nelle applicazioni Vertex AI, puoi utilizzare le VM con accelerazione GPU per migliorare le prestazioni nei seguenti modi:

GKE e Slurm

Le piattaforme di orchestrazione su larga scala, come GKE, sono ideali per il provisioning di cluster di grandi dimensioni che possono essere utilizzati per l'addestramento e il perfezionamento di modelli ML su larga scala. I modelli ML su larga scala sono quelli che utilizzano grandi quantità di dati.

Su Google Cloud sono disponibili le seguenti piattaforme di orchestrazione.

  • Google Kubernetes Engine (GKE): è un servizio che puoi utilizzare per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando l'infrastruttura di Google.

  • Slurm: è uno strumento open source per la gestione dei cluster e la pianificazione dei job. Su Google Cloud puoi eseguire il deployment di cluster Slurm utilizzando Cloud HPC Toolkit.

Esegui l'addestramento e l'ottimizzazione di modelli su larga scala

Per l'addestramento o l'ottimizzazione di modelli su larga scala, consigliamo di utilizzare un cluster di macchine a3-megagpu-8g ed eseguire il deployment con uno scheduler come GKE o Slurm.

Opzione di deployment

Guide al deployment

Slurm

Esegui il deployment di un cluster A3 Mega Slurm

GKE

Esegui il deployment di un cluster A3 Mega con GKE

Esegui l'addestramento e l'ottimizzazione del modello mainstream

Per l'addestramento e l'ottimizzazione dei modelli mainstream, consigliamo di utilizzare lo standard a3-highgpu-8g o qualsiasi tipo di macchina A2 o G2 e di eseguire il deployment con uno scheduler come GKE o Slurm.

Opzione di deployment

Guide al deployment

Carichi di lavoro

GKE

Esegui il deployment di pool di nodi autopilot o standard

Inferenza: Modelli di servizio su GKE

Addestramento: Addestra un modello su GKE

Slurm

Esegui l'ottimizzazione di Lama-2 su un cluster G2 Slurm

Compute Engine

Puoi anche creare e gestire singole VM o cluster più piccoli di VM con GPU collegate su Compute Engine. Questo metodo è ideale per eseguire carichi di lavoro ad alta intensità di grafica.

Opzione di deployment

Guide al deployment

Creazione di gruppi di istanze gestite (MIG)

Crea un gruppo di istanze gestite con VM GPU

Crea VM in blocco

Crea un gruppo di VM GPU in blocco

Crea una singola VM

Crea una singola VM GPU

Crea workstation virtuali

Crea una workstation virtuale con accelerazione GPU