Informazioni sulle GPU su Google Cloud


L'obiettivo di Google Cloud è fornire un'intelligenza artificiale (AI) di altissimo livello per alimentare i carichi di lavoro con accelerazione GPU più impegnativi in un un'ampia gamma di segmenti. Puoi utilizzare le GPU su Google Cloud per eseguire applicazioni di IA, machine learning (ML), scientifiche, di analisi, di ingegneria, per consumatori ed enterprise.

Grazie alla nostra partnership con NVIDIA, Google Cloud fornisce le GPU più recenti, ottimizzando lo stack software con una vasta gamma di opzioni di archiviazione e networking le opzioni di CPU e memoria disponibili. Per un elenco completo delle GPU disponibili, consulta Piattaforme GPU.

Le sezioni seguenti illustrano i vantaggi delle GPU su Google Cloud.

VM con accelerazione GPU

Su Google Cloud, puoi accedere alle GPU e eseguirne il provisioning nel modo più adatto alle tue esigenze. È disponibile una famiglia di macchine ottimizzate per l'acceleratore, con GPU precollegate e funzionalità di networking ideali per massimizzare le prestazioni. Sono disponibili nelle serie di macchine A3, A2 e G2.

Più opzioni di provisioning

Puoi eseguire il provisioning dei cluster utilizzando la famiglia di macchine ottimizzata per gli acceleratori con uno dei seguenti prodotti open source o Google Cloud.

Vertex AI

Vertex AI è una piattaforma di machine learning (ML) completamente gestita puoi usare per addestrare ed eseguire il deployment di modelli ML e applicazioni di AI. In Vertex AI puoi utilizzare le VM con accelerazione GPU per migliorare le prestazioni nel nei seguenti modi:

GKE e Slurm

Le piattaforme di orchestrazione su larga scala, come GKE, sono ideali per il provisioning di grandi cluster che possono essere utilizzati per l'addestramento e la messa a punto di modelli di ML su larga scala. I modelli ML su larga scala sono quelli che utilizzano grandi quantità di dati.

Su Google Cloud sono disponibili le seguenti piattaforme di orchestrazione.

  • Google Kubernetes Engine (GKE): è un servizio che puoi per eseguire il deployment e gestire applicazioni containerizzate su larga scala utilizzando dell'infrastruttura.

  • Slurm: è uno strumento di gestione dei cluster e di pianificazione dei job open source. Su Google Cloud puoi eseguire il deployment dei cluster Slurm utilizzando Toolkit per i cluster.

Esegui l'addestramento e il perfezionamento di modelli su larga scala

Per l'addestramento o la messa a punto di modelli su larga scala, ti consigliamo di utilizzare un cluster di macchine a3-megagpu-8g e di eseguire il deployment con uno scheduler come GKE o Slurm.

Opzione di deployment

Guide al deployment

Slurm

Eseguire il deployment di un cluster Mega Slurm A3

GKE

Esegui il deployment di un cluster A3 Mega con GKE

Esegui l'addestramento e il perfezionamento dei modelli tradizionali

Per l'addestramento e la messa a punto dei modelli tradizionali, consigliamo di utilizzare a3-highgpu-8g standard o qualsiasi tipo di macchina A2 o G2 e di eseguire il deployment con uno schedulatore come GKE o Slurm.

Opzione di deployment

Guide al deployment

Workload

GKE

Esegui il deployment di pool di nodi autopilot o standard

Interruzione: pubblica i modelli su GKE

Addestramento: addestra un modello su GKE

Slurm

Eseguire l'ottimizzazione di Llama 2 su un cluster Slurm G2

Compute Engine

Puoi anche creare e gestire singole VM o cluster di VM più piccoli con GPU collegate su Compute Engine. Questo metodo è ideale per eseguire ad alta intensità di grafica.

Opzione di deployment

Guide al deployment

Creare gruppi di istanze gestite

Crea un gruppo di istanze gestite con VM GPU

Creare VM collettivamente

Creare un gruppo di VM GPU collettivamente

Crea una singola VM

Creare una VM con una sola GPU

Creare workstation virtuali

Crea una workstation virtuale con accelerazione GPU

Cloud Run

Puoi configurare le GPU per il servizio Cloud Run. Le GPU sono ideali che esegue carichi di lavoro di inferenza AI utilizzando modelli linguistici di grandi dimensioni (LLM) su Cloud Run.

In Cloud Run, consulta queste risorse per eseguire carichi di lavoro di IA su GPU: