Introduzione ai workload AI/ML su GKE

Questa pagina fornisce una panoramica concettuale di Google Kubernetes Engine (GKE) per i workload di AI/ML. GKE è un'implementazione gestita da Google della piattaforma di orchestrazione dei container open source Kubernetes.

Google Kubernetes Engine fornisce una piattaforma scalabile, flessibile ed economicamente vantaggiosa per l'esecuzione di tutti i tuoi carichi di lavoro containerizzati, incluse le applicazioni di intelligenza artificiale e machine learning (AI/ML). Che tu stia addestrando modelli di base di grandi dimensioni, gestendo richieste di inferenza su larga scala o creando una piattaforma di AI completa, GKE offre il controllo e le prestazioni di cui hai bisogno.

Questa pagina è destinata a specialisti di dati e AI, architetti cloud, operatori e sviluppatori che cercano una soluzione Kubernetes gestita, scalabile e automatizzata per eseguire workload di AI/ML. Per scoprire di più sui ruoli comuni, consulta Ruoli utente e attività comuni di GKE.

Inizia a utilizzare i workload AI/ML su GKE

Puoi iniziare a esplorare GKE in pochi minuti utilizzando il livello gratuito di GKE, che ti consente di iniziare a utilizzare Kubernetes senza sostenere costi per la gestione dei cluster.

  1. Inizia nella console Google Cloud

  2. Prova queste guide rapide:
    • Inferenza su GKE: esegui il deployment di un modello linguistico di grandi dimensioni (LLM) di AI su GKE per l'inferenza utilizzando un'architettura predefinita.
    • Addestramento su GKE: esegui il deployment di un modello di addestramento AI su GKE e archivia le previsioni in Cloud Storage.
  3. Leggi Informazioni sulle opzioni di consumo degli acceleratori per i carichi di lavoro AI/ML, che contiene indicazioni e risorse per la pianificazione e l'ottenimento di acceleratori (GPU e TPU) per la tua piattaforma.

Casi d'uso comuni

GKE fornisce una piattaforma unificata in grado di supportare tutti i tuoi carichi di lavoro di AI.

  • Creazione di una piattaforma AI: per i team di piattaforme aziendali, GKE offre la flessibilità di creare una piattaforma standardizzata e multi-tenant che soddisfi diverse esigenze.
  • Servizio online a bassa latenza: per gli sviluppatori che creano applicazioni di AI generativa, GKE con Inference Gateway fornisce il routing e lo scalabilità automatica ottimizzati necessari per offrire un'esperienza utente reattiva controllando al contempo i costi.

Scegliere la piattaforma giusta per il tuo carico di lavoro AI/ML

Google Cloud offre una gamma di prodotti di infrastruttura AI per supportare il tuo percorso di ML, da completamente gestiti a completamente configurabili. La scelta della piattaforma giusta dipende dalle tue esigenze specifiche di controllo, flessibilità e livello di gestione.

Best practice:

Scegli GKE quando hai bisogno di un controllo approfondito, portabilità e della possibilità di creare una piattaforma AI personalizzata e ad alte prestazioni.

  • Controllo e flessibilità dell'infrastruttura: hai bisogno di un elevato grado di controllo sulla tua infrastruttura, devi utilizzare pipeline personalizzate o richiedi personalizzazioni a livello di kernel.
  • Addestramento e inferenza su larga scala: vuoi addestrare modelli molto grandi o pubblicare modelli con latenza minima, utilizzando la scalabilità e le prestazioni elevate di GKE.
  • Efficienza dei costi su larga scala: vuoi dare la priorità all'ottimizzazione dei costi utilizzando l'integrazione di GKE con le VM spot e le VM con avvio flessibile per gestire in modo efficace i costi.
  • Portabilità e standard aperti: vuoi evitare i vincoli al fornitore ed eseguire i tuoi carichi di lavoro ovunque con Kubernetes e hai già competenze Kubernetes esistenti o una strategia multi-cloud.

Puoi anche prendere in considerazione queste alternative:

Google Cloud servizio Ideale per
Vertex AI Una piattaforma end-to-end completamente gestita per accelerare lo sviluppo e scaricare la gestione dell'infrastruttura. Ideale per i team incentrati su MLOps e sul time-to-value rapido. Per saperne di più, guarda Choosing between self-hosted GKE and managed Vertex AI to host AI models.
Cloud Run Una piattaforma serverless per carichi di lavoro di inferenza containerizzati che può scalare a zero. Funziona bene per le applicazioni basate su eventi e per la distribuzione di modelli più piccoli a costi contenuti. Per un confronto approfondito, vedi GKE e Cloud Run.

Come GKE supporta i workload AI/ML

GKE offre una suite di componenti specializzati che semplificano e accelerano ogni fase del ciclo di vita dell'AI/ML, dall'addestramento su larga scala all'inferenza a bassa latenza.

Nel seguente diagramma, GKE si trova all'interno di Google Cloud
       e può utilizzare diverse opzioni di spazio di archiviazione sul cloud (come Cloud Storage FUSE e Managed Lustre) e diverse opzioni di infrastruttura cloud
       (come Cloud TPU e GPU Cloud). GKE funziona anche con software e framework open source per il deep learning (come JAX o TensorFlow), l'orchestrazione ML (come Jupyter o Ray) e l'inferenza LLM (come vLLM o NVIDIA Dynamo).
Figura 1: GKE come piattaforma gestita scalabile per i carichi di lavoro AI/ML.

La tabella seguente riassume le funzionalità di GKE che supportano i tuoi carichi di lavoro di AI/ML o i tuoi obiettivi operativi.

Operazione o workload AI/ML Come GKE ti supporta Funzionalità principali
Inferenza e pubblicazione Ottimizzato per pubblicare modelli di AI in modo elastico, con bassa latenza, throughput elevato ed efficienza dei costi.
  • Flessibilità dell'acceleratore: GKE supporta sia le GPU sia le TPU per l'inferenza.
  • GKE Inference Gateway: un gateway basato su modelli che fornisce routing intelligente e bilanciamento del carico specificamente per i workload di inferenza AI.
  • GKE Inference Quickstart: uno strumento per semplificare l'analisi delle prestazioni e il deployment fornendo un insieme di profili di benchmark per i modelli di AI più diffusi.
  • GKE Autopilot: una modalità operativa di GKE che automatizza le operazioni del cluster e il dimensionamento corretto della capacità, riducendo l'overhead.
Addestramento e messa a punto Fornisce le funzionalità di scalabilità e orchestrazione necessarie per addestrare in modo efficiente modelli molto grandi, riducendo al minimo i costi.
  • Nodi di avvio più veloci: un'ottimizzazione progettata specificamente per i carichi di lavoro GPU che riduce i tempi di avvio dei nodi fino all'80%.
  • Modalità di provisioning con avvio flessibile basata su Dynamic Workload Scheduler: migliora la tua capacità di proteggere gli acceleratori GPU e TPU scarsi per i carichi di lavoro di addestramento di breve durata.
  • Kueue: un sistema di accodamento dei job nativo di Kubernetes che gestisce l'allocazione delle risorse, la pianificazione, la gestione delle quote e la definizione delle priorità per i carichi di lavoro batch.
  • TPU multislice: un'architettura hardware e di rete che consente a più slice TPU di comunicare tra loro tramite la rete del data center (DCN) per ottenere un addestramento su larga scala.
Sviluppo AI/ML unificato Supporto gestito per Ray, un framework open source per scalare le applicazioni Python distribuite.
  • Componente aggiuntivo Ray su GKE: astrae l'infrastruttura Kubernetes, consentendoti di scalare i workload come la pre-elaborazione dei dati su larga scala, l'addestramento distribuito e l'erogazione online con modifiche minime al codice.

Passaggi successivi