Informazioni sulle opzioni di consumo degli acceleratori per i carichi di lavoro AI/ML in GKE


Questa pagina descrive le tecniche disponibili che puoi utilizzare per ottenere acceleratori di calcolo, come GPU o TPU, in base ai requisiti dei tuoi carichi di lavoro di AI/ML. Queste tecniche sono chiamate opzioni di consumo degli acceleratori in GKE. Comprendere le diverse opzioni di consumo ti aiuta a ottimizzare l'utilizzo delle risorse per evitare di sottoutilizzarle, aumentare la probabilità di ottenere risorse e bilanciare costi e prestazioni.

Questa pagina è destinata agli amministratori e agli operatori della piattaforma che collaborano con gli ingegneri di machine learning (ML) per ottenere le risorse necessarie per eseguire il deployment dei carichi di lavoro AI/ML.

Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti di Google Cloud , consulta Ruoli e attività comuni degli utenti GKE.

Informazioni sulle opzioni di consumo

Puoi scegliere tra le seguenti opzioni per utilizzare gli acceleratori su GKE:

  • On demand:utilizzi TPU o GPU su GKE senza organizzare la capacità in anticipo. Prima di richiedere risorse, devi disporre di una quota on demand sufficiente per il tipo e la quantità specifici di acceleratori. On demand è l'opzione di consumo più flessibile, ma non è garantita la disponibilità di risorse on demand sufficienti a soddisfare la tua richiesta.
  • Prenotazioni:prenoti le risorse per un periodo di tempo prestabilito. Una prenotazione può essere una delle seguenti:
    • Prenotazioni future:prenoti risorse per periodi di tempo in genere più lunghi per un momento specifico nel futuro. Hai accesso esclusivo alle risorse riservate per quel periodo di tempo. Le prenotazioni future richiedono il coinvolgimento di un Technical Account Manager (TAM). Per ulteriori informazioni, consulta le indicazioni relative a TPU e GPU.
    • Prenotazioni future fino a 90 giorni (in modalità calendario): richiedi la capacità per un periodo di tempo specificato, con un consulente del calendario che suggerisce le date disponibili. Le prenotazioni future fino a 90 giorni (in modalità calendario) offrono maggiore flessibilità per durate più brevi e ricerca self-service della capacità. Per saperne di più, vedi Richieste di prenotazione futura in modalità calendario.
    • Prenotazioni on demand:puoi richiedere il provisioning di una prenotazione on demand non appena la capacità è disponibile, in modo simile all'opzione on demand. Mentre la prenotazione è attiva, paghi le risorse indipendentemente dal fatto che le utilizzi o meno.
  • Avvio flessibile:prenoti risorse allocate in modo denso per carichi di lavoro di breve durata senza una prenotazione. Richiedi un numero specifico di GPU o TPU e Compute Engine esegue il provisioning quando la capacità diventa disponibile. Le GPU o le TPU vengono eseguite ininterrottamente per un massimo di sette giorni. Per maggiori informazioni, consulta Provisioning con inizio flessibile.
  • Spot:esegui il provisioning delle VM spot, che ti consentono di ottenere sconti significativi, ma le VM spot possono essere prerilasciate in qualsiasi momento, con un avviso di 30 secondi. Per ulteriori informazioni, consulta VM spot.

Informazioni sulla quota di acceleratori in GKE

Le quote e i limiti di sistema limitano l'utilizzo delle risorse Google Cloud per supportare la disponibilità delle risorse per tutti gli utenti Google Cloud . Le quote hanno valori predefiniti, ma in genere puoi richiedere aggiustamenti. I limiti di sistema sono valori fissi che non possono essere modificati. Per impostazione predefinita, i progetti in genere non includono quote significative per gli acceleratori. Devi richiedere e ricevere l'approvazione della quota per tipi e regioni di acceleratori specifici.

Quando gestisci le quote necessarie per i tuoi carichi di lavoro, tieni presente le seguenti caratteristiche:

  • Devi richiedere la quota necessaria per ogni opzione di consumo. Per identificare la quota richiesta per ogni opzione di consumo, consulta i parametri "Quota" corrispondenti elencati nella tabella Scegli un'opzione di consumo. Se la quota non è sufficiente, i tentativi di creare cluster, pool di nodi o di eseguire il deployment di workload che richiedono acceleratori non riusciranno e verrà visualizzato un errore Quota exceeded.

  • Devi richiedere una quota quando utilizzi classi di computing personalizzate in Autopilot. I nodi di cui è stato eseguito il provisioning per soddisfare i requisiti della classe di calcolo consumano comunque la quota del progetto per gli acceleratori specificati.

  • Google Cloud Gli account di prova gratuita hanno limitazioni alla richiesta di aumenti di quota per risorse di alto valore come GPU e TPU. Per accedere alla quota dell'acceleratore, esegui l'upgrade a un account a pagamento.

Per controllare e richiedere la quota, vai alla pagina Quote nella console Google Cloud . Puoi filtrare le quote degli acceleratori e richiedere aumenti.

Scegliere un'opzione di consumo

Utilizza le seguenti considerazioni per scegliere l'opzione di consumo migliore per il tuo carico di lavoro AI/ML:

  • Tipo di workload:considera il tipo di workload che vuoi implementare. I requisiti di GKE variano a seconda che tu stia eseguendo un workload di addestramento o di inferenza:
    • Addestramento:richiede risorse ad alte prestazioni con una memoria significativa. I carichi di lavoro di addestramento in genere hanno un ciclo di vita ben definito. Questi carichi di lavoro sono in genere più facili da pianificare perché sono meno soggetti a picchi improvvisi di consumo di risorse.
    • Inferenza: in genere richiede acceleratori ottimizzati per scalabilità e costi inferiori. I workload di inferenza possono richiedere una quantità significativa di memoria dell'acceleratore durante picchi improvvisi di consumo di risorse.
  • Durata in base alla fase di implementazione:considera il tuo obiettivo commerciale se stai eseguendo una proof of concept (POC), una valutazione della piattaforma, lo sviluppo o il test di un'applicazione, la produzione o l'ottimizzazione.
  • Tempo di provisioning:determina se il tuo carico di lavoro richiede l'esecuzione immediata o se può essere eseguito in futuro. Se l'esecuzione futura è possibile, determina la flessibilità dell'ora di inizio.
  • Equilibrio tra costi e prestazioni:valuta i requisiti di prestazioni del carico di lavoro e i vincoli di budget per selezionare l'acceleratore più conveniente. Valuta il compromesso tra il costo degli acceleratori e le loro caratteristiche di rendimento. Tieni presente che i nuovi acceleratori potrebbero migliorare i rapporti costo-prestazioni.

Utilizza la tabella seguente per scegliere un'opzione di consumo:

Tipo di workload Tempo di provisioning Durata Opzione di consumo consigliata
  • Workload di lunga durata e su larga scala, come i modelli di base di preaddestramento o l'inferenza multihost.
  • Workload di produzione.
Immediato (con prenotazione approvata) A lungo termine (per prenotazione)

Se vuoi utilizzare una GPU (ad eccezione di A4X, A4 o A3 Ultra) o una TPU, utilizza le prenotazioni on demand:

  • Costo:ti viene addebitato l'intero periodo di prenotazione.
  • Quota:la quota viene aumentata automaticamente prima della consegna della capacità.

Se vuoi utilizzare gli acceleratori G2, A2, A3 High o A3 Mega, utilizza le prenotazioni future:

  • Costo:ti viene addebitato l'intero periodo di prenotazione.
  • Quota:la quota viene aumentata automaticamente prima della consegna della capacità.
  • Workload distribuiti di breve durata come l'ottimizzazione del modello, le simulazioni o l'inferenza batch, in cui è necessario un orario di inizio preciso.
  • Carichi di lavoro per test di valutazione, benchmarking o ottimizzazione della piattaforma.
Immediato (con prenotazione approvata) Fino a 90 giorni

Prenotazioni future fino a 90 giorni (in modalità calendario):

  • Costo: scontato (fino al 53%). Ti viene addebitato il periodo di prenotazione.
  • Quota:non viene addebitata alcuna quota.
  • Acceleratori supportati:A4, A3 Ultra, TPU v5e, TPU v5p, TPU Trillium.
  • Workload batch come l'addestramento di modelli di piccole dimensioni, il perfezionamento o l'inferenza scalabile in cui l'ora di inizio è flessibile.
  • Carichi di lavoro per POC o test di integrazione.
On demand (soggetto a disponibilità) Fino a 7 giorni per assegnazione

Modalità di provisioning con avvio flessibile:

  • Costo: scontato (fino al 53%). Paghi in base al consumo.
  • Viene addebitata la quota:quota GPU preemptible o quota TPU preemptible.
  • Acceleratori supportati:tutte le famiglie di GPU tranne A4X. Tutte le versioni di TPU.
  • Carichi di lavoro a tolleranza di errore a priorità più bassa come CI/CD, analisi dei dati o computing ad alte prestazioni (HPC).
  • Workload altamente interrompibili.
On demand (soggetto a disponibilità) Variabile, può essere interrotto con un avviso di 30 secondi

VM spot:

  • Costo:con sconti elevati (60-91%). Paghi in base al consumo.
  • Viene addebitata la quota:quota GPU preemptible o quota TPU preemptible.
  • Acceleratori supportati:tutte le famiglie di GPU tranne A4X. Tutte le versioni di TPU.
  • Carichi di lavoro generici che richiedono l'esecuzione immediata.
Immediata (soggetto a disponibilità) Nessun limite

On demand (GPU o TPU):

  • Costo:paghi a consumo.
  • Quota: viene addebitata la quota on demand per GPU o TPU.
  • Acceleratori supportati:tutte le famiglie di GPU tranne A4X, A4 o A3 Ultra. Tutte le versioni di TPU.

Passaggi successivi