Questa pagina descrive le tecniche disponibili che puoi utilizzare per ottenere acceleratori di calcolo, come GPU o TPU, in base ai requisiti dei tuoi carichi di lavoro di AI/ML. Queste tecniche sono chiamate opzioni di consumo degli acceleratori in GKE. Comprendere le diverse opzioni di consumo ti aiuta a ottimizzare l'utilizzo delle risorse per evitare di sottoutilizzarle, aumentare la probabilità di ottenere risorse e bilanciare costi e prestazioni.
Questa pagina è destinata agli amministratori e agli operatori della piattaforma che collaborano con gli ingegneri di machine learning (ML) per ottenere le risorse necessarie per eseguire il deployment dei carichi di lavoro AI/ML.
Per scoprire di più sui ruoli comuni e sulle attività di esempio a cui facciamo riferimento nei contenuti di Google Cloud , consulta Ruoli e attività comuni degli utenti GKE.
Informazioni sulle opzioni di consumo
Puoi scegliere tra le seguenti opzioni per utilizzare gli acceleratori su GKE:
- On demand:utilizzi TPU o GPU su GKE senza organizzare la capacità in anticipo. Prima di richiedere risorse, devi disporre di una quota on demand sufficiente per il tipo e la quantità specifici di acceleratori. On demand è l'opzione di consumo più flessibile, ma non è garantita la disponibilità di risorse on demand sufficienti a soddisfare la tua richiesta.
- Prenotazioni:prenoti le risorse per un periodo di tempo prestabilito. Una prenotazione può essere una delle seguenti:
- Prenotazioni future:prenoti risorse per periodi di tempo in genere più lunghi per un momento specifico nel futuro. Hai accesso esclusivo alle risorse riservate per quel periodo di tempo. Le prenotazioni future richiedono il coinvolgimento di un Technical Account Manager (TAM). Per ulteriori informazioni, consulta le indicazioni relative a TPU e GPU.
- Prenotazioni future fino a 90 giorni (in modalità calendario): richiedi la capacità per un periodo di tempo specificato, con un consulente del calendario che suggerisce le date disponibili. Le prenotazioni future fino a 90 giorni (in modalità calendario) offrono maggiore flessibilità per durate più brevi e ricerca self-service della capacità. Per saperne di più, vedi Richieste di prenotazione futura in modalità calendario.
- Prenotazioni on demand:puoi richiedere il provisioning di una prenotazione on demand non appena la capacità è disponibile, in modo simile all'opzione on demand. Mentre la prenotazione è attiva, paghi le risorse indipendentemente dal fatto che le utilizzi o meno.
- Avvio flessibile:prenoti risorse allocate in modo denso per carichi di lavoro di breve durata senza una prenotazione. Richiedi un numero specifico di GPU o TPU e Compute Engine esegue il provisioning quando la capacità diventa disponibile. Le GPU o le TPU vengono eseguite ininterrottamente per un massimo di sette giorni. Per maggiori informazioni, consulta Provisioning con inizio flessibile.
- Spot:esegui il provisioning delle VM spot, che ti consentono di ottenere sconti significativi, ma le VM spot possono essere prerilasciate in qualsiasi momento, con un avviso di 30 secondi. Per ulteriori informazioni, consulta VM spot.
Informazioni sulla quota di acceleratori in GKE
Le quote e i limiti di sistema limitano l'utilizzo delle risorse Google Cloud per supportare la disponibilità delle risorse per tutti gli utenti Google Cloud . Le quote hanno valori predefiniti, ma in genere puoi richiedere aggiustamenti. I limiti di sistema sono valori fissi che non possono essere modificati. Per impostazione predefinita, i progetti in genere non includono quote significative per gli acceleratori. Devi richiedere e ricevere l'approvazione della quota per tipi e regioni di acceleratori specifici.
Quando gestisci le quote necessarie per i tuoi carichi di lavoro, tieni presente le seguenti caratteristiche:
Devi richiedere la quota necessaria per ogni opzione di consumo. Per identificare la quota richiesta per ogni opzione di consumo, consulta i parametri "Quota" corrispondenti elencati nella tabella Scegli un'opzione di consumo. Se la quota non è sufficiente, i tentativi di creare cluster, pool di nodi o di eseguire il deployment di workload che richiedono acceleratori non riusciranno e verrà visualizzato un errore
Quota exceeded
.Devi richiedere una quota quando utilizzi classi di computing personalizzate in Autopilot. I nodi di cui è stato eseguito il provisioning per soddisfare i requisiti della classe di calcolo consumano comunque la quota del progetto per gli acceleratori specificati.
Google Cloud Gli account di prova gratuita hanno limitazioni alla richiesta di aumenti di quota per risorse di alto valore come GPU e TPU. Per accedere alla quota dell'acceleratore, esegui l'upgrade a un account a pagamento.
Per controllare e richiedere la quota, vai alla pagina Quote nella console Google Cloud . Puoi filtrare le quote degli acceleratori e richiedere aumenti.
Scegliere un'opzione di consumo
Utilizza le seguenti considerazioni per scegliere l'opzione di consumo migliore per il tuo carico di lavoro AI/ML:
- Tipo di workload:considera il tipo di workload che vuoi implementare.
I requisiti di GKE variano a seconda che tu stia eseguendo un workload di addestramento o di
inferenza:
- Addestramento:richiede risorse ad alte prestazioni con una memoria significativa. I carichi di lavoro di addestramento in genere hanno un ciclo di vita ben definito. Questi carichi di lavoro sono in genere più facili da pianificare perché sono meno soggetti a picchi improvvisi di consumo di risorse.
- Inferenza: in genere richiede acceleratori ottimizzati per scalabilità e costi inferiori. I workload di inferenza possono richiedere una quantità significativa di memoria dell'acceleratore durante picchi improvvisi di consumo di risorse.
- Durata in base alla fase di implementazione:considera il tuo obiettivo commerciale se stai eseguendo una proof of concept (POC), una valutazione della piattaforma, lo sviluppo o il test di un'applicazione, la produzione o l'ottimizzazione.
- Tempo di provisioning:determina se il tuo carico di lavoro richiede l'esecuzione immediata o se può essere eseguito in futuro. Se l'esecuzione futura è possibile, determina la flessibilità dell'ora di inizio.
- Equilibrio tra costi e prestazioni:valuta i requisiti di prestazioni del carico di lavoro e i vincoli di budget per selezionare l'acceleratore più conveniente. Valuta il compromesso tra il costo degli acceleratori e le loro caratteristiche di rendimento. Tieni presente che i nuovi acceleratori potrebbero migliorare i rapporti costo-prestazioni.
Utilizza la tabella seguente per scegliere un'opzione di consumo:
Tipo di workload | Tempo di provisioning | Durata | Opzione di consumo consigliata |
---|---|---|---|
|
Immediato (con prenotazione approvata) | A lungo termine (per prenotazione) | Se vuoi utilizzare una GPU (ad eccezione di A4X, A4 o A3 Ultra) o una TPU, utilizza le prenotazioni on demand:
|
Se vuoi utilizzare gli acceleratori G2, A2, A3 High o A3 Mega, utilizza le prenotazioni future:
|
|||
|
Immediato (con prenotazione approvata) | Fino a 90 giorni | Prenotazioni future fino a 90 giorni (in modalità calendario):
|
|
On demand (soggetto a disponibilità) | Fino a 7 giorni per assegnazione | Modalità di provisioning con avvio flessibile:
|
|
On demand (soggetto a disponibilità) | Variabile, può essere interrotto con un avviso di 30 secondi |
|
|
Immediata (soggetto a disponibilità) | Nessun limite |
Passaggi successivi
- Scopri di più sulle GPU in GKE.
- Scopri di più sulle TPU in GKE.
- Scopri di più sull'inferenza AI/ML su GKE.