Questa pagina fornisce una panoramica concettuale di Google Kubernetes Engine (GKE) per i workload di AI/ML. GKE è un'implementazione gestita da Google della piattaforma di orchestrazione dei container open source Kubernetes.
Google Kubernetes Engine fornisce una piattaforma scalabile, flessibile ed economicamente vantaggiosa per l'esecuzione di tutti i tuoi carichi di lavoro containerizzati, incluse le applicazioni di intelligenza artificiale e machine learning (AI/ML). Che tu stia addestrando modelli di base di grandi dimensioni, gestendo richieste di inferenza su larga scala o creando una piattaforma di AI completa, GKE offre il controllo e le prestazioni di cui hai bisogno.
Questa pagina è destinata a specialisti di dati e AI, architetti cloud, operatori e sviluppatori che cercano una soluzione Kubernetes gestita, scalabile e automatizzata per eseguire workload di AI/ML. Per scoprire di più sui ruoli comuni, consulta Ruoli utente e attività comuni di GKE.
Inizia a utilizzare i workload AI/ML su GKE
Puoi iniziare a esplorare GKE in pochi minuti utilizzando il livello gratuito di GKE, che ti consente di iniziare a utilizzare Kubernetes senza sostenere costi per la gestione dei cluster.
- Prova queste guide rapide:
- Inferenza su GKE: esegui il deployment di un modello linguistico di grandi dimensioni (LLM) di AI su GKE per l'inferenza utilizzando un'architettura predefinita.
- Addestramento su GKE: esegui il deployment di un modello di addestramento AI su GKE e archivia le previsioni in Cloud Storage.
- Leggi Informazioni sulle opzioni di consumo degli acceleratori per i carichi di lavoro AI/ML, che contiene indicazioni e risorse per la pianificazione e l'ottenimento di acceleratori (GPU e TPU) per la tua piattaforma.
Casi d'uso comuni
GKE fornisce una piattaforma unificata in grado di supportare tutti i tuoi carichi di lavoro di AI.
- Creazione di una piattaforma AI: per i team di piattaforme aziendali, GKE offre la flessibilità di creare una piattaforma standardizzata e multi-tenant che soddisfi diverse esigenze.
- Servizio online a bassa latenza: per gli sviluppatori che creano applicazioni di AI generativa, GKE con Inference Gateway fornisce il routing e lo scalabilità automatica ottimizzati necessari per offrire un'esperienza utente reattiva controllando al contempo i costi.
Scegliere la piattaforma giusta per il tuo carico di lavoro AI/ML
Google Cloud offre una gamma di prodotti di infrastruttura AI per supportare il tuo percorso di ML, da completamente gestiti a completamente configurabili. La scelta della piattaforma giusta dipende dalle tue esigenze specifiche di controllo, flessibilità e livello di gestione.
Scegli GKE quando hai bisogno di un controllo approfondito, portabilità e della possibilità di creare una piattaforma AI personalizzata e ad alte prestazioni.
- Controllo e flessibilità dell'infrastruttura: hai bisogno di un elevato grado di controllo sulla tua infrastruttura, devi utilizzare pipeline personalizzate o richiedi personalizzazioni a livello di kernel.
- Addestramento e inferenza su larga scala: vuoi addestrare modelli molto grandi o pubblicare modelli con latenza minima, utilizzando la scalabilità e le prestazioni elevate di GKE.
- Efficienza dei costi su larga scala: vuoi dare la priorità all'ottimizzazione dei costi utilizzando l'integrazione di GKE con le VM spot e le VM con avvio flessibile per gestire in modo efficace i costi.
- Portabilità e standard aperti: vuoi evitare i vincoli al fornitore ed eseguire i tuoi carichi di lavoro ovunque con Kubernetes e hai già competenze Kubernetes esistenti o una strategia multi-cloud.
Puoi anche prendere in considerazione queste alternative:
Google Cloud servizio | Ideale per |
---|---|
Vertex AI | Una piattaforma end-to-end completamente gestita per accelerare lo sviluppo e scaricare la gestione dell'infrastruttura. Ideale per i team incentrati su MLOps e sul time-to-value rapido. Per saperne di più, guarda Choosing between self-hosted GKE and managed Vertex AI to host AI models. |
Cloud Run | Una piattaforma serverless per carichi di lavoro di inferenza containerizzati che può scalare a zero. Funziona bene per le applicazioni basate su eventi e per la distribuzione di modelli più piccoli a costi contenuti. Per un confronto approfondito, vedi GKE e Cloud Run. |
Come GKE supporta i workload AI/ML
GKE offre una suite di componenti specializzati che semplificano e accelerano ogni fase del ciclo di vita dell'AI/ML, dall'addestramento su larga scala all'inferenza a bassa latenza.
La tabella seguente riassume le funzionalità di GKE che supportano i tuoi carichi di lavoro di AI/ML o i tuoi obiettivi operativi.
Operazione o workload AI/ML | Come GKE ti supporta | Funzionalità principali |
---|---|---|
Inferenza e pubblicazione | Ottimizzato per pubblicare modelli di AI in modo elastico, con bassa latenza, throughput elevato ed efficienza dei costi. |
|
Addestramento e messa a punto | Fornisce le funzionalità di scalabilità e orchestrazione necessarie per addestrare in modo efficiente modelli molto grandi, riducendo al minimo i costi. |
|
Sviluppo AI/ML unificato | Supporto gestito per Ray, un framework open source per scalare le applicazioni Python distribuite. |
|
Passaggi successivi
- Per esplorare le nostre vaste raccolte di guide, tutorial e altre risorse ufficiali per l'esecuzione di workload AI/ML su GKE, visita il portale di orchestrazione AI/ML su GKE.
- Scopri le tecniche per ottenere acceleratori di calcolo, come GPU o TPU, per i tuoi carichi di lavoro AI/ML su GKE.
- Scopri di più sull'inferenza del modello AI/ML su GKE.
- Scopri di più su Ray su GKE.
- Esplora esempi sperimentali per sfruttare GKE per accelerare le tue iniziative di AI/ML in GKE AI Labs.