Documentazione sull'orchestrazione di AI/ML su GKE
Esegui carichi di lavoro di AI/ML ottimizzati con le funzionalità di orchestrazione della piattaforma Google Kubernetes Engine (GKE). Con Google Kubernetes Engine (GKE), puoi implementare una piattaforma di AI/ML affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito e le seguenti funzionalità:
- Orchestrazione dell'infrastruttura che supporta GPU e TPU per workload di addestramento ed erogazione su larga scala.
- Integrazione flessibile con framework di calcolo distribuito ed elaborazione dei dati.
- Supporto di più team sulla stessa infrastruttura per massimizzare l'utilizzo delle risorse
Inizia la tua proof of concept con 300 $di credito gratuito
- Accedere a 2.0 Flash Thinking di Gemini
- Utilizzo mensile gratuito di prodotti molto apprezzati, tra cui API di IA e BigQuery
- Nessun addebito automatico, nessun impegno
Continua a esplorare con oltre 20 prodotti Always Free
Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.
Risorse di documentazione
Pubblicare modelli aperti utilizzando le funzionalità di AI generativa di GKE
- Novità!
- Novità!
- Novità!
- Tutorial
- Tutorial
- Tutorial
Orchestrare TPU e GPU su larga scala
- Novità!
- Novità!
- Video
- Video
- Video
- Blog
Ottimizzazione dei costi e orchestrazione dei job
- Novità!
- Best practice
- Blog
- Blog
- Best practice
- Best practice
- Best practice
Risorse correlate
Pubblica modelli open source utilizzando TPU su GKE con Optimum TPU
Scopri come eseguire il deployment di LLM utilizzando le unità di elaborazione tensoriale (TPU) su GKE con il framework di pubblicazione TPU ottimale di Hugging Face.
Creare e utilizzare un volume basato su un'istanza Parallelstore in GKE
Scopri come creare uno spazio di archiviazione basato su istanze Parallelstore completamente gestite e accedervi come volumi. Il driver CSI è ottimizzato per i workload di addestramento AI/ML che richiedono dimensioni dei file più piccole e letture casuali.
Accelera il caricamento dei dati AI/ML con Hyperdisk ML
Scopri come semplificare e accelerare il caricamento dei pesi dei modelli di AI/ML su GKE utilizzando Hyperdisk ML.
Gestisci un LLM utilizzando TPU su GKE con JetStream e PyTorch
Scopri come pubblicare un LLM utilizzando le Tensor Processing Unit (TPU) su GKE con JetStream tramite PyTorch.
Best practice per l'ottimizzazione dell'inferenza LLM con GPU su GKE
Scopri le best practice per ottimizzare le prestazioni di inferenza LLM con le GPU su GKE utilizzando i framework di pubblicazione vLLM e di inferenza di generazione di testo (TGI).
Gestire lo stack GPU con l'operatore GPU NVIDIA su GKE
Scopri quando utilizzare l'operatore GPU NVIDIA e come attivarlo su GKE.
Configurare la scalabilità automatica per i carichi di lavoro LLM sulle TPU
Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando il gestore della scalabilità automatica orizzontale dei pod (HPA) di GKE per eseguire il deployment di Gemma LLM utilizzando JetStream a host singolo.
Ottimizzare i modelli aperti di Gemma utilizzando più GPU su GKE
Scopri come ottimizzare il modello LLM Gemma utilizzando le GPU su GKE con la libreria Hugging Face Transformers.
Esegui il deployment di un'applicazione Ray Serve con un modello Stable Diffusion su GKE con TPU
Scopri come eseguire il deployment e la pubblicazione di un modello di diffusione stabile su GKE utilizzando TPU, Ray Serve e il componente aggiuntivo Operatore Ray.
Configurare la scalabilità automatica per i carichi di lavoro LLM su GPU con GKE
Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando l'agente di scalabilità automatica dei pod orizzontali (HPA) di GKE per eseguire il deployment dell'LLM Gemma con il framework di pubblicazione TGI (Text Generation Interface) di Hugging Face.
Addestrare Llama2 con Megatron-LM su macchine virtuali A3 Mega
Scopri come eseguire un carico di lavoro PyTorch Megatron-LM basato su container su A3 Mega.
Esegui il deployment dei carichi di lavoro GPU in Autopilot
Scopri come richiedere acceleratori hardware (GPU) nei tuoi carichi di lavoro GKE Autopilot.
Gestire un LLM con più GPU in GKE
Scopri come pubblicare Llama 2 70B o Falcon 40B utilizzando più GPU NVIDIA L4 con GKE.
Inizia a utilizzare Ray su GKE
Scopri come iniziare facilmente a utilizzare Ray su GKE eseguendo un carico di lavoro su un cluster Ray.
Gestisci un LLM su GPU L4 con Ray
Scopri come eseguire il servizio Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b utilizzando il framework Ray in GKE.
Orchestra i carichi di lavoro TPU Multislice utilizzando JobSet e Kueue
Scopri come orchestrare un carico di lavoro Jax su più slice TPU su GKE utilizzando JobSet e Kueue.
Monitoraggio dei carichi di lavoro GPU su GKE con NVIDIA Data Center GPU Manager (DCGM)
Scopri come osservare i carichi di lavoro delle GPU su GKE con NVIDIA Data Center GPU Manager (DCGM).
Guida rapida: addestramento di un modello con GPU sui cluster GKE Standard
Questa guida rapida mostra come eseguire il deployment di un modello di addestramento con GPU in GKE e archiviare le previsioni in Cloud Storage.
Eseguire il machine learning su larga scala su GKE
Questo video mostra in che modo GKE aiuta a risolvere i problemi comuni dell'addestramento di modelli di AI di grandi dimensioni su larga scala e le best practice per l'addestramento e l'erogazione di modelli di machine learning su larga scala in GKE.
TensorFlow su GKE Autopilot con accelerazione GPU
Questo post del blog è una guida passo passo alla creazione, all'esecuzione e allo smantellamento di un notebook Jupiter abilitato per Tensorflow.
Implementare un sistema di coda dei job con condivisione della quota tra gli spazi dei nomi su GKE
Questo tutorial utilizza Kueue per mostrarti come implementare un sistema di coda di job e configurare la condivisione di risorse e quote dei carichi di lavoro tra diversi spazi dei nomi su GKE.
Creare un chatbot RAG con GKE e Cloud Storage
Questo tutorial mostra come integrare un'applicazione Large Language Model basata sulla generazione basata sul recupero con i file PDF caricati in un bucket Cloud Storage.
Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma
Questo tutorial mostra come analizzare set di dati di grandi dimensioni su GKE sfruttando BigQuery per l'archiviazione e l'elaborazione dei dati, Cloud Run per la gestione delle richieste e un modello LLM di Gemma per l'analisi e le previsioni dei dati.
Pre-elaborazione dei dati distribuita con GKE e Ray: scalabilità per le aziende
Scopri come utilizzare GKE e Ray per eseguire la preelaborazione efficiente di set di dati di grandi dimensioni per il machine learning.
Best practice per il caricamento dei dati per l'inferenza AI/ML su GKE
Scopri come velocizzare i tempi di caricamento dei dati per le tue applicazioni di machine learning su Google Kubernetes Engine.
Risparmia sulle GPU: scalabilità automatica più intelligente per i carichi di lavoro di inferenza GKE
Scopri come ottimizzare i costi di inferenza GPU ottimizzando la Horizontal Pod Autoscaler di GKE per ottenere la massima efficienza.
Gestisci in modo efficiente i modelli di AI ottimizzati con i microservizi NVIDIA NIM su GKE
Scopri come eseguire facilmente il deployment di microservizi NVIDIA NIM all'avanguardia su GKE e accelerare i tuoi carichi di lavoro di AI.
Accelera Ray in produzione con il nuovo operatore Ray su GKE
Scopri come Ray Operator su GKE semplifica i deployment di produzione di AI/ML, migliorando le prestazioni e la scalabilità.
Massimizzare il throughput di pubblicazione di LLM per le GPU su GKE: una guida pratica
Scopri come massimizzare il throughput di pubblicazione dei modelli linguistici di grandi dimensioni (LLM) per le GPU su GKE, incluse le decisioni di infrastruttura e le ottimizzazioni del server di modelli.
Motori di ricerca semplificati: un approccio low-code con GKE e Vertex AI Agent Builder
Come creare un motore di ricerca con Google Cloud utilizzando Vertex AI Agent Builder, Vertex AI Search e GKE.
LiveX AI riduce i costi di assistenza clienti con agenti di IA addestrati e pubblicati su GKE e NVIDIA AI
In che modo LiveX AI utilizza GKE per creare agenti di IA che migliorano la soddisfazione del cliente e riducono i costi.
Infrastruttura per un'applicazione di AI generativa compatibile con RAG che utilizza GKE
Architettura di riferimento per l'esecuzione di un'applicazione di AI generativa con RAG (Retrieval-Augmented Generation) utilizzando GKE, Cloud SQL, Ray, Hugging Face e LangChain.
Innovazione nella ricerca di brevetti: in che modo IPRally sfrutta l'AI con GKE e Ray
In che modo IPRally utilizza GKE e Ray per creare una piattaforma ML scalabile ed efficiente per ricerche di brevetti più rapide con una maggiore precisione.
Approfondimento sulle prestazioni di Gemma su Google Cloud
Utilizza Gemma su GPU Cloud e Cloud TPU per l'efficienza di inferenza e addestramento su GKE.
Approfondimento di Gemma su GKE: innovazioni per gestire i modelli aperti di AI generativa
Utilizza i modelli aperti Gemma di livello superiore per creare applicazioni di AI personalizzabili e portatili ed eseguirne il deployment su GKE.
Pianificazione avanzata per AI/ML con Ray e Kueue
Orchestra le applicazioni Ray in GKE con KubeRay e Kueue.
Come proteggere Ray su Google Kubernetes Engine
Applica approfondimenti sulla sicurezza e tecniche di hardening per l'addestramento dei workload AI/ML utilizzando Ray su GKE.
Progettare lo spazio di archiviazione per i carichi di lavoro di AI e ML in Google Cloud
Seleziona la combinazione migliore di opzioni di archiviazione per i carichi di lavoro AI e ML su Google Cloud.
L'installazione automatica dei driver semplifica l'utilizzo delle GPU NVIDIA in GKE
Installa automaticamente i driver GPU Nvidia in GKE.
Accelera il tuo percorso verso l'AI generativa con il framework NVIDIA NeMo su GKEE
Addestrare modelli di AI generativa utilizzando GKE e il framework NVIDIA NeMo.
Perché scegliere GKE per i tuoi workload di AI Ray?
Migliora la scalabilità, l'efficienza in termini di costi, la tolleranza ai guasti, l'isolamento e la portabilità utilizzando GKE per i carichi di lavoro Ray.
Esecuzione dell'IA su GKE completamente gestito, ora con nuove opzioni di calcolo, prezzi e prenotazioni delle risorse
Ottieni un supporto GPU migliorato, prestazioni e prezzi inferiori per i carichi di lavoro AI/ML con GKE Autopilot.
In che modo SEEN ha scalato l'output di 89 volte e ridotto i costi delle GPU del 66% utilizzando GKE
L'azienda scala l'output video personalizzato con GKE.
In che modo Spotify sta liberando l'innovazione ML con Ray e GKE
In che modo Ray sta trasformando lo sviluppo di ML in Spotify.
In che modo Ordaōs Bio sfrutta l'AI generativa su GKE
Ordaōs Bio, uno dei principali acceleratori di AI per la ricerca e la scoperta biomediche, sta trovando soluzioni per nuove immunoterapie in oncologia e malattie infiammatorie croniche.
GKE da una startup in crescita basata sul machine learning
In che modo Moloco, una startup della Silicon Valley, ha sfruttato la potenza di GKE e Tensor Flow Enterprise per potenziare la propria infrastruttura di machine learning (ML).
Samples di Google Kubernetes Engine (GKE)
Visualizza le applicazioni di esempio utilizzate nei tutorial ufficiali dei prodotti GKE.
Esempi di GKE AI Labs
Visualizza esempi sperimentali per sfruttare GKE per accelerare le tue iniziative di AI/ML.