Documentazione sull'orchestrazione di AI/ML su GKE

Gemma, la nuova famiglia di modelli aperti di Google DeepMind, è disponibile su GKE.

Questa pagina è stata tradotta dall'API Cloud Translation.

Home
Documentazione
AI/ML orchestration on GKE

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Esegui carichi di lavoro di AI/ML ottimizzati con le funzionalità di orchestrazione della piattaforma Google Kubernetes Engine (GKE). Con Google Kubernetes Engine (GKE), puoi implementare una piattaforma di AI/ML affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito e le seguenti funzionalità:

Orchestrazione dell'infrastruttura che supporta GPU e TPU per workload di addestramento ed erogazione su larga scala.
Integrazione flessibile con framework di calcolo distribuito ed elaborazione dei dati.
Supporto di più team sulla stessa infrastruttura per massimizzare l'utilizzo delle risorse

Questa pagina fornisce una panoramica delle funzionalità di IA/ML di GKE e su come iniziare a eseguire workload di IA/ML ottimizzati su GKE con GPU, TPU e framework come Hugging Face TGI, vLLM e JetStream.

Inizia gratuitamente

Inizia la tua proof of concept con 300 $di credito gratuito

Accedi a Gemini 2.0 Flash Thinking
Utilizzo mensile gratuito di prodotti molto apprezzati, tra cui API di IA e BigQuery
Nessun addebito automatico, nessun impegno

Visualizza le offerte di prodotti gratuiti

Continua a esplorare con oltre 20 prodotti Always Free

Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.

Risorse di documentazione

Trova guide rapide e guide, esamina i riferimenti principali e ricevi assistenza per i problemi comuni.

info

Pubblica modelli aperti su GKE

NOVITÀ!

Pubblica LLM come Deepseek-R1 671B o Llama 3.1 405B su GKE
NOVITÀ!

Gestisci un LLM utilizzando TPU su GKE con KubeRay
Tutorial

Gestisci un LLM utilizzando TPU Trillium su GKE con vLLM
Tutorial

Guida rapida: gestisci un LLM utilizzando una singola GPU su GKE
Tutorial

Gestisci Gemma utilizzando GPU su GKE con TGI di Hugging Face
Tutorial

Gestisci Gemma utilizzando GPU su GKE con vLLM

info

Orchestrare TPU e GPU su larga scala

NOVITÀ!

Ottimizza l'utilizzo delle risorse GKE per i carichi di lavoro di addestramento e inferenza misti di AI/ML
Video

Introduzione alle Cloud TPU per il machine learning.
Video

Creare modelli di machine learning su larga scala su Cloud TPU con GKE
Video

Erogazione di modelli linguistici di grandi dimensioni con KubeRay su TPU
Blog

Machine learning con JAX su Kubernetes con GPU NVIDIA

info

Ottimizzazione dei costi e orchestrazione dei job

NOVITÀ!

Architettura di riferimento per una piattaforma di elaborazione batch su GKE
Blog

Archiviazione AI/ML ad alte prestazioni tramite il supporto di SSD locali su GKE
Blog

Semplificare le operazioni MLOps con Weights & Biases con Google Kubernetes Engine
Best practice

Best practice per l'esecuzione di carichi di lavoro batch su GKE
Best practice

Esegui applicazioni Kubernetes con ottimizzazione dei costi su GKE
Best practice

Miglioramento del tempo di lancio di Stable Diffusion su GKE di quattro volte

Risorse correlate

Formazione e tutorial

Casi d'uso

Esempi di codice

Esplora la formazione a tuo ritmo di Google Cloud Skills Boost, i casi d'uso, le architetture di riferimento e gli esempi di codice con esempi di come utilizzare e collegare i servizi Google Cloud .

Formazione

Formazione e tutorial

Pubblica modelli open source utilizzando TPU su GKE con Optimum TPU

Scopri come eseguire il deployment di LLM utilizzando le unità di elaborazione tensoriale (TPU) su GKE con il framework di pubblicazione Optimum TPU di Hugging Face.

Scopri di più

Formazione

Formazione e tutorial

Creare e utilizzare un volume basato su un'istanza Parallelstore in GKE

Scopri come creare uno spazio di archiviazione basato su istanze Parallelstore completamente gestite e accedervi come volumi. Il driver CSI è ottimizzato per i carichi di lavoro di addestramento AI/ML che richiedono dimensioni dei file più piccole e letture casuali.

Scopri di più

Formazione

Formazione e tutorial

Accelera il caricamento dei dati AI/ML con Hyperdisk ML

Scopri come semplificare e accelerare il caricamento dei pesi dei modelli di AI/ML su GKE utilizzando Hyperdisk ML.

Scopri di più

Formazione

Formazione e tutorial

Gestisci un LLM utilizzando TPU su GKE con JetStream e PyTorch

Scopri come pubblicare un LLM utilizzando le Tensor Processing Unit (TPU) su GKE con JetStream tramite PyTorch.

Scopri di più

Formazione

Formazione e tutorial

Best practice per l'ottimizzazione dell'inferenza LLM con GPU su GKE

Scopri le best practice per ottimizzare le prestazioni di inferenza LLM con le GPU su GKE utilizzando i framework di pubblicazione vLLM e di inferenza di generazione di testo (TGI).

Scopri di più

Formazione

Formazione e tutorial

Gestire lo stack GPU con l'operatore GPU NVIDIA su GKE

Scopri quando utilizzare l'operatore GPU NVIDIA e come attivarlo su GKE.

Scopri di più

Formazione

Formazione e tutorial

Configurare la scalabilità automatica per i carichi di lavoro LLM sulle TPU

Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando il gestore della scalabilità automatica orizzontale dei pod (HPA) di GKE per eseguire il deployment di Gemma LLM utilizzando JetStream a host singolo.

Scopri di più

Formazione

Formazione e tutorial

Ottimizzare i modelli aperti di Gemma utilizzando più GPU su GKE

Scopri come ottimizzare il modello LLM Gemma utilizzando le GPU su GKE con la libreria Hugging Face Transformers.

Scopri di più

Formazione

Formazione e tutorial

Esegui il deployment di un'applicazione Ray Serve con un modello Stable Diffusion su GKE con TPU

Scopri come eseguire il deployment e pubblicare un modello di diffusione stabile su GKE utilizzando TPU, Ray Serve e il componente aggiuntivo Ray Operator.

Scopri di più

Formazione

Formazione e tutorial

Configurare la scalabilità automatica per i carichi di lavoro LLM su GPU con GKE

Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando l'agente di scalabilità automatica dei pod orizzontali (HPA) di GKE per eseguire il deployment di Gemma LLM con il framework di servizio Hugging Face Text Generation Interface (TGI).

Scopri di più

Formazione

Formazione e tutorial

Addestrare Llama2 con Megatron-LM su macchine virtuali A3 Mega

Scopri come eseguire un carico di lavoro PyTorch Megatron-LM basato su container su A3 Mega.

Scopri di più

Formazione

Formazione e tutorial

Esegui il deployment dei carichi di lavoro GPU in Autopilot

Scopri come richiedere acceleratori hardware (GPU) nei tuoi carichi di lavoro GKE Autopilot.

Scopri di più

Formazione

Formazione e tutorial

Gestire un LLM con più GPU in GKE

Scopri come pubblicare Llama 2 70B o Falcon 40B utilizzando più GPU NVIDIA L4 con GKE.

Scopri di più

Formazione

Formazione e tutorial

Gestisci un LLM utilizzando TPU multi-host su GKE con Saxml

Scopri come eseguire il servizio Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b utilizzando il framework Ray in GKE.

Scopri di più

Formazione

Formazione e tutorial

Inizia a utilizzare Ray su GKE

Scopri come iniziare facilmente a utilizzare Ray su GKE eseguendo un carico di lavoro su un cluster Ray.

Scopri di più

Formazione

Formazione e tutorial

Gestire un LLM su GPU L4 con Ray

Scopri come eseguire il servizio Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b utilizzando il framework Ray in GKE.

Scopri di più

Formazione

Formazione e tutorial

Orchestra i carichi di lavoro TPU Multislice utilizzando JobSet e Kueue

Scopri come orchestrare un carico di lavoro Jax su più slice TPU su GKE utilizzando JobSet e Kueue.

Scopri di più

Formazione

Formazione e tutorial

Monitoraggio dei carichi di lavoro GPU su GKE con NVIDIA Data Center GPU Manager (DCGM)

Scopri come osservare i carichi di lavoro delle GPU su GKE con NVIDIA Data Center GPU Manager (DCGM).

Scopri di più

Formazione

Formazione e tutorial

Guida rapida: addestramento di un modello con GPU sui cluster GKE Standard

Questa guida rapida mostra come eseguire il deployment di un modello di addestramento con GPU in GKE e archiviare le previsioni in Cloud Storage.

Scopri di più

Formazione

Formazione e tutorial

Eseguire il machine learning su larga scala su GKE

Questo video mostra in che modo GKE aiuta a risolvere i problemi comuni dell'addestramento di modelli di IA di grandi dimensioni su larga scala e le best practice per l'addestramento e l'erogazione di modelli di machine learning su larga scala in GKE.

Scopri di più

Formazione

Formazione e tutorial

TensorFlow su GKE Autopilot con accelerazione GPU

Questo post del blog è una guida passo passo alla creazione, all'esecuzione e allo smantellamento di un notebook Jupiter abilitato per Tensorflow.

Scopri di più

Formazione

Formazione e tutorial

Implementare un sistema di coda dei job con condivisione della quota tra gli spazi dei nomi su GKE

Questo tutorial utilizza Kueue per mostrarti come implementare un sistema di coda di job e configurare la condivisione di risorse e quote dei carichi di lavoro tra diversi spazi dei nomi su GKE.

Scopri di più

Formazione

Formazione e tutorial

Creare un chatbot RAG con GKE e Cloud Storage

Questo tutorial mostra come integrare un'applicazione Large Language Model basata sulla generazione basata sul recupero con i file PDF caricati in un bucket Cloud Storage.

Scopri di più

Formazione

Formazione e tutorial

Analizza i dati su GKE utilizzando BigQuery, Cloud Run e Gemma

Questo tutorial mostra come analizzare set di dati di grandi dimensioni su GKE sfruttando BigQuery per l'archiviazione e l'elaborazione dei dati, Cloud Run per la gestione delle richieste e un modello LLM di Gemma per l'analisi e le previsioni dei dati.

Scopri di più

Caso d'uso

Casi d'uso

Pre-elaborazione dei dati distribuita con GKE e Ray: scalabilità per le aziende

Scopri come utilizzare GKE e Ray per eseguire la preelaborazione efficiente di set di dati di grandi dimensioni per il machine learning.

MLOps Formazione Ray

Scopri di più

Caso d'uso

Casi d'uso

Best practice per il caricamento dei dati per l'inferenza AI/ML su GKE

Scopri come velocizzare i tempi di caricamento dei dati per le tue applicazioni di machine learning su Google Kubernetes Engine.

Inferenza Hyperdisk ML Cloud Storage FUSE

Scopri di più

Caso d'uso

Casi d'uso

Risparmia sulle GPU: scalabilità automatica più intelligente per i carichi di lavoro di inferenza GKE

Scopri come ottimizzare i costi di inferenza GPU ottimizzando l'autoscalabilità orizzontale dei pod di GKE per ottenere la massima efficienza.

Inferenza GPU HPA

Scopri di più

Caso d'uso

Casi d'uso

Gestisci in modo efficiente i modelli di AI ottimizzati con i microservizi NVIDIA NIM su GKE

Scopri come eseguire facilmente il deployment di microservizi NVIDIA NIM all'avanguardia su GKE e accelerare i tuoi carichi di lavoro di IA.

IA NVIDIA NIM

Scopri di più

Caso d'uso

Casi d'uso

Accelera Ray in produzione con il nuovo operatore Ray su GKE

Scopri come Ray Operator su GKE semplifica i deployment di produzione di AI/ML, migliorando le prestazioni e la scalabilità.

IA TPU Ray

Scopri di più

Caso d'uso

Casi d'uso

Massimizzare il throughput di pubblicazione di LLM per le GPU su GKE: una guida pratica

Scopri come massimizzare il throughput di pubblicazione dei modelli linguistici di grandi dimensioni (LLM) per le GPU su GKE, incluse le decisioni di infrastruttura e le ottimizzazioni del server di modelli.

LLM GPU NVIDIA

Scopri di più

Caso d'uso

Casi d'uso

Motori di ricerca semplificati: un approccio low-code con GKE e Vertex AI Agent Builder

Come creare un motore di ricerca con Google Cloud utilizzando Vertex AI Agent Builder, Vertex AI Search e GKE.

Agente di ricerca Vertex AI

Scopri di più

Caso d'uso

Casi d'uso

LiveX AI riduce i costi di assistenza clienti con agenti di IA addestrati e pubblicati su GKE e NVIDIA AI

In che modo LiveX AI utilizza GKE per creare agenti di IA che migliorano la soddisfazione dei clienti e riducono i costi.

IA generativa GPU NVIDIA

Scopri di più

Caso d'uso

Casi d'uso

Infrastruttura per un'applicazione di AI generativa compatibile con RAG che utilizza GKE

Architettura di riferimento per l'esecuzione di un'applicazione di IA generativa con RAG (Retrieval-Augmented Generation) utilizzando GKE, Cloud SQL, Ray, Hugging Face e LangChain.

IA generativa RAG Ray

Scopri di più

Caso d'uso

Casi d'uso

Innovazione nella ricerca di brevetti: come IPRally sfrutta l'AI con GKE e Ray

In che modo IPRally utilizza GKE e Ray per creare una piattaforma ML scalabile ed efficiente per ricerche di brevetti più rapide e con una maggiore precisione.

IA Ray GPU

Scopri di più

Caso d'uso

Casi d'uso

Approfondimento sulle prestazioni di Gemma su Google Cloud

Utilizza Gemma su GPU Cloud e Cloud TPU per l'efficienza di inferenza e addestramento su GKE.

IA Gemma Rendimento

Scopri di più

Caso d'uso

Casi d'uso

Approfondimento di Gemma su GKE: innovazioni per gestire i modelli aperti di AI generativa

Utilizza i modelli aperti Gemma di livello superiore per creare applicazioni IA portatili e personalizzabili ed eseguirne il deployment su GKE.

IA Gemma Rendimento

Scopri di più

Caso d'uso

Casi d'uso

Pianificazione avanzata per AI/ML con Ray e Kueue

Orchestra le applicazioni Ray in GKE con KubeRay e Kueue.

Kueue Ray KubeRay

Scopri di più

Caso d'uso

Casi d'uso

Come proteggere Ray su Google Kubernetes Engine

Applica approfondimenti sulla sicurezza e tecniche di hardening per l'addestramento dei workload AI/ML utilizzando Ray su GKE.

IA Ray Security

Scopri di più

Caso d'uso

Casi d'uso

Progettare lo spazio di archiviazione per i carichi di lavoro di IA e ML in Google Cloud

Seleziona la combinazione migliore di opzioni di archiviazione per i carichi di lavoro di AI e ML su Google Cloud.

IA ML Archiviazione

Scopri di più

Caso d'uso

Casi d'uso

L'installazione automatica dei driver semplifica l'utilizzo delle GPU NVIDIA in GKE

Installa automaticamente i driver GPU Nvidia in GKE.

GPU NVIDIA Installazione

Scopri di più

Caso d'uso

Casi d'uso

Accelera il tuo percorso verso l'IA generativa con il framework NVIDIA NeMo su GKEE

Addestrare modelli di IA generativa utilizzando GKE e il framework NVIDIA NeMo.

IA generativa NVIDIA NeMo

Scopri di più

Caso d'uso

Casi d'uso

Perché scegliere GKE per i tuoi carichi di lavoro di AI Ray?

Migliora la scalabilità, l'efficienza in termini di costi, la tolleranza ai guasti, l'isolamento e la portabilità utilizzando GKE per i carichi di lavoro Ray.

IA Ray Scale

Scopri di più

Caso d'uso

Casi d'uso

Esecuzione dell'IA su GKE completamente gestito, ora con nuove opzioni di calcolo, prezzi e prenotazioni delle risorse

Ottieni un supporto GPU migliorato, prestazioni e prezzi inferiori per i carichi di lavoro di AI/ML con GKE Autopilot.

GPU Autopilot Prestazioni

Scopri di più

Caso d'uso

Casi d'uso

In che modo SEEN ha scalato l'output di 89 volte e ridotto i costi delle GPU del 66% utilizzando GKE

La startup scala l'output video personalizzato con GKE.

GPU Scalabilità Contenitori

Scopri di più

Caso d'uso

Casi d'uso

In che modo Spotify sta liberando l'innovazione ML con Ray e GKE

In che modo Ray sta trasformando lo sviluppo di ML in Spotify.

ML Ray Contenitori

Scopri di più

Caso d'uso

Casi d'uso

In che modo Ordaōs Bio sfrutta l'IA generativa su GKE

Ordaōs Bio, uno dei principali acceleratori di AI per la ricerca e la scoperta biomedica, sta trovando soluzioni per nuove immunoterapie in oncologia e malattie infiammatorie croniche.

Prestazioni TPU Ottimizzazione dei costi

Scopri di più

Caso d'uso

Casi d'uso

GKE da una startup in crescita basata sul machine learning

In che modo Moloco, una startup della Silicon Valley, ha sfruttato la potenza di GKE e Tensor Flow Enterprise per potenziare la propria infrastruttura di machine learning (ML).

ML Scalabilità Ottimizzazione dei costi

Scopri di più

Esempi di codice

Slurm su GKE

Segui questo esempio per eseguire il deployment di Slurm in un cluster Google Kubernetes Engine (GKE).

Apri GitHub

Esempi di codice

Ray su GKE

Utilizza questo modello Terraform per eseguire Ray su GKE.

Apri GitHub

Esempi di codice

Configurare Ray su GKE con le TPU

Utilizza questo esempio di Terraform per eseguire il deployment di Ray su un cluster GKE con una topologia 2x2x1.

Apri GitHub

Esempi di codice

Carichi di lavoro di addestramento ML su GKE utilizzando l'API JobSet

Esegui i workload di addestramento del machine learning distribuito su GKE utilizzando l'API JobSet.

Apri GitHub

Esempi di codice

JAX "Hello World" su GKE

Esegui un semplice programma JAX utilizzando GPU NVIDIA A100-80 GB su un cluster GKE.

Apri GitHub

Gemma, la nuova famiglia di modelli aperti di Google DeepMind, è disponibile su GKE.