Documentazione sull'orchestrazione di AI/ML su GKE

Esegui carichi di lavoro di AI/ML ottimizzati con le funzionalità di orchestrazione della piattaforma Google Kubernetes Engine (GKE). Con Google Kubernetes Engine (GKE), puoi implementare una piattaforma di AI/ML affidabile e pronta per la produzione con tutti i vantaggi di Kubernetes gestito e le seguenti funzionalità:

  • Orchestrazione dell'infrastruttura che supporta GPU e TPU per workload di addestramento ed erogazione su larga scala.
  • Integrazione flessibile con framework di calcolo distribuito ed elaborazione dei dati.
  • Supporto di più team sulla stessa infrastruttura per massimizzare l'utilizzo delle risorse
Questa pagina fornisce una panoramica delle funzionalità di AI/ML di GKE e su come iniziare a eseguire workload AI/ML ottimizzati su GKE con GPU, TPU e framework come Hugging Face TGI, vLLM e JetStream.
  • Accedere a 2.0 Flash Thinking di Gemini
  • Utilizzo mensile gratuito di prodotti molto apprezzati, tra cui API di IA e BigQuery
  • Nessun addebito automatico, nessun impegno
Visualizza le offerte di prodotti gratuiti

Continua a esplorare con oltre 20 prodotti Always Free

Accedi a oltre 20 prodotti gratuiti per casi d'uso comuni, tra cui API AI, VM, data warehouse e altro ancora.

Risorse di documentazione

Trova guide rapide e guide, esamina i riferimenti principali e ricevi assistenza per i problemi comuni.
Esplora la formazione a tuo ritmo di Google Cloud Skills Boost, i casi d'uso, le architetture di riferimento e gli esempi di codice con esempi di come utilizzare e collegare i servizi Google Cloud .
formazione
Formazione e tutorial

Scopri come eseguire il deployment di LLM utilizzando le unità di elaborazione tensoriale (TPU) su GKE con il framework di pubblicazione TPU ottimale di Hugging Face.

Tutorial Inferenza AI/ML TPU

formazione
Formazione e tutorial

Scopri come creare uno spazio di archiviazione basato su istanze Parallelstore completamente gestite e accedervi come volumi. Il driver CSI è ottimizzato per i workload di addestramento AI/ML che richiedono dimensioni dei file più piccole e letture casuali.

Tutorial Caricamento dei dati AI/ML

formazione
Formazione e tutorial

Scopri come semplificare e accelerare il caricamento dei pesi dei modelli di AI/ML su GKE utilizzando Hyperdisk ML.

Tutorial Caricamento dei dati AI/ML

formazione
Formazione e tutorial

Scopri come pubblicare un LLM utilizzando le Tensor Processing Unit (TPU) su GKE con JetStream tramite PyTorch.

Tutorial Inferenza AI/ML TPU

formazione
Formazione e tutorial

Scopri le best practice per ottimizzare le prestazioni di inferenza LLM con le GPU su GKE utilizzando i framework di pubblicazione vLLM e di inferenza di generazione di testo (TGI).

Tutorial Inferenza AI/ML GPU

formazione
Formazione e tutorial

Scopri quando utilizzare l'operatore GPU NVIDIA e come attivarlo su GKE.

Tutorial GPU

formazione
Formazione e tutorial

Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando il gestore della scalabilità automatica orizzontale dei pod (HPA) di GKE per eseguire il deployment di Gemma LLM utilizzando JetStream a host singolo.

Tutorial TPU

formazione
Formazione e tutorial

Scopri come ottimizzare il modello LLM Gemma utilizzando le GPU su GKE con la libreria Hugging Face Transformers.

Tutorial Inferenza AI/ML GPU

formazione
Formazione e tutorial

Scopri come eseguire il deployment e la pubblicazione di un modello di diffusione stabile su GKE utilizzando TPU, Ray Serve e il componente aggiuntivo Operatore Ray.

Tutorial Inferenza AI/ML Ray TPU

formazione
Formazione e tutorial

Scopri come configurare l'infrastruttura di scalabilità automatica utilizzando l'agente di scalabilità automatica dei pod orizzontali (HPA) di GKE per eseguire il deployment dell'LLM Gemma con il framework di pubblicazione TGI (Text Generation Interface) di Hugging Face.

Tutorial GPU

formazione
Formazione e tutorial

Scopri come eseguire un carico di lavoro PyTorch Megatron-LM basato su container su A3 Mega.

Tutorial Addestramento AI/ML GPU

formazione
Formazione e tutorial

Scopri come richiedere acceleratori hardware (GPU) nei tuoi carichi di lavoro GKE Autopilot.

Tutorial GPU

formazione
Formazione e tutorial

Scopri come pubblicare Llama 2 70B o Falcon 40B utilizzando più GPU NVIDIA L4 con GKE.

Tutorial Inferenza AI/ML GPU

formazione
Formazione e tutorial

Scopri come iniziare facilmente a utilizzare Ray su GKE eseguendo un carico di lavoro su un cluster Ray.

Tutorial Ray

formazione
Formazione e tutorial

Scopri come eseguire il servizio Falcon 7b, Llama2 7b, Falcon 40b o Llama2 70b utilizzando il framework Ray in GKE.

Tutorial Inferenza AI/ML Ray GPU

formazione
Formazione e tutorial

Scopri come orchestrare un carico di lavoro Jax su più slice TPU su GKE utilizzando JobSet e Kueue.

Tutorial TPU

formazione
Formazione e tutorial

Scopri come osservare i carichi di lavoro delle GPU su GKE con NVIDIA Data Center GPU Manager (DCGM).

Tutorial Osservabilità AI/ML GPU

formazione
Formazione e tutorial

Questa guida rapida mostra come eseguire il deployment di un modello di addestramento con GPU in GKE e archiviare le previsioni in Cloud Storage.

Tutorial Addestramento AI/ML GPU

formazione
Formazione e tutorial

Questo video mostra in che modo GKE aiuta a risolvere i problemi comuni dell'addestramento di modelli di AI di grandi dimensioni su larga scala e le best practice per l'addestramento e l'erogazione di modelli di machine learning su larga scala in GKE.

Video Addestramento AI/ML Inferenza AI/ML

formazione
Formazione e tutorial

Questo post del blog è una guida passo passo alla creazione, all'esecuzione e allo smantellamento di un notebook Jupiter abilitato per Tensorflow.

Blog Addestramento AI/ML Inferenza AI/ML GPU

formazione
Formazione e tutorial

Questo tutorial utilizza Kueue per mostrarti come implementare un sistema di coda di job e configurare la condivisione di risorse e quote dei carichi di lavoro tra diversi spazi dei nomi su GKE.

Tutorial Batch AI/ML

formazione
Formazione e tutorial

Questo tutorial mostra come integrare un'applicazione Large Language Model basata sulla generazione basata sul recupero con i file PDF caricati in un bucket Cloud Storage.

Tutorial Caricamento dei dati AI/ML

formazione
Formazione e tutorial

Questo tutorial mostra come analizzare set di dati di grandi dimensioni su GKE sfruttando BigQuery per l'archiviazione e l'elaborazione dei dati, Cloud Run per la gestione delle richieste e un modello LLM di Gemma per l'analisi e le previsioni dei dati.

Tutorial Caricamento dei dati AI/ML

caso d'uso
Casi d'uso

Scopri come utilizzare GKE e Ray per eseguire la preelaborazione efficiente di set di dati di grandi dimensioni per il machine learning.

MLOps Formazione Ray

caso d'uso
Casi d'uso

Scopri come velocizzare i tempi di caricamento dei dati per le tue applicazioni di machine learning su Google Kubernetes Engine.

Inferenza Hyperdisk ML Cloud Storage FUSE

caso d'uso
Casi d'uso

Scopri come ottimizzare i costi di inferenza GPU ottimizzando la Horizontal Pod Autoscaler di GKE per ottenere la massima efficienza.

Inferenza GPU HPA

caso d'uso
Casi d'uso

Scopri come eseguire facilmente il deployment di microservizi NVIDIA NIM all'avanguardia su GKE e accelerare i tuoi carichi di lavoro di AI.

IA NVIDIA NIM

caso d'uso
Casi d'uso

Scopri come Ray Operator su GKE semplifica i deployment di produzione di AI/ML, migliorando le prestazioni e la scalabilità.

IA TPU Ray

caso d'uso
Casi d'uso

Scopri come massimizzare il throughput di pubblicazione dei modelli linguistici di grandi dimensioni (LLM) per le GPU su GKE, incluse le decisioni di infrastruttura e le ottimizzazioni del server di modelli.

LLM GPU NVIDIA

caso d'uso
Casi d'uso

Come creare un motore di ricerca con Google Cloud utilizzando Vertex AI Agent Builder, Vertex AI Search e GKE.

Agente di ricerca Vertex AI

caso d'uso
Casi d'uso

In che modo LiveX AI utilizza GKE per creare agenti di IA che migliorano la soddisfazione del cliente e riducono i costi.

IA generativa GPU NVIDIA

caso d'uso
Casi d'uso

Architettura di riferimento per l'esecuzione di un'applicazione di AI generativa con RAG (Retrieval-Augmented Generation) utilizzando GKE, Cloud SQL, Ray, Hugging Face e LangChain.

GenAI RAG Ray

caso d'uso
Casi d'uso

In che modo IPRally utilizza GKE e Ray per creare una piattaforma ML scalabile ed efficiente per ricerche di brevetti più rapide con una maggiore precisione.

IA Ray GPU

caso d'uso
Casi d'uso

Utilizza Gemma su GPU Cloud e Cloud TPU per l'efficienza di inferenza e addestramento su GKE.

IA Gemma Rendimento

caso d'uso
Casi d'uso

Utilizza i modelli aperti Gemma di livello superiore per creare applicazioni di AI personalizzabili e portatili ed eseguirne il deployment su GKE.

IA Gemma Rendimento

caso d'uso
Casi d'uso

Orchestra le applicazioni Ray in GKE con KubeRay e Kueue.

Kueue Ray KubeRay

caso d'uso
Casi d'uso

Applica approfondimenti sulla sicurezza e tecniche di hardening per l'addestramento dei workload AI/ML utilizzando Ray su GKE.

IA Ray Security

caso d'uso
Casi d'uso

Seleziona la combinazione migliore di opzioni di archiviazione per i carichi di lavoro AI e ML su Google Cloud.

IA ML Archiviazione

caso d'uso
Casi d'uso

Installa automaticamente i driver GPU Nvidia in GKE.

GPU NVIDIA Installazione

caso d'uso
Casi d'uso

Addestrare modelli di AI generativa utilizzando GKE e il framework NVIDIA NeMo.

GenAI NVIDIA NeMo

caso d'uso
Casi d'uso

Migliora la scalabilità, l'efficienza in termini di costi, la tolleranza ai guasti, l'isolamento e la portabilità utilizzando GKE per i carichi di lavoro Ray.

IA Ray Scale

caso d'uso
Casi d'uso

Ottieni un supporto GPU migliorato, prestazioni e prezzi inferiori per i carichi di lavoro AI/ML con GKE Autopilot.

GPU Autopilot Rendimento

caso d'uso
Casi d'uso

L'azienda scala l'output video personalizzato con GKE.

GPU Scalabilità Contenitori

caso d'uso
Casi d'uso

In che modo Ray sta trasformando lo sviluppo di ML in Spotify.

ML Ray Contenitori

caso d'uso
Casi d'uso

Ordaōs Bio, uno dei principali acceleratori di AI per la ricerca e la scoperta biomediche, sta trovando soluzioni per nuove immunoterapie in oncologia e malattie infiammatorie croniche.

Prestazioni TPU Ottimizzazione dei costi

caso d'uso
Casi d'uso

In che modo Moloco, una startup della Silicon Valley, ha sfruttato la potenza di GKE e Tensor Flow Enterprise per potenziare la propria infrastruttura di machine learning (ML).

ML Scalabilità Ottimizzazione dei costi

esempio di codice
Esempi di codice

Visualizza le applicazioni di esempio utilizzate nei tutorial ufficiali dei prodotti GKE.

esempio di codice
Esempi di codice

Visualizza esempi sperimentali per sfruttare GKE per accelerare le tue iniziative di AI/ML.

Video correlati