Documentazione sull'orchestrazione IA/ML su GKE
Esegui carichi di lavoro ottimizzati di AI/ML con le funzionalità di orchestrazione della piattaforma Google Kubernetes Engine (GKE). Con Google Kubernetes Engine (GKE), puoi implementare una piattaforma AI/ML solida e pronta per la produzione con tutti i vantaggi di Kubernetes gestito e le seguenti funzionalità:
- Orchestrazione dell'infrastruttura che supporta GPU e TPU per l'addestramento e la gestione dei carichi di lavoro su larga scala.
- Integrazione flessibile con framework di elaborazione distribuiti e elaborazione dei dati.
- Supporto di più team sulla stessa infrastruttura per massimizzare l'utilizzo delle risorse
Risorse di documentazione
Pubblica modelli aperti su GKE
-
NOVITÀ!
Gestisci modelli open source utilizzando TPU su GKE con Optimum TPU
-
Tutorial
Gestisci Gemma utilizzando GPU su GKE con TGI di Hugging Face
-
Tutorial
Gestisci Gemma utilizzando GPU su GKE con vLLM
-
Tutorial
Gestisci Gemma utilizzando GPU su GKE con NVIDIA Triton e TensorRT-LLM
-
Tutorial
Gestisci Gemma utilizzando le TPU su GKE con JetStream
-
Tutorial
Guida rapida: pubblica un modello con una singola GPU in GKE Autopilot
Orchestrare TPU e GPU su larga scala
-
Video
Introduzione alle Cloud TPU per il machine learning.
-
Video
Crea machine learning su larga scala sulle Cloud TPU con GKE
-
Video
Gestione di modelli linguistici di grandi dimensioni (LLM) con KubeRay sulle TPU
-
Blog
Machine learning con JAX su Kubernetes con GPU NVIDIA
-
Blog
Crea una piattaforma di machine learning (ML) con Kubeflow e Ray su GKE
Ottimizzazione dei costi e orchestrazione dei job
-
NOVITÀ!
Architettura di riferimento per una piattaforma di elaborazione batch su GKE
-
Blog
Archiviazione AI/ML ad alte prestazioni tramite il supporto di SSD locali su GKE
-
Blog
Semplificare MLOps mediante pesi Pregiudizi con Google Kubernetes Engine
-
Best practice
Best practice per l'esecuzione di carichi di lavoro batch su GKE
-
Best practice
Esegui applicazioni Kubernetes con ottimizzazione dei costi su GKE
-
Best practice
Miglioramento del tempo di lancio di Stable Diffusion su GKE di quattro volte