Dokumentation zur KI/ML-Orchestrierung in GKE
Optimierte KI-/ML-Arbeitslasten mit den Funktionen der Google Kubernetes Engine (GKE)-Plattformorchestrierung ausführen. Mit Google Kubernetes Engine (GKE) können Sie eine robuste, produktionsreife KI-/ML-Plattform mit allen Vorteilen von verwaltetem Kubernetes und diesen Funktionen implementieren:
- Infrastrukturorchestrierung für GPUs und TPUs zum Trainieren und Bereitstellen von Arbeitslasten in großem Umfang
- Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks
- Unterstützung mehrerer Teams in derselben Infrastruktur zur Maximierung der Auslastung von Ressourcen
Dokumentationsressourcen
Offene Modelle in GKE bereitstellen
-
Tutorial
Gemma mit GPUs in GKE mit Hugging Face TGI bereitstellen
-
Tutorial
Gemma mit GPUs in GKE mit vLLM bereitstellen
-
Tutorial
Gemma mit GPUs in GKE mit NVIDIA Triton und TensorRT-LLM bereitstellen
-
Tutorial
Gemma mithilfe von TPUs in GKE mit JetStream bereitstellen
-
Tutorial
Kurzanleitung: Modell mit einer einzelnen GPU in GKE Autopilot bereitstellen
TPUs und GPUs in großem Umfang orchestrieren
-
Video
Einführung in Cloud TPUs für maschinelles Lernen
-
Video
Umfangreiches maschinelles Lernen auf Cloud TPUs mit GKE erstellen
-
Video
Large Language Models mit KubeRay auf TPUs bereitstellen
-
Blog
Maschinelles Lernen mit JAX in Kubernetes mit NVIDIA-GPUs
-
Blog
Mit Kubeflow und Ray in GKE eine Plattform für maschinelles Lernen (ML) erstellen
Kostenoptimierung und Joborchestrierung
-
NEU!
Referenzarchitektur für eine Batchverarbeitungsplattform in GKE
-
Blog
Leistungsstarker KI/ML-Speicher über lokale SSD-Unterstützung in GKE
-
Blog
Vereinfachte MLOps mithilfe von Weights und Biases mit der Google Kubernetes Engine
-
Best practice
Best Practices zum Ausführen von Batch-Arbeitslasten in GKE
-
Best practice
Kostenoptimierte Kubernetes-Anwendungen in GKE ausführen
-
Best practice
Verbesserung der Startzeit der stabilen Diffusion in GKE um das Vierfache