Dokumentation zur KI/ML-Orchestrierung in GKE

Gemma, die neue Familie offener Modelle von Google DeepMind, ist in GKE verfügbar.

Diese Seite wurde von der Cloud Translation API übersetzt.

Startseite
Dokumentation
KI/ML-Orchestrierung in GKE

Mit Sammlungen den Überblick behalten Sie können Inhalte basierend auf Ihren Einstellungen speichern und kategorisieren.

Dokumentation zur KI/ML-Orchestrierung in GKE

Optimierte KI-/ML-Arbeitslasten mit den Funktionen der Google Kubernetes Engine (GKE)-Plattformorchestrierung ausführen. Mit der Google Kubernetes Engine (GKE) können Sie eine robuste, produktionsreife KI‑/ML-Plattform mit allen Vorteilen von verwaltetem Kubernetes und den folgenden Funktionen implementieren:

Infrastrukturorchestrierung, die GPUs und TPUs zum Trainieren und Bereitstellen einer großen Anzahl von Arbeitslasten unterstützt
Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks
Unterstützung mehrerer Teams in derselben Infrastruktur zur Maximierung der Auslastung von Ressourcen

Auf dieser Seite erhalten Sie einen Überblick über die KI-/ML-Funktionen von GKE und erfahren, wie Sie optimierte KI-/ML-Arbeitslasten mit GPUs, TPUs und Frameworks wie Hugging Face TGI, vLLM und JetStream in GKE ausführen.

Jetzt kostenlos starten

Starten Sie Ihr nächstes Projekt mit einem Guthaben in Höhe von 300 $

Mit dem Guthaben für die kostenlose Testversion und der kostenlosen monatlichen Nutzung von mehr als 20 Produkten können Sie einen Proof of Concept erstellen und testen.

Angebote für kostenlose Produkte ansehen

Mehr als 20 Produkte immer kostenlos nutzen

Sie haben Zugriff auf mehr als 20 kostenlose Produkte für gängige Anwendungsfälle, darunter KI-APIs, VMs, Data Warehouses und mehr.

Dokumentationsressourcen

Finden Sie Kurzanleitungen und Leitfäden, prüfen Sie wichtige Referenzen und erhalten Sie Hilfe bei häufigen Problemen.

info

Offene Modelle in GKE bereitstellen

NEU!

LLMs wie Deepseek-R1 671B oder Llama 3.1 405B in GKE bereitstellen
NEU!

LLM mithilfe von TPUs in GKE mit KubeRay bereitstellen
Tutorial

LLM mithilfe von TPU Trillium in GKE mit vLLM bereitstellen
Tutorial

Kurzanleitung: LLM mit einer einzelnen GPU in GKE bereitstellen
Tutorial

Gemma mit GPUs in GKE mit Hugging Face TGI bereitstellen
Tutorial

Gemma mit GPUs in GKE mit vLLM bereitstellen

info

TPUs und GPUs in großem Umfang orchestrieren

NEU!

GKE-Ressourcennutzung für gemischte KI/ML-Trainings- und Inferenzarbeitslasten optimieren
Video

Einführung in Cloud TPUs für maschinelles Lernen
Video

Umfangreiches maschinelles Lernen auf Cloud TPUs mit GKE erstellen
Video

Large Language Models mit KubeRay auf TPUs bereitstellen
Blog

Maschinelles Lernen mit JAX in Kubernetes mit NVIDIA-GPUs

info

Kostenoptimierung und Joborchestrierung

NEU!

Referenzarchitektur für eine Batchverarbeitungsplattform in GKE
Blog

Leistungsstarker KI/ML-Speicher über lokale SSD-Unterstützung in GKE
Blog

Vereinfachte MLOps mithilfe von Weights und Biases mit der Google Kubernetes Engine
Best practice

Best Practices zum Ausführen von Batch-Arbeitslasten in GKE
Best practice

Kostenoptimierte Kubernetes-Anwendungen in GKE ausführen
Best practice

Verbesserung der Startzeit der stabilen Diffusion in GKE um das Vierfache

Weitere Informationen

Schulungen und Anleitungen

Anwendungsfälle:

Codebeispiele

Entdecken Sie Schulungen von Google Cloud Skills Boost, Anwendungsfälle, Referenzarchitekturen und Codebeispiele mit Details zur Verwendung und Verbindung von Google Cloud-Diensten. Google Cloud

Training

Schulungen und Tutorials

Open-Source-Modelle mit TPUs in GKE mit Optimum TPU bereitstellen

Informationen zum Bereitstellen von LLMs mit Tensor Processing Units (TPUs) in GKE mit dem Optimum TPU-Bereitstellungs-Framework von Hugging Face

Weitere Informationen

Training

Schulungen und Tutorials

Volume mit einer Parallelstore-Instanz in GKE erstellen und verwenden

Hier erfahren Sie, wie Sie Speicherplatz mit vollständig verwalteten Parallelstore-Instanzen erstellen und als Volumes darauf zugreifen. Der CSI-Treiber ist für KI-/ML-Trainingsarbeitslasten mit kleineren Dateigrößen und zufälligen Lesezugriffen optimiert.

Weitere Informationen

Training

Schulungen und Tutorials

KI/ML-Datenladevorgänge mit Hyperdisk ML beschleunigen

Hier erfahren Sie, wie Sie mit Hyperdisk ML das Laden von KI-/ML-Modellgewichtungen in GKE vereinfachen und beschleunigen.

Weitere Informationen

Training

Schulungen und Tutorials

LLM mithilfe von TPUs in GKE mit JetStream und PyTorch bereitstellen

Informationen zum Bereitstellen eines LLM mithilfe von Tensor Processing Units (TPUs) in GKE mit JetStream über PyTorch

Weitere Informationen

Training

Schulungen und Tutorials

Best Practices für die Optimierung der LLM-Inferenz mit GPUs in GKE

Best Practices für die Optimierung der LLM-Inferenzleistung mit GPUs in der GKE mit den Serving-Frameworks vLLM und Text Generation Inference (TGI)

Weitere Informationen

Training

Schulungen und Tutorials

GPU-Stack mit dem NVIDIA GPU-Operator in GKE verwalten

Informationen dazu, wann Sie den NVIDIA GPU-Operator verwenden und wie Sie ihn in GKE aktivieren

Weitere Informationen

Training

Schulungen und Tutorials

Autoscaling für LLM-Arbeitslasten auf TPUs konfigurieren

Hier erfahren Sie, wie Sie die Autoscaling-Infrastruktur mit dem horizontalen Pod-Autoscaler (HPA) von GKE einrichten, um das Large Language Model (LLM) Gemma mit JetStream mit einem einzelnen Host bereitzustellen.

Weitere Informationen

Training

Schulungen und Tutorials

Offene Gemma-Modelle mit mehreren GPUs in GKE optimieren

Informationen zum Optimieren des Gemma-LLM mit GPUs in GKE mit der Hugging Face Transformers-Bibliothek

Weitere Informationen

Training

Schulungen und Tutorials

Ray Serve-Anwendung mit einem Stable Diffusion-Modell in GKE mit TPUs bereitstellen

Informationen zum Bereitstellen und Ausführen eines Stable Diffusion-Modells in GKE mit TPUs, Ray Serve und dem Ray Operator-Add-on

Weitere Informationen

Training

Schulungen und Tutorials

Autoscaling für LLM-Arbeitslasten auf GPUs mit GKE konfigurieren

Hier erfahren Sie, wie Sie die Autoscaling-Infrastruktur mit dem horizontalen Pod-Autoscaler (HPA) von GKE einrichten, um das Large Language Model (LLM) Gemma mit dem Serving-Framework der Benutzeroberfläche zur Textgenerierung (TGI) von Hugging Face bereitzustellen.

Weitere Informationen

Training

Schulungen und Tutorials

Llama2 mit Megatron-LM auf virtuellen A3-Mega-Maschinen trainieren

Informationen zum Ausführen einer containerbasierten Megatron-LM-PyTorch-Arbeitslast auf A3 Mega

Weitere Informationen

Training

Schulungen und Tutorials

GPU-Arbeitslasten in Autopilot bereitstellen

Hardwarebeschleuniger (GPUs) in GKE Autopilot-Arbeitslasten anfordern

Weitere Informationen

Training

Schulungen und Tutorials

LLM mit mehreren GPUs in GKE bereitstellen

Informationen zum Bereitstellen von Llama 2 70B oder Falcon 40B mit mehreren NVIDIA L4-GPUs in GKE

Weitere Informationen

Training

Schulungen und Tutorials

LLM mithilfe von mehrere Hosts in GKE mit Saxml bereitstellen

Erfahren Sie, wie Sie Falcon 7b, Llama2 7b, Falcon 40b oder Llama2 70b mit dem Ray-Framework in GKE bereitstellen.

Weitere Informationen

Training

Schulungen und Tutorials

Erste Schritte mit Ray in GKE

Hier erfahren Sie, wie Sie Ray in GKE ganz einfach verwenden können, indem Sie eine Arbeitslast in einem Ray-Cluster ausführen.

Weitere Informationen

Training

Schulungen und Tutorials

LLM auf L4-GPUs mit Ray bereitstellen

Erfahren Sie, wie Sie Falcon 7b, Llama2 7b, Falcon 40b oder Llama2 70b mit dem Ray-Framework in GKE bereitstellen.

Weitere Informationen

Training

Schulungen und Tutorials

TPU-Multislice-Arbeitslasten mit JobSet und Kueue orchestrieren

Hier erfahren Sie, wie Sie mit JobSet und Kueue eine Jax-Arbeitslast auf mehreren TPU-Slices in GKE orchestrieren.

Weitere Informationen

Training

Schulungen und Tutorials

GPU-Arbeitslasten in GKE mit NVIDIA Data Center GPU Manager (DCGM) überwachen

Erfahren Sie, wie Sie mit NVIDIA Data Center GPU Manager (DCGM) GPU-Arbeitslasten in GKE beobachten.

Weitere Informationen

Training

Schulungen und Tutorials

Kurzanleitung: Modell mit GPUs in GKE Standard-Clustern trainieren

In dieser Kurzanleitung wird gezeigt, wie Sie ein Trainingsmodell mit GPUs in GKE bereitstellen und die Vorhersagen in Cloud Storage speichern.

Weitere Informationen

Training

Schulungen und Tutorials

Umfangreiches maschinelles Lernen in GKE ausführen

In diesem Video erfahren Sie, wie sich mit der GKE häufige Probleme beim Trainieren umfangreicher KI-Modelle lösen lassen, und Sie lernen Best Practices für das Trainieren und Bereitstellen von umfangreichen ML-Modellen in der GKE kennen.

Weitere Informationen

Training

Schulungen und Tutorials

TensorFlow in GKE Autopilot mit GPU-Beschleunigung

In diesem Blogpost finden Sie eine detaillierte Anleitung zum Erstellen, Ausführen und Bereinigen eines Tensorflow-fähigen Jupiter-Notebooks.

Weitere Informationen

Training

Schulungen und Tutorials

Jobwarteschlangensystem mit Kontingentfreigabe zwischen Namespaces in GKE implementieren

In dieser Anleitung wird mit Kueue gezeigt, wie Sie ein Jobwarteschlangensystem implementieren und die Freigabe von Arbeitslastressourcen und Kontingenten zwischen verschiedenen Namespaces in GKE konfigurieren.

Weitere Informationen

Training

Schulungen und Tutorials

RAG-Chatbot mit GKE und Cloud Storage erstellen

In dieser Anleitung erfahren Sie, wie Sie eine Large Language Model-Anwendung, die auf einer retrieval-augmented generation basiert, in PDF-Dateien einbinden, die Sie in einen Cloud Storage-Bucket hochladen.

Weitere Informationen

Training

Schulungen und Tutorials

Daten in GKE mit BigQuery, Cloud Run und Gemma analysieren

In dieser Anleitung erfahren Sie, wie Sie große Datensätze in der GKE analysieren, indem Sie BigQuery für die Datenspeicherung und ‑verarbeitung, Cloud Run für die Anfrageabarbeitung und eine Gemma-LLM für die Datenanalyse und -vorhersage verwenden.

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Distributed Data Preprocessing with GKE and Ray: Scaling for the Enterprise

Informationen zum effizienten Vorverarbeiten großer Datensätze für maschinelles Lernen mit GKE und Ray

MLOps Training Ray

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Best Practices für das Laden von Daten für KI-/ML-Inferenz in GKE

Hier erfahren Sie, wie Sie die Datenladezeiten für Ihre Anwendungen für maschinelles Lernen in der Google Kubernetes Engine beschleunigen.

Inferenz Hyperdisk ML Cloud Storage FUSE

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Kosten für GPUs senken: Intelligenteres Autoscaling für Ihre GKE-Inferenzarbeitslasten

Hier erfahren Sie, wie Sie die Kosten für GPU-Inferenzen optimieren, indem Sie den horizontalen Pod-Autoscaler von GKE für maximale Effizienz optimieren.

Inferenz GPU HPA

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Optimierte KI-Modelle mit NVIDIA NIM-Mikrodiensten in GKE effizient bereitstellen

Hier erfahren Sie, wie Sie modernste NVIDIA NIM-Mikrodienste ganz einfach in GKE bereitstellen und Ihre KI-Arbeitslasten beschleunigen.

KI NVIDIA NIM

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Ray in der Produktion mit dem neuen Ray-Operator in GKE beschleunigen

Hier erfahren Sie, wie der Ray-Operator in der GKE Ihre KI/ML-Produktionsbereitstellungen vereinfacht und Leistung und Skalierbarkeit verbessert.

KI TPU Ray

Weitere Informationen

Anwendungsfall

Anwendungsfälle

LLM-Ausgabedurchsatz für GPUs in GKE maximieren – ein praktischer Leitfaden

Hier erfahren Sie, wie Sie den Durchsatz beim Bereitstellen von Large Language Models (LLM) für GPUs in GKE maximieren, einschließlich Infrastrukturentscheidungen und Modellserveroptimierungen.

LLM GPU NVIDIA

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Suchmaschinen einfach gemacht: Ein Low-Code-Ansatz mit GKE und Vertex AI Agent Builder

Informationen zum Erstellen einer Suchmaschine mit Google Cloud, Vertex AI Agent Builder, Vertex AI Search und GKE

Such Agent Vertex AI

Weitere Informationen

Anwendungsfall

Anwendungsfälle

LiveX AI senkt die Kosten für den Kundensupport mit KI-Agents, die mit GKE und NVIDIA AI trainiert und bereitgestellt werden

So nutzt LiveX AI GKE, um KI-Agents zu entwickeln, die die Kundenzufriedenheit steigern und die Kosten senken.

GenAI NVIDIA GPU

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Infrastruktur für eine RAG-fähige generative KI-Anwendung mit GKE

Referenzarchitektur für die Ausführung einer generativen KI-Anwendung mit Retrieval Augmented Generation (RAG) unter Verwendung von GKE, Cloud SQL, Ray, Hugging Face und LangChain

GenAI RAG Ray

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Innovationen bei der Patentrecherche: So nutzt IPRally KI mit GKE und Ray

Wie IPRally mit GKE und Ray eine skalierbare, effiziente ML-Plattform für schnellere und genauere Patentrecherchen entwickelt.

KI Ray GPU

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Leistungsanalyse von Gemma in Google Cloud

Mit Gemma auf Cloud GPUs und Cloud TPUs Inferenz- und Trainingseffizienz in GKE erzielen

KI Gemma Leistung

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Gemma in GKE – neue Innovationen für offene generative KI-Modelle

Mit den branchenführenden offenen Gemma-Modellen können Sie portable, anpassbare KI-Anwendungen erstellen und in GKE bereitstellen.

KI Gemma Leistung

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Erweiterte Planung für KI/ML mit Ray und Kueue

Ray-Anwendungen in GKE mit KubeRay und Kueue orchestrieren.

Kueue Ray KubeRay

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Ray in Google Kubernetes Engine schützen

Sicherheitserkenntnisse und Härtungstechniken zum Trainieren von KI/ML-Arbeitslasten mit Ray on GKE anwenden.

KI Ray Security

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Speicher für KI- und ML-Arbeitslasten in Google Cloud entwerfen

Wählen Sie die beste Kombination von Speicheroptionen für KI- und ML-Arbeitslasten in Google Cloud aus.

KI ML Speicher

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Die automatische Treiberinstallation vereinfacht die Verwendung von NVIDIA-GPUs in GKE

Nvidia-GPU-Treiber automatisch in GKE installieren.

GPU NVIDIA Installation

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Generative KI mit dem NVIDIA NeMo-Framework in GKE beschleunigen

Trainieren Sie generative KI-Modelle mit dem GKE- und NVIDIA NeMo-Framework.

GenAI NVIDIA NeMo

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Vorteile von GKE für Ray KI-Arbeitslasten

Verbessern Sie mit GKE für Ray-Arbeitslasten Skalierbarkeit, Kosteneffizienz, Fehlertoleranz, Isolation und Übertragbarkeit.

KI Ray Skalierung

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Diagramm: KI in vollständig verwaltetem GKE ausführen – jetzt mit neuen Computing-Optionen, Preisen und Ressourcenreservierungen

Profitieren Sie mit GKE Autopilot von verbessertem GPU-Support, Leistung und niedrigeren Preisen für KI/ML-Arbeitslasten.

GPU Autopilot Leistung

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Wie SEEN die Ausgabe um das 89-Fache skalieren und die GPU-Kosten mithilfe von GKE um 66 % senken konnte

Start-up skaliert die personalisierte Videoausgabe mit GKE.

GPU Skalieren Container

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Wie Spotify gemeinsam mit Ray und GKE ML-Innovationen einsetzt

So transformiert Ray die ML-Entwicklung bei Spotify.

ML Ray Container

Weitere Informationen

Anwendungsfall

Anwendungsfälle

Wie Ordaos Bio Generative AI in GKE nutzt

Ordaos Bio, einer der führenden KI-Beschleuniger für die biomedizinische Forschung und Entdeckung, sucht nach Lösungen für neue Impfstoffe in der Onkologie und bei chronischen Entzündungen.

Leistung TPU Kostenoptimierung

Weitere Informationen

Anwendungsfall

Anwendungsfälle

GKE eines wachsenden Start-ups, das auf ML basiert

Moloco, ein Start-up-Unternehmen aus dem Silicon Valley, nutzte die Möglichkeiten von GKE und Tensor Flow Enterprise, um seine ML-Infrastruktur zu optimieren.

KI Skalierung Kostenoptimierung

Weitere Informationen

Codebeispiele

Slurm in GKE

In diesem Beispiel wird gezeigt, wie Sie Slurm in einem Google Kubernetes Engine-Cluster (GKE) bereitstellen.

GitHub öffnen

Codebeispiele

Ray in GKE

Verwenden Sie diese Terraform-Vorlage, um Ray in GKE auszuführen.

GitHub öffnen

Codebeispiele

Ray in GKE mit TPUs einrichten

Verwenden Sie dieses Terraform-Beispiel, um Ray in einem GKE-Cluster mit einer 2x2x1-Topologie bereitzustellen.

GitHub öffnen

Codebeispiele

ML-Trainingsarbeitslasten in GKE mit der JobSet API

Verteilte Trainingsarbeitslasten für maschinelles Lernen mit der JobSet API in GKE ausführen

GitHub öffnen

Codebeispiele

JAX "Hello World" in GKE

Führen Sie ein einfaches JAX-Programm mit NVIDIA A100-80GB-GPUs in einem GKE-Cluster aus.

GitHub öffnen

Gemma, die neue Familie offener Modelle von Google DeepMind, ist in GKE verfügbar.

Dokumentation zur KI/ML-Orchestrierung in GKE

Starten Sie Ihr nächstes Projekt mit einem Guthaben in Höhe von 300 $

Mehr als 20 Produkte immer kostenlos nutzen

Offene Modelle in GKE bereitstellen

TPUs und GPUs in großem Umfang orchestrieren

Kostenoptimierung und Joborchestrierung

Ähnliche Videos