Diese Seite wurde von der Cloud Translation API übersetzt.

GKE Volume Populator

Autopilot Standard

Mit dem GKE-Volume-Populator können Sie das Vorladen von Daten aus Cloud Storage-Buckets in PersistentVolumeClaims (PVCs) während der dynamischen Bereitstellung automatisieren und optimieren.

Funktionsweise von GKE Volume Populator

GKE Volume Populator basiert auf dem Kubernetes Volume Populator-Kernkonzept. Anstatt ein leeres Volume bereitzustellen, kann ein PVC mit dem GKE Volume Populator auf eine benutzerdefinierte Ressource vom Typ GCPDataSource verweisen. In dieser benutzerdefinierten Ressource werden der Cloud Storage-Quell-Bucket und die erforderlichen Anmeldedaten angegeben.

Wenn Sie einen PVC mit einem dataSourceRef erstellen, der auf eine GCPDataSource-Ressource verweist, initiiert der GKE-Volume-Populator die Datenübertragung. Dabei werden Daten aus dem angegebenen Cloud Storage-Bucket-URI in das zugrunde liegende persistente Speichervolume kopiert, bevor das Volume für Ihre Pods verfügbar gemacht wird.

Dadurch müssen Sie weniger manuelle Datenübertragungsskripts oder CLI-Befehle verwenden und die Übertragung großer Datasets auf persistente Volumes wird automatisiert. GKE Volume Populator unterstützt Datenübertragungen zwischen den folgenden Quell- und Zieltypen:

Cloud Storage zu Parallelstore
Cloud Storage für Hyperdisk ML

GKE Volume Populator ist eine von GKE verwaltete Komponente, die standardmäßig sowohl in Autopilot- als auch in Standard-Clustern aktiviert ist. Die Interaktion mit GKE Volume Populator erfolgt hauptsächlich über die gcloud CLI und die kubectl-CLI.

Architektur

Das folgende Diagramm zeigt, wie Daten vom Quellspeicher zum Zielspeicher fließen und wie das PersistentVolume für den Zielspeicher mit GKE Volume Populator erstellt wird.

Sie erstellen einen PVC, der auf eine benutzerdefinierte GCPDataSource-Ressource verweist.
Der GKE Volume Populator erkennt das PVC und initiiert einen Datenübertragungsjob.
Der Übertragungsjob wird in einem vorhandenen Knotenpool ausgeführt. Wenn die automatische Knotenbereitstellung aktiviert ist, wird ein neuer Knotenpool erstellt.
Mit dem Übertragungsjob werden Daten aus dem in der GCPDataSource-Ressource angegebenen Cloud Storage-Bucket in das Zielspeichervolume kopiert.
Nach Abschluss der Übertragung wird der PVC an das Zielspeichervolume gebunden, sodass die Daten für den Arbeitslast-Pod verfügbar sind.

Datenübertragung vom Quelldatenspeicher und Erstellung von PV für den Zielspeicher mit dem GKE Volume Populator

Hauptvorteile

Der GKE Volume Populator bietet mehrere Vorteile:

Automatisierte Datenübertragung: Beim Bereitstellen von Volumes können Daten aus Cloud Storage automatisch übertragen werden. Das trägt dazu bei, den operativen Aufwand zu reduzieren.
Nahtlose Datenportabilität: Verschieben Sie Daten aus dem Objektspeicher in leistungsstarke Dateisysteme (Parallelstore) oder Blockspeichersysteme (Hyperdisk), um den Preis oder die Leistung entsprechend den Anforderungen Ihrer Arbeitslast zu optimieren.
Vereinfachte Workflows: Sie benötigen weniger separate Jobs zum Laden von Daten oder manuelle Eingriffe zum Vorbereiten von persistenten Volumes.
Integration mit Identity and Access Management (IAM): Verwenden Sie die IAM-basierte Authentifizierung über Workload Identity Federation for GKE, um für eine sichere Datenübertragung mit detaillierter Zugriffssteuerung zu sorgen.
Beschleunigte KI-/ML-Arbeitslasten: Große Datasets, Modelle und Gewichte können schnell direkt in den Hochleistungsspeicher vorab geladen werden, um Trainings- und Inferenzaufgaben zu beschleunigen.

Anwendungsfälle für GKE Volume Populator

Mit GKE Volume Populator können Sie große Trainingsdatasets für KI/ML laden. Angenommen, Sie haben ein Dataset mit mehreren Terabyte zum Trainieren eines Large Language Model (LLM), das in einem Cloud Storage-Bucket gespeichert ist. Ihr Trainingsjob wird in GKE ausgeführt und erfordert eine hohe E/A-Leistung. Anstatt die Daten manuell zu kopieren, können Sie mit dem GKE Volume Populator automatisch ein Parallelstore- oder Hyperdisk ML-Volume bereitstellen und es mit dem Dataset aus Cloud Storage füllen, wenn der PVC erstellt wird. Dieser automatisierte Prozess sorgt dafür, dass Ihre Trainings-Pods sofortigen Hochgeschwindigkeitszugriff auf die Daten haben.

Hier sind einige weitere Beispiele für die Verwendung des GKE Volume Populator:

Vorab-Caching von KI-/ML-Modellgewichten und ‑Assets aus Cloud Storage in Hyperdisk ML-Volumes, um die Modellladezeiten für die Inferenzbereitstellung zu beschleunigen.
Daten aus Cloud Storage in nichtflüchtige Volumes für zustandsorientierte Anwendungen migrieren, die einen leistungsstarken Festplattenzugriff erfordern.

GKE Volume Populator

Funktionsweise von GKE Volume Populator

Architektur

Hauptvorteile

Anwendungsfälle für GKE Volume Populator

Nächste Schritte