GKE Volume Populator sfrutta il concetto di base di Kubernetes Volume Populator. Anziché eseguire il provisioning di un volume vuoto, GKE Volume Populator consente a un PVC di fare riferimento a una risorsa personalizzata GCPDataSource. Questa risorsa personalizzata specifica il bucket Cloud Storage di origine e le credenziali necessarie.
Quando crei un PVC con un dataSourceRef che punta a una risorsa GCPDataSource, GKE Volume Populator avvia il trasferimento dei dati. Copia i dati dall'URI del bucket Cloud Storage specificato nel volume di archiviazione permanente sottostante prima di rendere il volume disponibile per i pod.
Questo processo riduce la necessità di utilizzare script di trasferimento dei dati manuali o comandi CLI e automatizza il trasferimento di set di dati di grandi dimensioni ai volumi permanenti. GKE Volume Populator supporta i trasferimenti di dati tra i seguenti tipi di origine e destinazione:
Il seguente diagramma mostra il flusso dei dati dallo spazio di archiviazione di origine a quello di destinazione e come viene creato PersistentVolume per lo spazio di archiviazione di destinazione utilizzando GKE Volume Populator.
Crea un PVC che fa riferimento a una risorsa personalizzata GCPDataSource.
GKE Volume Populator rileva la PVC e avvia un job di trasferimento dei dati.
Il job di trasferimento viene eseguito su un pool di nodi esistente oppure ne viene creato uno nuovo se il provisioning automatico dei nodi è abilitato.
Il job di trasferimento copia i dati dal bucket Cloud Storage specificato nella risorsa GCPDataSource al volume di archiviazione di destinazione.
Una volta completato il trasferimento, il PVC viene associato al volume di archiviazione di destinazione, rendendo i dati disponibili per il pod del workload.
Vantaggi principali
Il populator di volumi GKE offre diversi vantaggi:
Inserimento automatico dei dati: inserisci automaticamente i dati nei volumi da Cloud Storage durante il provisioning, il che contribuisce a ridurre il sovraccarico operativo.
Portabilità dei dati senza interruzioni: sposta i dati dall'archiviazione di oggetti a sistemi di archiviazione di file (Parallelstore) o blocchi (Hyperdisk) ad alte prestazioni per ottimizzare il prezzo o le prestazioni in base alle esigenze del tuo workload.
Flussi di lavoro semplificati: riduci la necessità di job di caricamento dei dati separati o di interventi manuali per preparare i volumi permanenti.
Carichi di lavoro AI/ML accelerati: precarica rapidamente set di dati, modelli e pesi di grandi dimensioni direttamente nell'archiviazione ad alte prestazioni per velocizzare le attività di addestramento e inferenza.
Casi d'uso di GKE Volume Populator
Puoi utilizzare GKE Volume Populator per caricare set di dati di addestramento di grandi dimensioni per l'AI/ML. Immagina di avere un set di dati di più terabyte per l'addestramento di un modello linguistico di grandi dimensioni (LLM) archiviato in un bucket Cloud Storage. Il job di addestramento viene eseguito su GKE e richiede prestazioni I/O elevate. Anziché copiare manualmente i dati, puoi utilizzare GKE Volume Populator per eseguire automaticamente il provisioning di un volume Parallelstore o Hyperdisk ML e completarlo con il set di dati di Cloud Storage al momento della creazione del PVC. Questo processo automatizzato contribuisce a garantire che i pod di addestramento inizino con un accesso immediato e ad alta velocità ai dati.
Ecco altri esempi in cui puoi utilizzare GKE Volume Populator:
Pre-cache dei pesi e degli asset del modello AI/ML da Cloud Storage nei volumi Hyperdisk ML per accelerare i tempi di caricamento del modello per la gestione dell'inferenza.
Migrazione dei dati da Cloud Storage ai volumi permanenti per applicazioni stateful che richiedono un accesso al disco efficiente.
[[["Facile da capire","easyToUnderstand","thumb-up"],["Il problema è stato risolto","solvedMyProblem","thumb-up"],["Altra","otherUp","thumb-up"]],[["Difficile da capire","hardToUnderstand","thumb-down"],["Informazioni o codice di esempio errati","incorrectInformationOrSampleCode","thumb-down"],["Mancano le informazioni o gli esempi di cui ho bisogno","missingTheInformationSamplesINeed","thumb-down"],["Problema di traduzione","translationIssue","thumb-down"],["Altra","otherDown","thumb-down"]],["Ultimo aggiornamento 2025-09-04 UTC."],[],[],null,["# About GKE Volume Populator\n\n[Autopilot](/kubernetes-engine/docs/concepts/autopilot-overview) [Standard](/kubernetes-engine/docs/concepts/choose-cluster-mode)\n\n*** ** * ** ***\n\nThe Google Kubernetes Engine (GKE) Volume Populator can help you automate and streamline the process of preloading data from [Cloud Storage buckets](/storage/docs/buckets) to destination [PersistentVolumeClaims (PVCs)](/kubernetes-engine/docs/concepts/persistent-volumes#persistentvolumeclaims) during [dynamic provisioning](/kubernetes-engine/docs/concepts/persistent-volumes#dynamic_provisioning).\n\n\u003cbr /\u003e\n\nHow GKE Volume Populator works\n------------------------------\n\nGKE Volume Populator leverages the core [Kubernetes Volume Populator](https://kubernetes.io/blog/2022/05/16/volume-populators-beta/) concept. Instead of provisioning an empty volume, the GKE Volume Populator allows a PVC to reference a [`GCPDataSource`](/kubernetes-engine/docs/reference/crds/gcpdatasource) custom resource. This custom resource specifies the source Cloud Storage bucket and the necessary credentials.\n\nWhen you create a PVC with a `dataSourceRef` pointing to a `GCPDataSource` resource, the GKE Volume Populator initiates the data transfer. It copies data from the specified Cloud Storage bucket URI into the underlying persistent storage volume before making the volume available to your Pods.\n\nThis process reduces your need to use manual data transfer scripts or CLI commands, and automates the transfer of large datasets to persistent volumes. GKE Volume Populator supports data transfers between the following source and destination types:\n\n- Cloud Storage to [Parallelstore](/kubernetes-engine/docs/concepts/parallelstore-for-gke)\n- Cloud Storage to [Hyperdisk ML](/kubernetes-engine/docs/concepts/hyperdisk#hyperdisk-ml)\n\nGKE Volume Populator is a GKE managed component that's enabled by default on both Autopilot and Standard clusters. You primarily interact with GKE Volume Populator through the [gcloud CLI](/sdk/gcloud) and [kubectl](https://kubernetes.io/docs/reference/kubectl/) CLI.\n\n### Architecture\n\nThe following diagram shows how data flows from the source storage to the destination\nstorage, and how the [PersistentVolume](/kubernetes-engine/docs/concepts/persistent-volumes) for the destination storage is created by using GKE Volume Populator.\n\n1. You create a PVC that references a [`GCPDataSource`](/kubernetes-engine/docs/reference/crds/gcpdatasource) custom resource.\n2. The GKE Volume Populator detects the PVC and initiates a data transfer Job.\n3. The transfer Job runs on an existing node pool, or a new one is created if node auto-provisioning is enabled.\n4. The transfer Job copies data from the Cloud Storage bucket specified in the `GCPDataSource` resource to the destination storage volume.\n5. After the transfer is complete, the PVC is bound to the destination storage volume, making the data available to the workload Pod.\n\nKey benefits\n------------\n\nThe GKE Volume Populator offers several benefits:\n\n- **Automated data population**: automatically populate volumes with data from Cloud Storage during provisioning, which helps reduce operational overhead.\n- **Seamless data portability**: move data from object storage to high-performance file (Parallelstore) or block storage (Hyperdisk) systems to help optimize for price or performance based on your workload needs.\n- **Simplified workflows**: reduce the need for separate data loading Jobs, or manual intervention to prepare persistent volumes.\n- **Integration with [Identity and Access Management (IAM)](/iam/docs/overview)** : use IAM-based authentication through [Workload Identity Federation for GKE](/kubernetes-engine/docs/concepts/workload-identity) to help ensure secure data transfer with fine-grained access control.\n- **Accelerated AI/ML workloads**: quickly preload large datasets, models, and weights directly into high-performance storage to help speed up training and inference tasks.\n\nUse cases for GKE Volume Populator\n----------------------------------\n\nYou can use GKE Volume Populator to load large training datasets for AI/ML. Imagine you have a multi-terabyte dataset for training a large language model (LLM) stored in a Cloud Storage bucket. Your training Job runs on GKE and requires high I/O performance. Instead of manually copying the data, you can use the GKE Volume Populator to automatically provision a [Parallelstore](/kubernetes-engine/docs/how-to/persistent-volumes/volume-populator) or [Hyperdisk ML](/kubernetes-engine/docs/how-to/persistent-volumes/volume-populator-hdml) volume, and populate it with the dataset from Cloud Storage when the PVC is created. This automated process helps ensure that your training Pods start with immediate, high-speed access to the data.\n\nHere are some more examples where you can use the GKE Volume Populator:\n\n- Pre-caching AI/ML model weights and assets from Cloud Storage into Hyperdisk ML volumes to accelerate model loading times for inference serving.\n- Migrating data from Cloud Storage to persistent volumes for stateful applications requiring performant disk access.\n\nWhat's next\n-----------\n\n- [Automate data transfer to Parallelstore by using GKE Volume Populator](/kubernetes-engine/docs/how-to/persistent-volumes/volume-populator).\n- [Automate data transfer to Hyperdisk ML by using GKE Volume Populator](/kubernetes-engine/docs/how-to/persistent-volumes/volume-populator-hdml).\n- [Troubleshooting GKE Volume Populator data transfer issues](/kubernetes-engine/docs/troubleshooting/troubleshooting-gke-volume-populator)."]]