O GKE Volume Populator usa o conceito principal de Kubernetes Volume Populator. Em vez de provisionar um volume vazio, o GKE Volume Populator permite que um PVC faça referência a um recurso personalizado GCPDataSource. Esse recurso personalizado especifica o bucket de origem do Cloud Storage e as credenciais necessárias.
Quando você cria uma PVC com um dataSourceRef apontando para um recurso GCPDataSource, o GKE Volume Populator inicia a transferência de dados. Ele copia os dados do URI do bucket do Cloud Storage especificado para o volume de armazenamento persistente subjacente antes de disponibilizar o volume para seus pods.
Esse processo reduz a necessidade de usar scripts manuais de transferência de dados ou comandos da CLI e automatiza a transferência de grandes conjuntos de dados para volumes permanentes. O GKE Volume Populator aceita transferências de dados entre os seguintes tipos de origem e destino:
O GKE Volume Populator é um componente gerenciado do GKE ativado por padrão nos clusters Autopilot e Standard. Você interage principalmente com o GKE Volume Populator pela CLI gcloud e pela CLI kubectl.
Arquitetura
O diagrama a seguir mostra como os dados fluem do armazenamento de origem para o de destino e como o PersistentVolume do armazenamento de destino é criado usando o GKE Volume Populator.
Você cria uma PVC que faz referência a um recurso personalizado GCPDataSource.
O GKE Volume Populator detecta o PVC e inicia um job de transferência de dados.
O job de transferência é executado em um pool de nós atual ou um novo é criado se o provisionamento automático de nós estiver ativado.
O job de transferência copia dados do bucket do Cloud Storage especificado no recurso GCPDataSource para o volume de armazenamento de destino.
Depois que a transferência é concluída, a PVC é vinculada ao volume de armazenamento de destino, disponibilizando os dados para o pod de carga de trabalho.
Principais vantagens
O GKE Volume Populator oferece vários benefícios:
Preenchimento automático de dados: preencha automaticamente os volumes com dados do Cloud Storage durante o provisionamento, o que ajuda a reduzir a sobrecarga operacional.
Portabilidade de dados sem problemas: mova dados do armazenamento de objetos para sistemas de arquivos de alto desempenho (Parallelstore) ou de armazenamento em blocos (Hyperdisk) para otimizar o preço ou o desempenho com base nas necessidades da sua carga de trabalho.
Fluxos de trabalho simplificados: reduza a necessidade de jobs de carregamento de dados separados ou intervenção manual para preparar volumes permanentes.
Cargas de trabalho aceleradas de IA/ML: pré-carregue rapidamente grandes conjuntos de dados, modelos e pesos diretamente no armazenamento de alta performance para acelerar as tarefas de treinamento e inferência.
Casos de uso do GKE Volume Populator
É possível usar o GKE Volume Populator para carregar grandes conjuntos de dados de treinamento para IA/ML. Imagine que você tenha um conjunto de dados de vários terabytes para treinar um modelo de linguagem grande (LLM) armazenado em um bucket do Cloud Storage. Seu trabalho de treinamento é executado no GKE e exige alta performance de E/S. Em vez de copiar os dados manualmente, use o GKE Volume Populator para provisionar automaticamente um volume Parallelstore ou Hyperdisk ML e preenchê-lo com o conjunto de dados do Cloud Storage quando o PVC for criado. Esse processo automatizado ajuda a garantir que seus pods de treinamento comecem com acesso imediato e de alta velocidade aos dados.
Confira mais exemplos de onde usar o GKE Volume Populator:
Pré-armazenar em cache pesos e recursos de modelos de IA/ML do Cloud Storage em volumes do Hyperdisk ML para acelerar os tempos de carregamento de modelos para veiculação de inferência.
Migrar dados do Cloud Storage para volumes permanentes em aplicativos com estado que exigem acesso a disco de alto desempenho.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-04 UTC."],[],[],null,["# About GKE Volume Populator\n\n[Autopilot](/kubernetes-engine/docs/concepts/autopilot-overview) [Standard](/kubernetes-engine/docs/concepts/choose-cluster-mode)\n\n*** ** * ** ***\n\nThe Google Kubernetes Engine (GKE) Volume Populator can help you automate and streamline the process of preloading data from [Cloud Storage buckets](/storage/docs/buckets) to destination [PersistentVolumeClaims (PVCs)](/kubernetes-engine/docs/concepts/persistent-volumes#persistentvolumeclaims) during [dynamic provisioning](/kubernetes-engine/docs/concepts/persistent-volumes#dynamic_provisioning).\n\n\u003cbr /\u003e\n\nHow GKE Volume Populator works\n------------------------------\n\nGKE Volume Populator leverages the core [Kubernetes Volume Populator](https://kubernetes.io/blog/2022/05/16/volume-populators-beta/) concept. Instead of provisioning an empty volume, the GKE Volume Populator allows a PVC to reference a [`GCPDataSource`](/kubernetes-engine/docs/reference/crds/gcpdatasource) custom resource. This custom resource specifies the source Cloud Storage bucket and the necessary credentials.\n\nWhen you create a PVC with a `dataSourceRef` pointing to a `GCPDataSource` resource, the GKE Volume Populator initiates the data transfer. It copies data from the specified Cloud Storage bucket URI into the underlying persistent storage volume before making the volume available to your Pods.\n\nThis process reduces your need to use manual data transfer scripts or CLI commands, and automates the transfer of large datasets to persistent volumes. GKE Volume Populator supports data transfers between the following source and destination types:\n\n- Cloud Storage to [Parallelstore](/kubernetes-engine/docs/concepts/parallelstore-for-gke)\n- Cloud Storage to [Hyperdisk ML](/kubernetes-engine/docs/concepts/hyperdisk#hyperdisk-ml)\n\nGKE Volume Populator is a GKE managed component that's enabled by default on both Autopilot and Standard clusters. You primarily interact with GKE Volume Populator through the [gcloud CLI](/sdk/gcloud) and [kubectl](https://kubernetes.io/docs/reference/kubectl/) CLI.\n\n### Architecture\n\nThe following diagram shows how data flows from the source storage to the destination\nstorage, and how the [PersistentVolume](/kubernetes-engine/docs/concepts/persistent-volumes) for the destination storage is created by using GKE Volume Populator.\n\n1. You create a PVC that references a [`GCPDataSource`](/kubernetes-engine/docs/reference/crds/gcpdatasource) custom resource.\n2. The GKE Volume Populator detects the PVC and initiates a data transfer Job.\n3. The transfer Job runs on an existing node pool, or a new one is created if node auto-provisioning is enabled.\n4. The transfer Job copies data from the Cloud Storage bucket specified in the `GCPDataSource` resource to the destination storage volume.\n5. After the transfer is complete, the PVC is bound to the destination storage volume, making the data available to the workload Pod.\n\nKey benefits\n------------\n\nThe GKE Volume Populator offers several benefits:\n\n- **Automated data population**: automatically populate volumes with data from Cloud Storage during provisioning, which helps reduce operational overhead.\n- **Seamless data portability**: move data from object storage to high-performance file (Parallelstore) or block storage (Hyperdisk) systems to help optimize for price or performance based on your workload needs.\n- **Simplified workflows**: reduce the need for separate data loading Jobs, or manual intervention to prepare persistent volumes.\n- **Integration with [Identity and Access Management (IAM)](/iam/docs/overview)** : use IAM-based authentication through [Workload Identity Federation for GKE](/kubernetes-engine/docs/concepts/workload-identity) to help ensure secure data transfer with fine-grained access control.\n- **Accelerated AI/ML workloads**: quickly preload large datasets, models, and weights directly into high-performance storage to help speed up training and inference tasks.\n\nUse cases for GKE Volume Populator\n----------------------------------\n\nYou can use GKE Volume Populator to load large training datasets for AI/ML. Imagine you have a multi-terabyte dataset for training a large language model (LLM) stored in a Cloud Storage bucket. Your training Job runs on GKE and requires high I/O performance. Instead of manually copying the data, you can use the GKE Volume Populator to automatically provision a [Parallelstore](/kubernetes-engine/docs/how-to/persistent-volumes/volume-populator) or [Hyperdisk ML](/kubernetes-engine/docs/how-to/persistent-volumes/volume-populator-hdml) volume, and populate it with the dataset from Cloud Storage when the PVC is created. This automated process helps ensure that your training Pods start with immediate, high-speed access to the data.\n\nHere are some more examples where you can use the GKE Volume Populator:\n\n- Pre-caching AI/ML model weights and assets from Cloud Storage into Hyperdisk ML volumes to accelerate model loading times for inference serving.\n- Migrating data from Cloud Storage to persistent volumes for stateful applications requiring performant disk access.\n\nWhat's next\n-----------\n\n- [Automate data transfer to Parallelstore by using GKE Volume Populator](/kubernetes-engine/docs/how-to/persistent-volumes/volume-populator).\n- [Automate data transfer to Hyperdisk ML by using GKE Volume Populator](/kubernetes-engine/docs/how-to/persistent-volumes/volume-populator-hdml).\n- [Troubleshooting GKE Volume Populator data transfer issues](/kubernetes-engine/docs/troubleshooting/troubleshooting-gke-volume-populator)."]]