Como o GKE Volume Populator funciona
O GKE Volume Populator usa o conceito principal de Kubernetes Volume Populator. Em vez de provisionar um volume vazio, o GKE Volume Populator permite que um PVC faça referência a um recurso personalizado GCPDataSource
. Esse recurso personalizado especifica o bucket de origem do Cloud Storage e as credenciais necessárias.
Quando você cria uma PVC com um dataSourceRef
apontando para um recurso GCPDataSource
, o GKE Volume Populator inicia a transferência de dados. Ele copia os dados do URI do bucket do Cloud Storage especificado para o volume de armazenamento persistente subjacente antes de disponibilizar o volume para seus pods.
Esse processo reduz a necessidade de usar scripts manuais de transferência de dados ou comandos da CLI e automatiza a transferência de grandes conjuntos de dados para volumes permanentes. O GKE Volume Populator aceita transferências de dados entre os seguintes tipos de origem e destino:
- Cloud Storage para Parallelstore
- Cloud Storage para Hyperdisk ML
O GKE Volume Populator é um componente gerenciado do GKE ativado por padrão nos clusters Autopilot e Standard. Você interage principalmente com o GKE Volume Populator pela CLI gcloud e pela CLI kubectl.
Arquitetura
O diagrama a seguir mostra como os dados fluem do armazenamento de origem para o de destino e como o PersistentVolume do armazenamento de destino é criado usando o GKE Volume Populator.
- Você cria uma PVC que faz referência a um recurso personalizado
GCPDataSource
. - O GKE Volume Populator detecta o PVC e inicia um job de transferência de dados.
- O job de transferência é executado em um pool de nós atual ou um novo é criado se o provisionamento automático de nós estiver ativado.
- O job de transferência copia dados do bucket do Cloud Storage especificado no recurso
GCPDataSource
para o volume de armazenamento de destino. - Depois que a transferência é concluída, a PVC é vinculada ao volume de armazenamento de destino, disponibilizando os dados para o pod de carga de trabalho.
Principais vantagens
O GKE Volume Populator oferece vários benefícios:
- Preenchimento automático de dados: preencha automaticamente os volumes com dados do Cloud Storage durante o provisionamento, o que ajuda a reduzir a sobrecarga operacional.
- Portabilidade de dados sem problemas: mova dados do armazenamento de objetos para sistemas de arquivos de alto desempenho (Parallelstore) ou de armazenamento em blocos (Hyperdisk) para otimizar o preço ou o desempenho com base nas necessidades da sua carga de trabalho.
- Fluxos de trabalho simplificados: reduza a necessidade de jobs de carregamento de dados separados ou intervenção manual para preparar volumes permanentes.
- Integração com o Identity and Access Management (IAM): use a autenticação baseada no IAM com a Federação de Identidade da Carga de Trabalho para GKE e garanta a transferência segura de dados com controle de acesso refinado.
- Cargas de trabalho aceleradas de IA/ML: pré-carregue rapidamente grandes conjuntos de dados, modelos e pesos diretamente no armazenamento de alta performance para acelerar as tarefas de treinamento e inferência.
Casos de uso do GKE Volume Populator
É possível usar o GKE Volume Populator para carregar grandes conjuntos de dados de treinamento para IA/ML. Imagine que você tenha um conjunto de dados de vários terabytes para treinar um modelo de linguagem grande (LLM) armazenado em um bucket do Cloud Storage. Seu trabalho de treinamento é executado no GKE e exige alta performance de E/S. Em vez de copiar os dados manualmente, use o GKE Volume Populator para provisionar automaticamente um volume Parallelstore ou Hyperdisk ML e preenchê-lo com o conjunto de dados do Cloud Storage quando o PVC for criado. Esse processo automatizado ajuda a garantir que seus pods de treinamento comecem com acesso imediato e de alta velocidade aos dados.
Confira mais exemplos de onde usar o GKE Volume Populator:
- Pré-armazenar em cache pesos e recursos de modelos de IA/ML do Cloud Storage em volumes do Hyperdisk ML para acelerar os tempos de carregamento de modelos para veiculação de inferência.
- Migrar dados do Cloud Storage para volumes permanentes em aplicativos com estado que exigem acesso a disco de alto desempenho.
A seguir
- Automatize a transferência de dados para o Parallelstore usando o GKE Volume Populator.
- Automatize a transferência de dados para o Hyperdisk ML usando o GKE Volume Populator.
- Solução de problemas de transferência de dados do GKE Volume Populator.