Sobre o GKE Volume Populator


O Volume Populator do Google Kubernetes Engine (GKE) ajuda a automatizar e simplificar o processo de pré-carregamento de dados de buckets do Cloud Storage para PersistentVolumeClaims (PVCs) de destino durante o provisionamento dinâmico.

Como o GKE Volume Populator funciona

O GKE Volume Populator usa o conceito principal de Kubernetes Volume Populator. Em vez de provisionar um volume vazio, o GKE Volume Populator permite que um PVC faça referência a um recurso personalizado GCPDataSource. Esse recurso personalizado especifica o bucket de origem do Cloud Storage e as credenciais necessárias.

Quando você cria uma PVC com um dataSourceRef apontando para um recurso GCPDataSource, o GKE Volume Populator inicia a transferência de dados. Ele copia os dados do URI do bucket do Cloud Storage especificado para o volume de armazenamento persistente subjacente antes de disponibilizar o volume para seus pods.

Esse processo reduz a necessidade de usar scripts manuais de transferência de dados ou comandos da CLI e automatiza a transferência de grandes conjuntos de dados para volumes permanentes. O GKE Volume Populator aceita transferências de dados entre os seguintes tipos de origem e destino:

O GKE Volume Populator é um componente gerenciado do GKE ativado por padrão nos clusters Autopilot e Standard. Você interage principalmente com o GKE Volume Populator pela CLI gcloud e pela CLI kubectl.

Arquitetura

O diagrama a seguir mostra como os dados fluem do armazenamento de origem para o de destino e como o PersistentVolume do armazenamento de destino é criado usando o GKE Volume Populator.

  1. Você cria uma PVC que faz referência a um recurso personalizado GCPDataSource.
  2. O GKE Volume Populator detecta o PVC e inicia um job de transferência de dados.
  3. O job de transferência é executado em um pool de nós atual ou um novo é criado se o provisionamento automático de nós estiver ativado.
  4. O job de transferência copia dados do bucket do Cloud Storage especificado no recurso GCPDataSource para o volume de armazenamento de destino.
  5. Depois que a transferência é concluída, a PVC é vinculada ao volume de armazenamento de destino, disponibilizando os dados para o pod de carga de trabalho.

Transferência de dados do armazenamento de dados de origem e criação de PV para o armazenamento de destino usando o GKE Volume Populator

Principais vantagens

O GKE Volume Populator oferece vários benefícios:

  • Preenchimento automático de dados: preencha automaticamente os volumes com dados do Cloud Storage durante o provisionamento, o que ajuda a reduzir a sobrecarga operacional.
  • Portabilidade de dados sem problemas: mova dados do armazenamento de objetos para sistemas de arquivos de alto desempenho (Parallelstore) ou de armazenamento em blocos (Hyperdisk) para otimizar o preço ou o desempenho com base nas necessidades da sua carga de trabalho.
  • Fluxos de trabalho simplificados: reduza a necessidade de jobs de carregamento de dados separados ou intervenção manual para preparar volumes permanentes.
  • Integração com o Identity and Access Management (IAM): use a autenticação baseada no IAM com a Federação de Identidade da Carga de Trabalho para GKE e garanta a transferência segura de dados com controle de acesso refinado.
  • Cargas de trabalho aceleradas de IA/ML: pré-carregue rapidamente grandes conjuntos de dados, modelos e pesos diretamente no armazenamento de alta performance para acelerar as tarefas de treinamento e inferência.

Casos de uso do GKE Volume Populator

É possível usar o GKE Volume Populator para carregar grandes conjuntos de dados de treinamento para IA/ML. Imagine que você tenha um conjunto de dados de vários terabytes para treinar um modelo de linguagem grande (LLM) armazenado em um bucket do Cloud Storage. Seu trabalho de treinamento é executado no GKE e exige alta performance de E/S. Em vez de copiar os dados manualmente, use o GKE Volume Populator para provisionar automaticamente um volume Parallelstore ou Hyperdisk ML e preenchê-lo com o conjunto de dados do Cloud Storage quando o PVC for criado. Esse processo automatizado ajuda a garantir que seus pods de treinamento comecem com acesso imediato e de alta velocidade aos dados.

Confira mais exemplos de onde usar o GKE Volume Populator:

  • Pré-armazenar em cache pesos e recursos de modelos de IA/ML do Cloud Storage em volumes do Hyperdisk ML para acelerar os tempos de carregamento de modelos para veiculação de inferência.
  • Migrar dados do Cloud Storage para volumes permanentes em aplicativos com estado que exigem acesso a disco de alto desempenho.

A seguir