Esta página foi traduzida pela API Cloud Translation.

Sobre o GKE Volume Populator

Autopilot Standard

O Volume Populator do Google Kubernetes Engine (GKE) pode ajudar a automatizar e simplificar o processo de pré-carregamento de dados de buckets do Cloud Storage para PersistentVolumeClaims (PVCs) de destino durante o provisionamento dinâmico.

Como o GKE Volume Populator funciona

O GKE Volume Populator usa o conceito principal de Kubernetes Volume Populator. Em vez de provisionar um volume vazio, o GKE Volume Populator permite que um PVC faça referência a um recurso personalizado GCPDataSource. Esse recurso personalizado especifica o bucket de origem do Cloud Storage e as credenciais necessárias.

Quando você cria uma PVC com um dataSourceRef apontando para um recurso GCPDataSource, o GKE Volume Populator inicia a transferência de dados. Ele copia os dados do URI do bucket do Cloud Storage especificado para o volume de armazenamento persistente subjacente antes de disponibilizar o volume para seus pods.

Esse processo reduz a necessidade de usar scripts manuais de transferência de dados ou comandos da CLI e automatiza a transferência de grandes conjuntos de dados para volumes permanentes. O GKE Volume Populator aceita transferências de dados entre os seguintes tipos de origem e destino:

Cloud Storage para Parallelstore
Cloud Storage para Hyperdisk ML

O GKE Volume Populator é um componente gerenciado do GKE ativado por padrão nos clusters do Autopilot e Standard. Você interage principalmente com o GKE Volume Populator pela CLI gcloud e pela CLI kubectl.

Arquitetura

O diagrama a seguir mostra como os dados fluem do armazenamento de origem para o de destino e como o PersistentVolume do armazenamento de destino é criado usando o GKE Volume Populator.

Você cria uma PVC que faz referência a um recurso personalizado GCPDataSource.
O GKE Volume Populator detecta o PVC e inicia um job de transferência de dados.
O job de transferência é executado em um pool de nós atual ou um novo é criado se o provisionamento automático de nós estiver ativado.
O job de transferência copia dados do bucket do Cloud Storage especificado no recurso GCPDataSource para o volume de armazenamento de destino.
Depois que a transferência é concluída, a PVC é vinculada ao volume de armazenamento de destino, disponibilizando os dados para o pod de carga de trabalho.

Transferência de dados do armazenamento de dados de origem e criação de PV para o armazenamento de destino usando o GKE Volume Populator

Principais vantagens

O GKE Volume Populator oferece vários benefícios:

Preenchimento automático de dados: preencha automaticamente os volumes com dados do Cloud Storage durante o provisionamento, o que ajuda a reduzir a sobrecarga operacional.
Portabilidade de dados sem problemas: mova dados do armazenamento de objetos para sistemas de arquivos de alto desempenho (Parallelstore) ou de armazenamento em blocos (Hyperdisk) para otimizar o preço ou o desempenho com base nas necessidades da sua carga de trabalho.
Fluxos de trabalho simplificados: reduza a necessidade de jobs de carregamento de dados separados ou intervenção manual para preparar volumes permanentes.
Integração com o Identity and Access Management (IAM): use a autenticação baseada no IAM com a Federação de Identidade da Carga de Trabalho para GKE e garanta a transferência segura de dados com controle de acesso refinado.
Cargas de trabalho aceleradas de IA/ML: pré-carregue rapidamente grandes conjuntos de dados, modelos e pesos diretamente no armazenamento de alta performance para acelerar as tarefas de treinamento e inferência.

Casos de uso do GKE Volume Populator

É possível usar o GKE Volume Populator para carregar grandes conjuntos de dados de treinamento para IA/ML. Imagine que você tenha um conjunto de dados de vários terabytes para treinar um modelo de linguagem grande (LLM) armazenado em um bucket do Cloud Storage. Seu trabalho de treinamento é executado no GKE e exige alta performance de E/S. Em vez de copiar os dados manualmente, use o GKE Volume Populator para provisionar automaticamente um volume Parallelstore ou Hyperdisk ML e preenchê-lo com o conjunto de dados do Cloud Storage quando o PVC for criado. Esse processo automatizado ajuda a garantir que seus pods de treinamento comecem com acesso imediato e de alta velocidade aos dados.

Confira mais exemplos de onde usar o GKE Volume Populator:

Pré-armazenar em cache pesos e recursos de modelos de IA/ML do Cloud Storage em volumes do Hyperdisk ML para acelerar os tempos de carregamento de modelos para veiculação de inferência.
Migrar dados do Cloud Storage para volumes permanentes em aplicativos com estado que exigem acesso a disco de alto desempenho.

Sobre o GKE Volume Populator

Como o GKE Volume Populator funciona

Arquitetura

Principais vantagens

Casos de uso do GKE Volume Populator

A seguir