O Volume Populator do Google Kubernetes Engine (GKE) pode ajudar a automatizar e simplificar o processo de pré-carregamento de dados de contentores do Cloud Storage para PersistentVolumeClaims (PVCs) de destino durante o aprovisionamento dinâmico.
Como funciona o GKE Volume Populator
O GKE Volume Populator tira partido do conceito principal do Kubernetes Volume Populator. Em vez de aprovisionar um volume vazio, o GKE Volume Populator permite que um PVC faça referência a um recurso personalizado GCPDataSource
. Este recurso personalizado especifica o contentor do Cloud Storage de origem e as credenciais necessárias.
Quando cria um PVC com um dataSourceRef
que aponta para um recurso GCPDataSource
, o Volume Populator do GKE inicia a transferência de dados. Copia dados do URI do contentor do Cloud Storage especificado para o volume de armazenamento persistente subjacente antes de disponibilizar o volume aos seus pods.
Este processo reduz a necessidade de usar scripts de transferência de dados manuais ou comandos da CLI e automatiza a transferência de grandes conjuntos de dados para volumes persistentes. O GKE Volume Populator suporta transferências de dados entre os seguintes tipos de origem e destino:
- Cloud Storage para Parallelstore
- Cloud Storage para Hyperdisk ML
O GKE Volume Populator é um componente gerido do GKE que está ativado por predefinição nos clusters Autopilot e Standard. Interage principalmente com o GKE Volume Populator através da CLI gcloud e da CLI kubectl.
Arquitetura
O diagrama seguinte mostra como os dados fluem do armazenamento de origem para o armazenamento de destino e como o PersistentVolume para o armazenamento de destino é criado através do GKE Volume Populator.
- Cria um PVC que faz referência a um recurso personalizado
GCPDataSource
. - O GKE Volume Populator deteta o PVC e inicia uma tarefa de transferência de dados.
- A tarefa de transferência é executada num conjunto de nós existente ou é criado um novo se o aprovisionamento automático de nós estiver ativado.
- A tarefa de transferência copia os dados do contentor do Cloud Storage especificado no recurso
GCPDataSource
para o volume de armazenamento de destino. - Após a conclusão da transferência, o PVC é associado ao volume de armazenamento de destino, o que torna os dados disponíveis para o pod de carga de trabalho.
Principais vantagens
O GKE Volume Populator oferece várias vantagens:
- Preenchimento automático de dados: preencha automaticamente os volumes com dados do Cloud Storage durante o aprovisionamento, o que ajuda a reduzir os custos operacionais.
- Portabilidade de dados integrada: mova dados do armazenamento de objetos para sistemas de armazenamento de ficheiros (Parallelstore) ou de blocos (Hyperdisk) de elevado desempenho para ajudar a otimizar o preço ou o desempenho com base nas necessidades da sua carga de trabalho.
- Fluxos de trabalho simplificados: reduza a necessidade de tarefas de carregamento de dados separadas ou de intervenção manual para preparar volumes persistentes.
- Integração com a gestão de identidade e acesso (IAM): use a autenticação baseada na IAM através da federação de identidades da carga de trabalho para o GKE para ajudar a garantir a transferência segura de dados com um controlo de acesso detalhado.
- Cargas de trabalho de IA/ML aceleradas: pré-carregue rapidamente grandes conjuntos de dados, modelos e ponderações diretamente no armazenamento de alto desempenho para ajudar a acelerar as tarefas de preparação e inferência.
Exemplos de utilização do GKE Volume Populator
Pode usar o GKE Volume Populator para carregar grandes conjuntos de dados de preparação para IA/AA. Imagine que tem um conjunto de dados de vários terabytes para preparar um modelo de linguagem (conteúdo extenso) (MDL/CE) armazenado num contentor do Cloud Storage. A sua tarefa de preparação é executada no GKE e requer um elevado desempenho de I/O. Em vez de copiar manualmente os dados, pode usar o GKE Volume Populator para aprovisionar automaticamente um volume Parallelstore ou Hyperdisk ML e preenchê-lo com o conjunto de dados do Cloud Storage quando o PVC é criado. Este processo automatizado ajuda a garantir que os seus pods de preparação começam com acesso imediato e de alta velocidade aos dados.
Seguem-se mais alguns exemplos em que pode usar o GKE Volume Populator:
- Colocar em cache previamente os pesos e os recursos do modelo de IA/ML do Cloud Storage em volumes de ML do Hyperdisk para acelerar os tempos de carregamento do modelo para o serviço de inferência.
- Migrar dados do Cloud Storage para volumes persistentes para aplicações com estado que requerem acesso ao disco de elevado desempenho.
O que se segue?
- Automatize a transferência de dados para o Parallelstore através do GKE Volume Populator.
- Automatize a transferência de dados para o Hyperdisk ML através do GKE Volume Populator.
- Resolução de problemas de transferência de dados do Volume Populator do GKE.