Informazioni su GKE Volume Populator


Il populator di volumi di Google Kubernetes Engine (GKE) può aiutarti ad automatizzare e semplificare il processo di precaricamento dei dati dai bucket Cloud Storage alle PersistentVolumeClaim (PVC) di destinazione durante il provisioning dinamico.

Come funziona GKE Volume Populator

GKE Volume Populator sfrutta il concetto di base di Kubernetes Volume Populator. Anziché eseguire il provisioning di un volume vuoto, GKE Volume Populator consente a un PVC di fare riferimento a una risorsa personalizzata GCPDataSource. Questa risorsa personalizzata specifica il bucket Cloud Storage di origine e le credenziali necessarie.

Quando crei un PVC con un dataSourceRef che punta a una risorsa GCPDataSource, GKE Volume Populator avvia il trasferimento dei dati. Copia i dati dall'URI del bucket Cloud Storage specificato nel volume di archiviazione permanente sottostante prima di rendere il volume disponibile per i pod.

Questo processo riduce la necessità di utilizzare script di trasferimento dei dati manuali o comandi CLI e automatizza il trasferimento di set di dati di grandi dimensioni ai volumi permanenti. GKE Volume Populator supporta i trasferimenti di dati tra i seguenti tipi di origine e destinazione:

GKE Volume Populator è un componente gestito da GKE abilitato per impostazione predefinita nei cluster Autopilot e Standard. Interagisci principalmente con GKE Volume Populator tramite Google Cloud CLI e kubectl.

Architettura

Il seguente diagramma mostra il flusso dei dati dallo spazio di archiviazione di origine a quello di destinazione e come viene creato PersistentVolume per lo spazio di archiviazione di destinazione utilizzando GKE Volume Populator.

  1. Crea un PVC che fa riferimento a una risorsa personalizzata GCPDataSource.
  2. GKE Volume Populator rileva la PVC e avvia un job di trasferimento dei dati.
  3. Il job di trasferimento viene eseguito su un pool di nodi esistente oppure ne viene creato uno nuovo se il provisioning automatico dei nodi è abilitato.
  4. Il job di trasferimento copia i dati dal bucket Cloud Storage specificato nella risorsa GCPDataSource al volume di archiviazione di destinazione.
  5. Una volta completato il trasferimento, il PVC viene associato al volume di archiviazione di destinazione, rendendo i dati disponibili per il pod del workload.

Trasferimento dei dati dall'archiviazione dei dati di origine e creazione di PV per l'archiviazione di destinazione utilizzando GKE Volume Populator

Vantaggi principali

Il populator di volumi GKE offre diversi vantaggi:

  • Inserimento automatico dei dati: inserisci automaticamente i dati nei volumi da Cloud Storage durante il provisioning, il che contribuisce a ridurre il sovraccarico operativo.
  • Portabilità dei dati senza interruzioni: sposta i dati dall'archiviazione di oggetti a sistemi di archiviazione di file (Parallelstore) o blocchi (Hyperdisk) ad alte prestazioni per ottimizzare il prezzo o le prestazioni in base alle esigenze del tuo workload.
  • Flussi di lavoro semplificati: riduci la necessità di job di caricamento dei dati separati o di interventi manuali per preparare i volumi permanenti.
  • Integrazione con Identity and Access Management (IAM): utilizza l'autenticazione basata su IAM tramite Workload Identity Federation for GKE per garantire un trasferimento dei dati sicuro con controllo dell'accesso dell'accesso granulare.
  • Carichi di lavoro AI/ML accelerati: precarica rapidamente set di dati, modelli e pesi di grandi dimensioni direttamente nell'archiviazione ad alte prestazioni per velocizzare le attività di addestramento e inferenza.

Casi d'uso di GKE Volume Populator

Puoi utilizzare GKE Volume Populator per caricare set di dati di addestramento di grandi dimensioni per l'AI/ML. Immagina di avere un set di dati di più terabyte per l'addestramento di un modello linguistico di grandi dimensioni (LLM) archiviato in un bucket Cloud Storage. Il job di addestramento viene eseguito su GKE e richiede prestazioni I/O elevate. Anziché copiare manualmente i dati, puoi utilizzare GKE Volume Populator per eseguire automaticamente il provisioning di un volume Parallelstore o Hyperdisk ML e completarlo con il set di dati di Cloud Storage al momento della creazione del PVC. Questo processo automatizzato contribuisce a garantire che i pod di addestramento inizino con un accesso immediato e ad alta velocità ai dati.

Ecco altri esempi in cui puoi utilizzare GKE Volume Populator:

  • Pre-cache dei pesi e degli asset del modello AI/ML da Cloud Storage nei volumi Hyperdisk ML per accelerare i tempi di caricamento del modello per la gestione dell'inferenza.
  • Migrazione dei dati da Cloud Storage ai volumi permanenti per applicazioni stateful che richiedono un accesso al disco efficiente.

Passaggi successivi