À propos de GKE Volume Populator


Le Volume Populator Google Kubernetes Engine (GKE) peut vous aider à automatiser et à simplifier le processus de préchargement des données à partir des buckets Cloud Storage vers les PersistentVolumeClaims (PVC) de destination lors du provisionnement dynamique.

Fonctionnement de GKE Volume Populator

GKE Volume Populator s'appuie sur le concept de base de Kubernetes Volume Populator. Au lieu de provisionner un volume vide, le GKE Volume Populator permet à un PVC de faire référence à une ressource personnalisée GCPDataSource. Cette ressource personnalisée spécifie le bucket Cloud Storage source et les identifiants nécessaires.

Lorsque vous créez un PVC avec un dataSourceRef pointant vers une ressource GCPDataSource, le GKE Volume Populator lance le transfert de données. Il copie les données de l'URI du bucket Cloud Storage spécifié dans le volume de stockage persistant sous-jacent avant de rendre le volume disponible pour vos pods.

Ce processus vous évite d'utiliser des scripts de transfert de données manuels ou des commandes CLI, et automatise le transfert de grands ensembles de données vers des volumes persistants. GKE Volume Populator est compatible avec les transferts de données entre les types de sources et de destinations suivants :

GKE Volume Populator est un composant géré par GKE qui est activé par défaut sur les clusters Autopilot et Standard. Vous interagissez principalement avec GKE Volume Populator via les CLI gcloud CLI et kubectl.

Architecture

Le schéma suivant montre comment les données circulent du stockage source au stockage de destination, et comment le PersistentVolume pour le stockage de destination est créé à l'aide de GKE Volume Populator.

  1. Vous créez un PVC qui référence une ressource personnalisée GCPDataSource.
  2. Le programme de remplissage de volumes GKE détecte le PVC et lance un job de transfert de données.
  3. Le job de transfert s'exécute sur un pool de nœuds existant. Si le provisionnement automatique des nœuds est activé, un nouveau pool est créé.
  4. La tâche de transfert copie les données du bucket Cloud Storage spécifié dans la ressource GCPDataSource vers le volume de stockage de destination.
  5. Une fois le transfert terminé, le PVC est lié au volume de stockage de destination, ce qui rend les données disponibles pour le pod de charge de travail.

Transfert de données depuis le stockage de données source et création d'un PV pour le stockage de destination à l'aide du GKE Volume Populator

Principaux avantages

Le Volume Populator GKE offre plusieurs avantages :

  • Remplissage automatique des données : remplissez automatiquement les volumes avec des données provenant de Cloud Storage lors du provisionnement, ce qui permet de réduire les frais généraux opérationnels.
  • Portabilité des données fluide : déplacez les données du stockage d'objets vers des systèmes de stockage de fichiers (Parallelstore) ou de blocs (Hyperdisk) hautes performances pour optimiser le prix ou les performances en fonction des besoins de votre charge de travail.
  • Workflows simplifiés : vous n'avez plus besoin de jobs de chargement de données distincts ni d'interventions manuelles pour préparer les volumes persistants.
  • Intégration à Identity and Access Management (IAM) : utilisez l'authentification basée sur IAM via Workload Identity Federation for GKE pour assurer un transfert de données sécurisé avec un contrôle d'accès précis.
  • Charges de travail d'IA/ML accélérées : préchargez rapidement de grands ensembles de données, modèles et pondérations directement dans un stockage hautes performances pour accélérer les tâches d'entraînement et d'inférence.

Cas d'utilisation de GKE Volume Populator

Vous pouvez utiliser GKE Volume Populator pour charger de grands ensembles de données d'entraînement pour l'IA/le ML. Imaginons que vous disposiez d'un ensemble de données de plusieurs téraoctets pour entraîner un grand modèle de langage (LLM) stocké dans un bucket Cloud Storage. Votre job d'entraînement s'exécute sur GKE et nécessite des performances d'E/S élevées. Au lieu de copier manuellement les données, vous pouvez utiliser le GKE Volume Populator pour provisionner automatiquement un volume Parallelstore ou Hyperdisk ML, et le remplir avec l'ensemble de données de Cloud Storage lorsque le PVC est créé. Ce processus automatisé permet de s'assurer que vos pods d'entraînement bénéficient d'un accès immédiat et haut débit aux données.

Voici d'autres exemples d'utilisation du Volume Populator GKE :

  • Mise en cache préalable des pondérations et des composants de modèles d'IA/ML depuis Cloud Storage dans des volumes Hyperdisk ML pour accélérer les temps de chargement des modèles pour le service d'inférence.
  • Migrer des données de Cloud Storage vers des volumes persistants pour les applications avec état nécessitant un accès performant au disque.

Étapes suivantes