Utiliser la mise en cache des fichiers Cloud Storage FUSE

La fonctionnalité de cache de fichiers de Cloud Storage FUSE est un cache de lecture basé sur le client qui permet de diffuser les lectures de fichiers répétées à partir d'un stockage de cache plus rapide de votre choix. Cette page explique comment activer et utiliser la mise en cache des fichiers Cloud Storage FUSE. Pour obtenir une présentation de la mise en cache des fichiers, des statistiques ou des types, consultez la page Présentation de la mise en cache.

Avant de commencer

Le cache de fichiers nécessite un chemin de répertoire à utiliser pour mettre en cache les fichiers. Vous pouvez créer un répertoire sur un système de fichiers existant ou créer un système de fichiers sur un espace de stockage provisionné. Si vous provisionnez un nouvel espace de stockage à utiliser, suivez les instructions ci-dessous pour créer un système de fichiers :

  1. Pour formater un volume Persistent Disk, consultez les instructions de Compute Engine pour formater un volume Persistent Disk.

  2. Si vous souhaitez créer des disques RAM en mémoire, consultez les instructions de Compute Engine sur l'installation de disques RAM.

  3. Pour formater et installer des disques SSD locaux, consultez les instructions Compute Engine sur l'installation de disques SSD locaux. Pour combiner plusieurs disques SSD locaux en un seul volume, consultez les instructions de Compute Engine pour savoir comment ajouter un disque SSD local à votre VM.

Activer et configurer le comportement de mise en cache

  1. Activez et configurez la mise en cache de fichiers en utilisant le champ file-cache d'un fichier de configuration Cloud Storage FUSE, puis spécifiez le répertoire de cache que vous souhaitez utiliser dans le champ cache-dir. Le cache de fichiers est désactivé par défaut. Notez que vous activez la mise en cache des fichiers en transmettant un répertoire au champ cache-dir.

  2. Facultatif : configurez la mise en cache des statistiques et des types en utilisant le champ metadata-cache dans un fichier de configuration. Pour en savoir plus sur les caches de statistiques et de types, consultez la page Présentation de la mise en cache des types ou Présentation de la mise en cache des statistiques.

  3. Facultatif : augmentez la valeur TTL des entrées mises en cache en définissant l'option ttl-secs sur une valeur basée sur le temps attendu entre les lectures répétées, tout en équilibrant les besoins de cohérence. Nous vous recommandons de définir la valeur ttl-secs sur une valeur aussi élevée que le permet votre charge de travail. Vous pouvez configurer la valeur TTL dans un fichier de configuration Cloud Storage FUSE. Pour en savoir plus sur la définition d'une valeur TTL pour les entrées mises en cache, consultez la section Valeur TTL (Time To Live).

    Par exemple, le fichier de configuration suivant active la mise en cache des fichiers, des statistiques et des types avec une valeur TTL de 3600 secondes et le répertoire de cache défini sur /path/to/a/directory/. Notez que max-size-mb est défini sur -1, ce qui configure le cache de fichiers pour utiliser toute la capacité disponible.

    file-cache:
      max-size-mb: -1
      cache-file-for-range-read: false
    
    metadata-cache:
      stat-cache-max-size-mb: 32
      ttl-secs: 3600
      type-cache-max-size-mb: 4
    
    cache-dir: /path/to/a/directory
    
  4. Facultatif : accélérez les lectures de fichiers volumineux, y compris les premières lectures, en activant la propriété enable-parallel-downloads, qui utilise plusieurs nœuds de calcul pour télécharger un fichier volumineux en parallèle à l'aide du répertoire de cache de fichiers comme tampon de préchargement. Pour en savoir plus sur les téléchargements parallèles et sur la configuration des propriétés associées, consultez la page Améliorer les performances de lecture à l'aide des téléchargements parallèles.

  5. Exécutez manuellement la commande ls -R sur votre bucket installé avant d'exécuter la charge de travail pour préremplir les métadonnées. Vous vous assurez ainsi que le cache de types est bien rempli avant la première lecture avec une méthode par lot plus rapide.

Étapes suivantes