Options de stockage pour les données Cloud TPU

Ce document décrit les options de stockage de données disponibles pour l'entraînement de modèles sur Cloud TPU.

Présentation

Cloud TPU nécessite de stocker des données pour les opérations suivantes :

  • Téléchargement et prétraitement des ensembles de données
  • Traitement du pipeline d'entrée de l'hôte
  • Entrées pour l'entraînement de modèle
  • Résultats de l'entraînement de modèle

Cinq options de stockage sont disponibles pour les données d'application Cloud TPU et des ensembles de données d'entraînement:

Pour en savoir plus sur le coût des options de stockage et les détails de leurs performances, consultez la section Options de stockage.

Le disque de démarrage d'une VM TPU

Par défaut, chaque VM Cloud TPU dispose d'un disque persistant de démarrage unique de 100 Go qui contient le système d'exploitation. Le disque de démarrage peut également servir à stocker des ensembles de données téléchargés pour le prétraitement et les données d'entrée et de sortie du modèle. la quantité totale ne dépasse pas l'espace disponible sur le disque de démarrage.

Si votre application d'entraînement nécessite un espace de stockage supplémentaire au-delà du démarrage disque par défaut, vous pouvez ajouter un ou plusieurs disques persistants à votre VM ou votre VM TPU Compute Engine. Il existe différentes procédures pour ajouter un disque persistant à un VM Compute Engine ou vers une VM TPU.

Un disque persistant associé à une VM TPU

Les disques persistants constituent un réseau durable périphériques de stockage auxquels vos instances de VM peuvent accéder, comme des disques physiques ordinateur de bureau ou un serveur. Les données de chaque disque persistant sont réparties sur plusieurs disques physiques. Compute Engine gère les disques physiques la distribution des données pour assurer la redondance et des performances optimales.

Les disques persistants sont créés indépendamment de votre machine virtuelle (VM) Vous pouvez ainsi conserver vos données même après avoir supprimé vos instances de VM. Les performances des disques persistants s'adaptent automatiquement à la taille des disques pour que vous puissiez les redimensionner vos disques persistants existants ou ajouter d'autres disques persistants à une instance pour répondre à vos besoins en termes de performances et d'espace de stockage.

Les disques persistants sont dotés d'une fonction de redondance intégrée qui protège les données contre les équipements et garantir la disponibilité des données lors des événements de maintenance des centres de données. Les sommes de contrôle sont calculées pour toutes les opérations sur les disques persistants, afin de garantir que ce que vous lisez est ce que vous avez écrit.

Vous pouvez également créer des instantanés. de disques persistants pour se protéger contre les pertes de données dues à une erreur de l'utilisateur. Instantanés sont incrémentiels et se créent en quelques minutes seulement, même si vous créez des instantanés de disques sont associés aux instances en cours d'exécution.

Pour en savoir plus sur l'utilisation de disques persistants avec des VM TPU, consultez la page Ajoutez un disque persistant à une VM TPU.

Buckets Cloud Storage

Les buckets Cloud Storage sont est l'option de stockage la plus flexible, évolutive et durable pour vos instances de VM. Si votre job d'entraînement ne nécessite pas la latence réduite des disques persistants, peut stocker votre ensemble de données dans un bucket Cloud Storage.

Les performances des buckets Cloud Storage dépendent de la classe de stockage. que vous sélectionnez et l'emplacement du bucket par rapport à votre instance.

Créez votre bucket Cloud Storage dans la même zone que votre bucket Les VM TPU offrent des performances comparables disques persistants, mais avec une latence plus élevée et un débit moins cohérent caractéristiques.

Tous les buckets Cloud Storage sont dotés d'une redondance intégrée pour protéger votre des données contre les pannes d'équipement et pour garantir la disponibilité des données par le biais des données les événements de maintenance du centre de données. Le calcul d'une somme de contrôle pour toutes les opérations Cloud Storage permet de s'assurer que les données lues sont bien identiques à celles qui ont été écrites.

Contrairement aux disques persistants, les buckets Cloud Storage ne sont pas restreints à la zone où se trouve votre instance. Vous pouvez également lire et écrire des données dans un bucket à partir de plusieurs instances simultanément. Par exemple, vous pouvez configurer des instances dans plusieurs zones pour lire et écrire des données dans le même bucket au lieu de répliquer les données sur des disques persistants dans plusieurs zones.

Cloud Storage FUSE

Cloud Storage FUSE vous permet d'installer des buckets Cloud Storage et d'y accéder en tant que systèmes de fichiers locaux. Cela permet aux applications de lire et d'écrire des objets à l'aide de la sémantique standard du système de fichiers.

Pour en savoir plus, consultez la documentation FUSE de Cloud Storage. le fonctionnement de Cloud Storage FUSE et une description du fonctionnement de Cloud Storage Les opérations FUSE correspondent aux opérations Cloud Storage. Vous trouverez d'autres des informations sur l'utilisation de Cloud Storage FUSE, telles que l'installation CLI FUSE Cloud Storage et installer des buckets sur GitHub.

Partage de fichiers Filestore

Le partage de fichiers Filestore est un stockage en réseau (NAS) entièrement géré pour Compute Engine. Filestore est compatible avec les applications d'entreprise existantes et prend en charge Client compatible avec NFSv3.

Filestore offre une faible latence pour les fichiers operations. Pour les charges de travail sensibles à la latence, Filestore est compatible jusqu'à 100 To et un débit de 25 Go par seconde et 720 000 IOPS, une variabilité minimale des performances.

Avec Filestore, vous pouvez installer des partages de fichiers. sur des VM TPU.

Étape suivante