Le service de transfert de stockage permet de transférer de grandes quantités de données entre les buckets Cloud Storage, au sein d'un même projet Google Cloud ou entre différents projets.
Les migrations de buckets sont utiles dans plusieurs cas de figure. Ils peuvent être utilisés pour regrouper des données de projets distincts, pour déplacer des données vers un emplacement de sauvegarde ou pour modifier l'emplacement de vos données.
Quand utiliser le service de transfert de stockage ?
Google Cloud propose plusieurs options pour transférer des données entre plusieurs buckets Cloud Storage. Nous vous recommandons de respecter les consignes suivantes:
Transfert de moins de 1 To: utilisez
gcloud
. Pour obtenir des instructions, consultez la section Déplacer et renommer des buckets.Transfert de plus de 1 To: utilisez le service de transfert de stockage. Le service de transfert de stockage est une option de transfert gérée qui offre une sécurité, une fiabilité et des performances prêtes à l'emploi. Vous évitez ainsi d'optimiser et de gérer les scripts, et de gérer les nouvelles tentatives.
Ce guide traite des bonnes pratiques lors du transfert de données entre des buckets Cloud Storage à l'aide du service de transfert de stockage.
Définir une stratégie de transfert
La stratégie de transfert que vous choisissez dépend de la complexité de votre situation. Veillez à inclure les points suivants dans votre plan.
Choisir un nom de bucket
Pour déplacer vos données vers un bucket de stockage situé dans un autre emplacement, choisissez l'une des approches suivantes:
- Nouveau nom du bucket. Mettez à jour vos applications pour qu'elles pointent vers un bucket de stockage portant un autre nom.
- Conserver le nom du bucket Remplacez votre bucket de stockage pour conserver le nom actuel. Vous n'avez donc pas besoin de mettre à jour vos applications.
Dans les deux cas, vous devez planifier les temps d'arrêt et informer vos utilisateurs de leur approche. Consultez les explications suivantes pour déterminer la meilleure option pour vous.
Nouveau nom du bucket
Avec un nouveau nom de bucket, vous devez mettre à jour tout le code et tous les services qui utilisent votre bucket actuel. La méthode à privilégier dépend de la manière dont vos applications sont créées et déployées.
Pour certaines configurations, cette approche peut entraîner moins d'arrêts, mais nécessite plus de travail pour assurer une transition fluide. Il comprend les étapes suivantes:
- Copier vos données dans un nouveau bucket de stockage
- Je commence à enregistrer votre temps d'arrêt.
- Mettre à jour vos applications pour qu'elles pointent vers le nouveau bucket.
- Vérifier que tout fonctionne comme prévu et que tous les systèmes et comptes concernés ont accès au bucket.
- Supprimez le bucket d'origine.
- Mettez fin à votre temps d'arrêt.
Conserver le nom du bucket
Utilisez cette approche si vous préférez ne pas modifier votre code pour qu'il pointe vers un nouveau nom de bucket. Il comprend les étapes suivantes:
- copier vos données dans un bucket de stockage temporaire ;
- Je commence à enregistrer votre temps d'arrêt.
- Supprimez votre bucket d'origine.
- Créer un bucket portant le même nom que votre bucket d'origine.
- Copiez les données du bucket temporaire vers votre nouveau bucket.
- Suppression du bucket temporaire.
- Vérifier que tout fonctionne comme prévu et que tous les systèmes et comptes concernés ont accès au bucket.
- Mettez fin à votre temps d'arrêt.
Minimiser les temps d'arrêt
Le service de transfert de stockage ne verrouille pas les lectures ni les écritures sur les buckets sources ou de destination pendant un transfert.
Si vous choisissez de verrouiller manuellement les opérations de lecture/écriture sur votre bucket, vous pouvez réduire le temps d'arrêt en transférant vos données en deux étapes: seed et synchronisation.
Transfert seed: effectuez un transfert groupé sans verrouiller la lecture/écriture sur la source.
Transfert de synchronisation: une fois la première exécution terminée, verrouillez la lecture/écriture sur le bucket source et effectuez un autre transfert. Les transferts du service de transfert de stockage sont incrémentiels par défaut. Par conséquent, ce deuxième transfert ne transfère que les données modifiées lors du transfert seed.
Optimiser la vitesse de transfert
Pour estimer la durée d'une tâche de transfert, tenez compte des goulots d'étranglement possibles. Par exemple, si la source contient des milliards de petits fichiers, la vitesse de transfert sera liée au RPS. Si les objets sont de grande taille, la bande passante peut constituer le goulot d'étranglement.
Les limites de bande passante sont définies au niveau de la région et sont équitablement allouées à tous les projets. Si une bande passante suffisante est disponible, le service de transfert de stockage peut effectuer environ 1 000 tâches par tâche de transfert et par seconde. Vous pouvez accélérer un transfert en divisant votre tâche en plusieurs petites tâches de transfert, par exemple en utilisant des préfixes d'inclusion et d'exclusion pour transférer certains fichiers.
Si l'emplacement, la classe de stockage et la clé de chiffrement sont identiques, le service de transfert de stockage ne crée pas de copie des octets. À la place, il crée une nouvelle entrée de métadonnées pointant vers l'objet blob source. Par conséquent, les copies de même emplacement et de même classe d'un corpus volumineux sont effectuées très rapidement et ne sont liées qu'au nombre de RPS.
Les suppressions sont également des opérations exclusivement de métadonnées. Pour ces transferts, l'exécution en parallèle en les divisant en plusieurs petites tâches peut augmenter la vitesse.
Conserver les métadonnées
Les métadonnées d'objet suivantes sont conservées lors du transfert de données entre des buckets Cloud Storage dotés du service de transfert de stockage:
- Métadonnées personnalisées créées par l'utilisateur.
- Champs de métadonnées à clé fixe Cloud Storage, tels que Cache-Control, Content-Disposition, Content-Type et Custom-Time
- Taille de l'objet
- Le numéro de génération est conservé en tant que champ de métadonnées personnalisé avec la clé
x-goog-reserved-source-generation
, que vous pouvez modifier ultérieurement ou supprimer.
Vous pouvez éventuellement conserver les champs de métadonnées suivants lors du transfert à l'aide de l'API:
- LCA (
acl
) - Classe de stockage (
storageClass
) - CMEK (
kmsKey
) - Préservation temporaire (
temporaryHold
) - Heure de création de l'objet (
customTime
)
Pour en savoir plus, consultez la documentation de référence de l'API TransferSpec
.
Les champs de métadonnées suivants ne sont pas conservés:
- Heure de la dernière mise à jour (
updated
) etag
componentCount
Si elle est conservée, l'heure de création de l'objet est stockée en tant que champ personnalisé, customTime
. La date et l'heure updated
de l'objet sont réinitialisées lors du transfert. Le temps passé par l'objet dans sa classe de stockage est donc également réinitialisé. Autrement dit, pour un objet dans le stockage Coldline, après le transfert, l'objet doit exister à nouveau pendant 90 jours dans sa destination afin d'éviter des frais de suppression anticipée.
Vous pouvez appliquer vos règles de cycle de vie basées sur createTime
à l'aide de customTime
. Les valeurs customTime
existantes sont écrasées.
Pour en savoir plus sur ce qui est conservé et ce qui ne l'est pas, consultez la section Conservation des métadonnées.
Gérer les objets avec versions gérées
Si vous souhaitez transférer toutes les versions de vos objets de stockage et pas seulement la dernière, vous devez utiliser la CLI gcloud
ou l'API REST pour transférer vos données, en plus de la fonctionnalité de fichier manifeste du service de transfert de stockage.
Pour transférer toutes les versions d'un objet:
Répertoriez les objets de bucket et copiez-les dans un fichier JSON:
gcloud storage ls --all-versions --recursive --json [SOURCE_BUCKET] > object-listing.json
Cette commande répertorie généralement environ 1 000 objets par seconde.
Divisez le fichier JSON en deux fichiers CSV, l'un avec les versions archivées et l'autre avec les versions actives:
jq -r '.[] | select( .type=="cloud_object" and (.metadata | has("timeDeleted") | not)) | [.metadata.name, .metadata.generation] | @csv' object-listing.json > live-object-manifest.csv jq -r '.[] | select( .type=="cloud_object" and (.metadata | has("timeDeleted"))) | [.metadata.name, .metadata.generation] | @csv' object-listing.json > non-current-object-manifest.csv
Activez la gestion des versions d'objets sur le bucket de destination.
Transférez d'abord les versions archivées en transmettant le fichier manifeste
non-current-object-manifest.csv
en tant que valeur du champtransferManifest
.Transférez ensuite les versions actives de la même manière, en spécifiant
live-object-manifest.csv
comme fichier manifeste.
Configurer les options de transfert
Voici certaines des options disponibles lors de la configuration de votre transfert:
Journalisation: Cloud Logging fournit des journaux détaillés sur les objets individuels, ce qui vous permet de vérifier l'état du transfert et d'effectuer des vérifications supplémentaires d'intégrité des données.
Filtrage: vous pouvez utiliser des préfixes d'inclusion et d'exclusion pour limiter les objets sur lesquels le service de transfert de stockage agit. Cette option peut être utilisée pour diviser un transfert en plusieurs tâches de transfert afin qu'elles puissent s'exécuter en parallèle. Pour en savoir plus, consultez la section Optimiser la vitesse de transfert.
Options de transfert : vous pouvez configurer votre transfert pour écraser des éléments existants dans le bucket de destination, supprimer les objets de la destination qui n'existent pas dans l'ensemble de transfert ; ou pour supprimer des objets transférés de la source.
Transférer vos données
Une fois que vous avez défini votre stratégie de transfert, vous pouvez effectuer le transfert lui-même.
Créer un bucket
Avant de commencer le transfert, créez un bucket de stockage. Consultez la section location_considerations pour vous aider à choisir un emplacement de bucket approprié.
Vous voudrez peut-être copier certaines métadonnées de bucket lorsque vous créez le bucket. Consultez la section Obtenir les métadonnées du bucket pour savoir comment afficher les métadonnées du bucket source afin de pouvoir appliquer les mêmes paramètres à votre nouveau bucket.
Copier des objets dans le nouveau bucket
Vous pouvez copier des objets du bucket source vers un nouveau bucket à l'aide de la console Google Cloud, de la CLI gcloud
, de l'API REST ou des bibliothèques clientes.
L'approche que vous choisissez dépend de votre stratégie de transfert.
Les instructions suivantes concernent le cas d'utilisation de base consistant à transférer des objets d'un bucket à un autre. Elles doivent être modifiées en fonction de vos besoins.
N'incluez pas d'informations sensibles telles que des informations permettant d'identifier personnellement l'utilisateur ou des données de sécurité dans le nom de votre tâche de transfert. Les noms de ressources peuvent être propagés aux noms d'autres ressources Google Cloud et peuvent être exposés à des systèmes internes à Google en dehors de votre projet.
Console Google Cloud
Utilisez le service de transfert de stockage Cloud depuis Google Cloud Console :
Ouvrez la page "Transfert" dans la console Google Cloud.
- Cliquez sur Créer une tâche de transfert.
Suivez la procédure détaillée en cliquant sur Étape suivante à chaque étape :
Pour commencer, utilisez Google Cloud Storage comme Type de source et Type de destination.
Sélectionnez une source: saisissez directement le nom du bucket souhaité, ou cliquez sur Parcourir pour rechercher et sélectionner le bucket de votre choix.
Sélectionnez une destination : saisissez directement le nom du bucket souhaité, ou cliquez sur Parcourir pour rechercher et sélectionner le bucket de votre choix.
Sélectionnez les paramètres : sélectionnez l'option Supprimer les fichiers de la source après leur transfert.
Options de programmation : vous pouvez ignorer cette section.
Une fois la procédure détaillée suivie, cliquez sur Créer.
Cette validation entraîne la copie des fichiers de votre ancien bucket dans le nouveau. Ce processus peut prendre un certain temps. Notez cependant qu'après avoir cliqué sur Créer, vous pouvez quitter Google Cloud Console.
Pour afficher l'avancement du transfert :
Ouvrez la page "Transfert" dans la console Google Cloud.
Pour savoir comment obtenir des informations détaillées sur les erreurs liées aux opérations du service de transfert de stockage ayant échoué dans la console Google Cloud, consultez la section Dépannage.
Une fois le transfert terminé, vous n'avez rien à faire pour supprimer les objets de votre ancien bucket si vous avez coché la case Supprimer les objets sources à la fin du transfert lors de la configuration. Si vous souhaitez supprimer l'ancien bucket, vous devez effectuer une procédure distincte.
CLI gcloud
Installer gcloud CLI
Si ce n'est pas déjà fait, installez l'outil de ligne de commande gcloud.
Appelez ensuite gcloud init
pour initialiser l'outil et spécifier votre ID de projet et votre compte utilisateur. Pour en savoir plus, consultez la page Initialiser le SDK Cloud.
gcloud init
Ajouter le compte de service à votre dossier de destination
Vous devez ajouter le compte de service du service de transfert de stockage à votre bucket de destination avant de créer un transfert. Pour ce faire, utilisez gcloud storage buckets add-iam-policy-binding
:
gcloud storage buckets add-iam-policy-binding gs://bucket_name \ --member=serviceAccount:project-12345678@storage-transfer-service.iam.gserviceaccount.com \ --role=roles/storage.admin
Pour obtenir des instructions sur l'utilisation de la console Google Cloud ou de l'API, consultez la page Utiliser des autorisations IAM de la documentation Cloud Storage.
Créer la tâche de transfert
Pour créer une tâche de transfert, utilisez la commande gcloud transfer jobs create
.
La création d'une tâche lance le transfert spécifié, sauf si un calendrier ou une valeur --do-not-run
est spécifié.
gcloud transfer jobs create SOURCE DESTINATION
Où :
SOURCE est la source de données de ce transfert, au format
gs://BUCKET_NAME
.DESTINATION est votre nouveau bucket, au format
gs://BUCKET_NAME
.
Des options supplémentaires vous sont proposées :
Informations sur la tâche: vous pouvez spécifier
--name
et--description
.Programmation: spécifiez
--schedule-starts
,--schedule-repeats-every
,--schedule-repeats-until
ou--do-not-run
.Conditions des objets: utilisez les conditions pour déterminer les objets à transférer. Cela inclut
--include-prefixes
et--exclude-prefixes
, ainsi que les conditions basées sur l'heure dans--include-modified-[before | after]-[absolute | relative]
.Options de transfert: indiquez si vous souhaitez remplacer les fichiers de destination (
--overwrite-when=different
oualways
) et si vous souhaitez supprimer certains fichiers pendant ou après le transfert (--delete-from=destination-if-unique
ousource-after-transfer
) ; indiquez quelles sont les [valeurs de métadonnées à conserver]métadonnées ; et éventuellement définissez une classe de stockage sur des objets transférés (--custom-storage-class
).Notifications: configurez des notifications Pub/Sub pour les transferts avec
--notification-pubsub-topic
,--notification-event-types
et--notification-payload-format
.
Pour afficher toutes les options, exécutez la commande gcloud transfer jobs create --help
.
Par exemple, pour transférer tous les objets comportant le préfixe folder1
:
gcloud transfer jobs create gs://old-bucket gs://new-bucket \
--include-prefixes="folder1/"
REST
Dans cet exemple, vous allez apprendre à déplacer des fichiers d'un bucket Cloud Storage à un autre. Par exemple, vous pouvez déplacer les données d'un bucket dans un autre emplacement.
Effectuez une requête à l'aide de la méthode transferJobs.create :
POST https://storagetransfer.googleapis.com/v1/transferJobs { "description": "YOUR DESCRIPTION", "status": "ENABLED", "projectId": "PROJECT_ID", "schedule": { "scheduleStartDate": { "day": 1, "month": 1, "year": 2025 }, "startTimeOfDay": { "hours": 1, "minutes": 1 }, "scheduleEndDate": { "day": 1, "month": 1, "year": 2025 } }, "transferSpec": { "gcsDataSource": { "bucketName": "GCS_SOURCE_NAME" }, "gcsDataSink": { "bucketName": "GCS_SINK_NAME" }, "transferOptions": { "deleteObjectsFromSourceAfterTransfer": true } } }
Réponse :
200 OK { "transferJob": [ { "creationTime": "2015-01-01T01:01:00.000000000Z", "description": "YOUR DESCRIPTION", "name": "transferJobs/JOB_ID", "status": "ENABLED", "lastModificationTime": "2015-01-01T01:01:00.000000000Z", "projectId": "PROJECT_ID", "schedule": { "scheduleStartDate": { "day": 1, "month": 1, "year": 2015 }, "startTimeOfDay": { "hours": 1, "minutes": 1 } }, "transferSpec": { "gcsDataSource": { "bucketName": "GCS_SOURCE_NAME", }, "gcsDataSink": { "bucketName": "GCS_NEARLINE_SINK_NAME" }, "objectConditions": { "minTimeElapsedSinceLastModification": "2592000.000s" }, "transferOptions": { "deleteObjectsFromSourceAfterTransfer": true } } } ] }
Bibliothèques clientes
Dans cet exemple, vous allez apprendre à déplacer des fichiers d'un bucket Cloud Storage à un autre. Par exemple, vous pouvez répliquer les données d'un bucket situé dans un autre emplacement.
Pour en savoir plus sur les bibliothèques clientes du service de transfert de stockage, consultez la page Premiers pas avec les bibliothèques clientes du service de transfert de stockage.
Java
Vous recherchez des exemples plus anciens ? Consultez le guide de migration du service de transfert de stockage.
Python
Vous recherchez des exemples plus anciens ? Consultez le guide de migration du service de transfert de stockage.
Vérifier les objets copiés
Une fois le transfert terminé, nous vous recommandons d'effectuer des vérifications supplémentaires d'intégrité des données.
Vérifiez que les objets ont été correctement copiés, en vérifiant les métadonnées des objets, telles que les sommes de contrôle et la taille.
Vérifiez que la version correcte des objets a été copiée. Le service de transfert de stockage propose une option prête à l'emploi pour vérifier que les objets sont des copies. Si vous avez activé la journalisation, affichez les journaux pour vérifier si tous les objets ont bien été copiés, y compris les champs de métadonnées correspondants.
Commencer à utiliser le bucket de destination
Une fois la migration terminée et vérifiée, mettez à jour les applications ou les charges de travail existantes afin qu'elles utilisent le nom du bucket cible. Consultez les journaux d'accès aux données dans les journaux d'audit Cloud pour vous assurer que vos opérations modifient et lisent correctement les objets.
Supprimer le bucket d'origine
Une fois que tout fonctionne correctement, supprimez le bucket d'origine.
Le service de transfert de stockage offre la possibilité de supprimer les objets après leur transfert, en spécifiant deleteObjectsFromSourceAfterTransfer: true
dans la configuration de la tâche ou en sélectionnant l'option dans la console Google Cloud.
Programmer la suppression de l'objet
Pour programmer la suppression de vos objets à une date ultérieure, utilisez une combinaison de tâche de transfert planifiée et l'option deleteObjectsUniqueInSink = true
.
La tâche de transfert doit être configurée pour transférer un bucket vide dans le bucket contenant vos objets. Ainsi, le service de transfert de stockage répertoriera les objets et commencera à les supprimer. Comme les suppressions sont des opérations impliquant uniquement des métadonnées, la tâche de transfert n'est liée que par RPS. Pour accélérer le processus, divisez le transfert en plusieurs tâches, chacune agissant sur un ensemble distinct de préfixes.
Google Cloud propose également un planificateur de tâches Cron géré. Pour en savoir plus, consultez la section Planifier une tâche de transfert STS Google Cloud avec Cloud Scheduler.