Avant de pouvoir commencer un transfert, vous devez créer une tâche de transfert et un ou plusieurs agents doivent être installés et connectés à cette tâche. Ce document explique comment créer une tâche de transfert, installer des agents de transfert et gérer vos tâches de transfert.
Prérequis
Pour utiliser le transfert sur site, vous avez besoin des éléments suivants :
Une source compatible avec POSIX.
Une connexion réseau 300 Mbit/s au minimum.
Un serveur ou une machine virtuelle Linux 64 bits compatible avec Docker qui peut accéder aux données que vous prévoyez de transférer.
Docker Community Edition, compatible avec les systèmes d'exploitation CentOs, Debian, Fedora et Ubuntu.
Pour utiliser d'autres systèmes d'exploitation Linux, consultez la page sur Docker Enterprise.
Un bucket Cloud Storage sans règle de conservation
Pour effectuer un transfert vers un bucket avec une règle de conservation, nous vous recommandons de procéder comme suit:
Créez un bucket Cloud Storage dans la même région que le bucket final. Assurez-vous que ce bucket temporaire ne dispose pas de règles de conservation.
Pour en savoir plus sur les régions, consultez la page Emplacements des buckets.
Utilisez le service de transfert des données sur site pour transférer vos données vers le bucket temporaire que vous avez créé sans règle de conservation.
Effectuez un transfert de bucket à bucket pour transférer les données vers le bucket avec règle de conservation.
Supprimez le bucket Cloud Storage que vous avez créé pour stocker vos données de manière temporaire.
Terminez la configuration initiale du transfert sur site.
Avant de commencer un transfert, vérifiez les points suivants :
- Les ports TCP 80 (HTTP) et 443 (HTTPS) sont ouverts pour les connexions sortantes.
Tous les processus d'agent d'un même projet Google Cloud ont le même système de fichiers installé au même point d'installation.
Restrictions liées au scaling des tâches et des agents
Le transfert sur site présente les restrictions de scaling suivantes pour les agents et les tâches de transfert :
- Le nombre de fichiers par tâche doit être inférieur à un milliard.
- Le nombre d'agents par projet de transfert ne doit pas dépasser 100.
- La limite de bande passante doit être supérieure à 1 Mbit/s.
Créer une tâche de transfert
Avant de pouvoir commencer un transfert, vous devez créer une tâche de transfert. La tâche de transfert coordonne et contrôle vos agents sur site lorsqu'ils déplacent vos données.
Pour créer une tâche de transfert, procédez comme suit :
Accédez à la console Web du service de transfert des données sur site dans Google Cloud Console.
Accéder à la page du service de transfert des données sur site
Cliquez sur Créer une tâche de transfert.
La page Créer une tâche de transfert s'affiche.
Décrivez la tâche de transfert. Saisissez une brève description de votre transfert qui vous aidera à le suivre.
Spécifiez une source en saisissant le chemin d'accès complet du répertoire du système de fichiers source.
Spécifiez un bucket de destination Cloud Storage. Vous pouvez saisir un nom de bucket Cloud Storage ou créer un bucket.
Pour créer et sélectionner un bucket, procédez comme suit :
Cliquez sur Parcourir.
Cliquez sur Nouveau bucket.
Le formulaire Créer un bucket s'affiche.
Remplissez le formulaire et cliquez sur Créer, puis sur Sélectionner.
Facultatif : saisissez un préfixe d'objet. Sans préfixe d'objet, les objets sont transférés vers Cloud Storage avec le chemin de la source, à l'exclusion du chemin racine, avant le nom du fichier sur le système de fichiers. Par exemple, si vous disposez des fichiers suivants :
/source_root_path/file1.txt
/source_root_path/dirA/file2.txt
/source_root_path/dirA/dirB/file3.txt
file1.txt
dirA/file2.txt
dirA/dirB/file3.txt
/
du nom du bucket de destination et avant tout chemin d'accès à partir duquel l'objet a été transféré, à l'exclusion du chemin racine de la source. Ce préfixe peut vous aider à faire la distinction entre les objets transférés et d'autres tâches de transfert. Le tableau suivant présente plusieurs exemples de préfixes d'objet et de noms d'objet résultant dans Cloud Storage, si le chemin de l'objet source est/source_root_path/sub_folder_name/object_name
:Préfixe Nom de l'objet de destination Aucun /destination_bucket/sub_folder_name/object_name
prefix
/destination_bucket/prefixsub_folder_name/object_name
prefix-
/destination_bucket/prefix-sub_folder_name/object_name
prefix/
/destination_bucket/prefix/sub_folder_name/object_name
Facultatif : Créez une planification pour votre tâche.
Cliquez sur Create (Créer).
Si vous ne l'avez pas déjà fait, installez et exécutez les agents de transfert sur site sur chacune de vos machines.
Contrôler l'utilisation de la bande passante pour le service de transfert des données sur site
Les limites de bande passante sont utiles si vous devez limiter la quantité de données que le service de transfert des données sur site exploite pour transférer des données vers Cloud Storage. La définition d'une limite de bande passante permet de s'assurer que :
les liaisons ascendantes du réseau ne seront pas saturées suite à l'utilisation du service de transfert des données sur site ;
le comportement de l'application existante de votre organisation ne se dégradera pas pendant le transfert ;
vos coûts n'augmenteront pas soudainement si la facturation de votre connexion réseau s'effectue sur l'utilisation de la bande passante maximale.
Les limites de bande passante s'appliquent à un projet entier.
Définir une limite de bande passante
Pour définir une limite de bande passante, procédez comme suit :
Accédez à la page Paramètres de connexion du service de transfert des données sur site dans Google Cloud Console.
Accéder à la page Paramètres de connexion du service de transfert des données sur site
Cliquez sur Définir une limite de bande passante.
Le volet Définir la limite de bande passante de ce projet s'affiche.
Dans la zone de texte Limite de bande passante, saisissez la limite réseau souhaitée en mégaoctets par seconde (Mo/s), puis cliquez sur Définir une limite de bande passante.
La limite de bande passante s'affiche pour le projet.
Modifier une limite de bande passante
Pour modifier une limite de bande passante existante, procédez comme suit :
Accédez à la page Paramètres de connexion du service de transfert des données sur site dans Google Cloud Console.
Accéder à la page Paramètres de connexion du service de transfert des données sur site
Dans la limite de bande passante affichée, cliquez sur Modifier.
Dans la zone de texte Limite de bande passante, saisissez la limite réseau souhaitée en mégaoctets par seconde (Mo/s), puis cliquez sur Définir une limite de bande passante.
La limite de bande passante s'affiche pour le projet.
Supprimer une limite de bande passante
Pour supprimer une limite de bande passante existante, procédez comme suit :
Accédez à la page Paramètres de connexion du service de transfert des données sur site dans Google Cloud Console.
Accéder à la page Paramètres de connexion du service de transfert des données sur site
Dans la limite de bande passante affichée, cliquez sur Utiliser toute la bande passante.
Pour confirmer que vous souhaitez supprimer la limite existante, cliquez sur Confirmer.
Surveiller les tâches
Vous pouvez surveiller les tâches du service de transfert des données sur site afin de vous assurer qu'elles fonctionnent comme prévu.
Pour surveiller vos tâches de transfert, procédez comme suit :
Accédez à la page Tâches de transfert du service de transfert des données sur site dans Google Cloud Console.
Accéder à la page Tâches de transfert du service de transfert des données sur site
La liste des tâches s'affiche. Cette liste comprend les tâches en cours et terminées.
Pour afficher des informations détaillées sur une tâche de transfert, cliquez sur la description de la tâche qui vous intéresse.
La page Détails de la tâche s'affiche.
La page Détails de la tâche affiche les informations suivantes :
Le volume de données qui a été transféré
Les informations de configuration de la tâche de transfert
Les informations concernant les tâches planifiées ou récurrentes
Les détails d'exécution de la tâche la plus récente
L'historique de toutes les tâches exécutées précédemment
Filtrer les tâches
Si vous avez plusieurs tâches et que vous souhaitez en surveiller un sous-ensemble, songez à utiliser des filtres pour trier et afficher uniquement les tâches qui vous intéressent.
Pour filtrer vos tâches de transfert, procédez comme suit :
Cliquez sur Liste des filtres filter_list.
Sélectionnez les filtres que vous souhaitez appliquer.
Modifier les configurations de tâches
Vous pouvez modifier les éléments suivants pour une tâche de transfert existante :
- Description de la tâche
- Option de synchronisation
- Programmer l'envoi
Pour modifier une configuration de tâche, procédez comme suit :
Accédez à la page Tâches de transfert du service de transfert des données sur site dans Google Cloud Console.
Accéder à la page Tâches de transfert du service de transfert des données sur site
Cliquez sur Description de la tâche pour la tâche que vous modifiez.
La page Détails de la tâche s'affiche.
Cliquez sur Configuration
Cliquez sur edit à côté de l'élément de configuration que vous souhaitez modifier.
Réexécuter des tâches
Le service de transfert des données sur site permet de réexécuter à une reprise une tâche terminée. Cela peut être utile si vous devez déplacer des données supplémentaires et souhaitez réutiliser une configuration de tâche existante.
Pour réexécuter une tâche, procédez comme suit :
Accédez à la page Tâches de transfert du service de transfert des données sur site dans Google Cloud Console.
Accéder à la page Tâches de transfert du service de transfert des données sur site
Cliquez sur Description de la tâche pour la tâche que vous modifiez.
La page Détails de la tâche s'affiche.
Cliquez sur replay Exécuter à nouveau.
La tâche démarre.
Afficher les erreurs
Pour afficher un exemple des erreurs rencontrées lors du transfert, procédez comme suit :
Accédez à la page Tâches de transfert du service de transfert des données sur site dans Google Cloud Console.
Accéder à la page Tâches de transfert du service de transfert des données sur site
Cliquez sur Description de la tâche pour la tâche que vous modifiez.
La page Détails de la tâche s'affiche.
Cliquez sur Voir les informations sur l'erreur.
La page Détails de l'erreur s'affiche. Elle contient un exemple des erreurs rencontrées durant le transfert.
Afficher les journaux de transfert
Le service de transfert des données sur site génère des journaux de transfert détaillés qui vous permettent de vérifier les résultats de votre tâche de transfert. Chaque tâche crée une collection de journaux de transfert qui sont stockés dans le bucket Cloud Storage de destination.
Les journaux sont générés pendant l'exécution de la tâche de transfert. Les journaux complets sont généralement disponibles dans les 15 minutes suivant la fin de la tâche.
Vous pouvez afficher les journaux de l'une des manières suivantes :
Afficher les erreurs dans Google Cloud Console
Pour afficher toutes les erreurs rencontrées lors du transfert dans Google Cloud Console, procédez comme suit :
Cliquez sur Afficher les journaux de transfert.
La page Informations sur le bucket s'affiche. Il s'agit d'une destination dans votre bucket Cloud Storage.
Cliquez sur le journal de transfert qui vous intéresse.
Les journaux de transfert s'affichent. Pour plus d'informations, consultez la page Format du journal de transfert sur site.
Afficher les journaux dans le bucket de destination
Les journaux de transfert sont stockés dans le bucket de destination au chemin suivant :
destination-bucket-name/storage-transfer/logs/transferJobs/job-name/transferOperations/operation-name
où :
destination-bucket-name
est le nom du bucket Cloud Storage de destination de la tâche.job-name
correspond au nom de la tâche, tel qu'il apparaît dans la liste des tâches.operation-name
correspond au nom de l'opération de transfert individuelle, composé de l'horodatage IS08601 et de l'ID généré.
Les journaux sont agrégés et stockés en tant qu'objets. Chaque lot de journaux est nommé en fonction de sa date de création. Exemple :
my
bucket/storage-transfer/logs/transferOperations/job1/2019-10-19T10_52_56.519081644-07_00.log
Les journaux de transfert s'affichent. Pour plus d'informations, consultez la page Format du journal de transfert sur site.
Exécuter des requêtes BigQuery sur les journaux de transfert
Pour exécuter des requêtes BigQuery sur vos journaux de transfert, procédez comme suit :
Exécutez votre requête BigQuery.
Exemples de requêtes
Afficher le nombre de fichiers ayant fait l'objet d'une tentative de transfert et l'état échec/réussite
select ActionStatus, count(*) as num_files from big-query-table where Action="TRANSFER" group by 1;
Où big-query-table
est le nom de la table BigQuery qui contient le journal de transfert.
Afficher tous les fichiers dont le transfert a échoué
select Src_File_Path from big-query-table where Action="TRANSFER" and ActionStatus="FAILED";
Où big-query-table
est le nom de la table BigQuery qui contient le journal de transfert.
Afficher la somme de contrôle et l'horodatage pour chaque fichier transféré
select Timestamp, Action, ActionStatus, Src_File_Path, Src_File_Size, Src_File_Crc32C, Dst_Gcs_BucketName, Dst_Gcs_ObjectName, Dst_Gcs_Size, Dst_Gcs_Crc32C, Dst_Gcs_Md5 from big-query-table where Action="TRANSFER" and ActionStatus="SUCCEEDED";
Où big-query-table
est le nom de la table BigQuery qui contient le journal de transfert.
Afficher tous les détails des erreurs pour les répertoires dont le transfert a échoué
select FailureDetails_ErrorType, FailureDetails_GrpcCode, FailureDetails_Message from big-query-table where Action="FIND" and ActionStatus="FAILED";
Où big-query-table
est le nom de la table BigQuery qui contient le journal de transfert.