Gérer les tâches de transfert sur site

Avant de pouvoir commencer un transfert, vous devez créer une tâche de transfert et un ou plusieurs agents doivent être installés et connectés à cette tâche. Ce document explique comment créer une tâche de transfert, installer des agents de transfert et gérer vos tâches de transfert.

Prérequis

Pour utiliser le transfert sur site, vous avez besoin des éléments suivants :

  • Une source compatible avec POSIX.

  • Une connexion réseau 300 Mbit/s au minimum.

  • Un serveur ou une machine virtuelle Linux 64 bits compatible avec Docker qui peut accéder aux données que vous prévoyez de transférer.

    Docker Community Edition, compatible avec les systèmes d'exploitation CentOs, Debian, Fedora et Ubuntu.

    Pour utiliser d'autres systèmes d'exploitation Linux, consultez la page sur Docker Enterprise.

  • Un bucket Cloud Storage sans règle de conservation

    Pour effectuer un transfert vers un bucket avec une règle de conservation, nous vous recommandons de procéder comme suit:

    1. Créez un bucket Cloud Storage dans la même région que le bucket final. Assurez-vous que ce bucket temporaire ne dispose pas de règles de conservation.

      Pour en savoir plus sur les régions, consultez la page Emplacements des buckets.

    2. Utilisez le service de transfert des données sur site pour transférer vos données vers le bucket temporaire que vous avez créé sans règle de conservation.

    3. Effectuez un transfert de bucket à bucket pour transférer les données vers le bucket avec règle de conservation.

    4. Supprimez le bucket Cloud Storage que vous avez créé pour stocker vos données de manière temporaire.

  • Terminez la configuration initiale du transfert sur site.

Avant de commencer un transfert, vérifiez les points suivants :

  • Les ports TCP 80 (HTTP) et 443 (HTTPS) sont ouverts pour les connexions sortantes.
  • Tous les processus d'agent d'un même projet Google Cloud ont le même système de fichiers installé au même point d'installation.

Restrictions liées au scaling des tâches et des agents

Le transfert sur site présente les restrictions de scaling suivantes pour les agents et les tâches de transfert :

  • Le nombre de fichiers par tâche doit être inférieur à un milliard.
  • Le nombre d'agents par projet de transfert ne doit pas dépasser 100.
  • La limite de bande passante doit être supérieure à 1 Mbit/s.

Créer une tâche de transfert

Avant de pouvoir commencer un transfert, vous devez créer une tâche de transfert. La tâche de transfert coordonne et contrôle vos agents sur site lorsqu'ils déplacent vos données.

Pour créer une tâche de transfert, procédez comme suit :

  1. Accédez à la console Web du service de transfert des données sur site dans Google Cloud Console.

    Accéder à la page du service de transfert des données sur site

  2. Cliquez sur Créer une tâche de transfert.

    La page Créer une tâche de transfert s'affiche.

  3. Décrivez la tâche de transfert. Saisissez une brève description de votre transfert qui vous aidera à le suivre.

  4. Spécifiez une source en saisissant le chemin d'accès complet du répertoire du système de fichiers source.

  5. Spécifiez un bucket de destination Cloud Storage. Vous pouvez saisir un nom de bucket Cloud Storage ou créer un bucket.

    Pour créer et sélectionner un bucket, procédez comme suit :

    1. Cliquez sur Parcourir.

    2. Cliquez sur Nouveau bucket.

      Le formulaire Créer un bucket s'affiche.

    3. Remplissez le formulaire et cliquez sur Créer, puis sur Sélectionner.

  6. Facultatif : saisissez un préfixe d'objet. Sans préfixe d'objet, les objets sont transférés vers Cloud Storage avec le chemin de la source, à l'exclusion du chemin racine, avant le nom du fichier sur le système de fichiers. Par exemple, si vous disposez des fichiers suivants :

    • /source_root_path/file1.txt
    • /source_root_path/dirA/file2.txt
    • /source_root_path/dirA/dirB/file3.txt
    Les noms d'objet dans Cloud Storage sont les suivants :
    • file1.txt
    • dirA/file2.txt
    • dirA/dirB/file3.txt
    Le préfixe d'objet est ajouté au nom de destination de l'objet dans Cloud Storage. Le préfixe est ajouté après le caractère / du nom du bucket de destination et avant tout chemin d'accès à partir duquel l'objet a été transféré, à l'exclusion du chemin racine de la source. Ce préfixe peut vous aider à faire la distinction entre les objets transférés et d'autres tâches de transfert.

    Le tableau suivant présente plusieurs exemples de préfixes d'objet et de noms d'objet résultant dans Cloud Storage, si le chemin de l'objet source est /source_root_path/sub_folder_name/object_name :
    Préfixe Nom de l'objet de destination
    Aucun /destination_bucket/sub_folder_name/object_name
    prefix /destination_bucket/prefixsub_folder_name/object_name
    prefix- /destination_bucket/prefix-sub_folder_name/object_name
    prefix/ /destination_bucket/prefix/sub_folder_name/object_name

  7. Facultatif : Créez une planification pour votre tâche.

  8. Cliquez sur Create (Créer).

Si vous ne l'avez pas déjà fait, installez et exécutez les agents de transfert sur site sur chacune de vos machines.

Contrôler l'utilisation de la bande passante pour le service de transfert des données sur site

Les limites de bande passante sont utiles si vous devez limiter la quantité de données que le service de transfert des données sur site exploite pour transférer des données vers Cloud Storage. La définition d'une limite de bande passante permet de s'assurer que :

  • les liaisons ascendantes du réseau ne seront pas saturées suite à l'utilisation du service de transfert des données sur site ;

  • le comportement de l'application existante de votre organisation ne se dégradera pas pendant le transfert ;

  • vos coûts n'augmenteront pas soudainement si la facturation de votre connexion réseau s'effectue sur l'utilisation de la bande passante maximale.

Les limites de bande passante s'appliquent à un projet entier.

Définir une limite de bande passante

Pour définir une limite de bande passante, procédez comme suit :

  1. Accédez à la page Paramètres de connexion du service de transfert des données sur site dans Google Cloud Console.

    Accéder à la page Paramètres de connexion du service de transfert des données sur site

  2. Cliquez sur Définir une limite de bande passante.

  3. Le volet Définir la limite de bande passante de ce projet s'affiche.

  4. Dans la zone de texte Limite de bande passante, saisissez la limite réseau souhaitée en mégaoctets par seconde (Mo/s), puis cliquez sur Définir une limite de bande passante.

    La limite de bande passante s'affiche pour le projet.

Modifier une limite de bande passante

Pour modifier une limite de bande passante existante, procédez comme suit :

  1. Accédez à la page Paramètres de connexion du service de transfert des données sur site dans Google Cloud Console.

    Accéder à la page Paramètres de connexion du service de transfert des données sur site

  2. Dans la limite de bande passante affichée, cliquez sur Modifier.

  3. Dans la zone de texte Limite de bande passante, saisissez la limite réseau souhaitée en mégaoctets par seconde (Mo/s), puis cliquez sur Définir une limite de bande passante.

    La limite de bande passante s'affiche pour le projet.

Supprimer une limite de bande passante

Pour supprimer une limite de bande passante existante, procédez comme suit :

  1. Accédez à la page Paramètres de connexion du service de transfert des données sur site dans Google Cloud Console.

    Accéder à la page Paramètres de connexion du service de transfert des données sur site

  2. Dans la limite de bande passante affichée, cliquez sur Utiliser toute la bande passante.

  3. Pour confirmer que vous souhaitez supprimer la limite existante, cliquez sur Confirmer.

Surveiller les tâches

Vous pouvez surveiller les tâches du service de transfert des données sur site afin de vous assurer qu'elles fonctionnent comme prévu.

Pour surveiller vos tâches de transfert, procédez comme suit :

  1. Accédez à la page Tâches de transfert du service de transfert des données sur site dans Google Cloud Console.

    Accéder à la page Tâches de transfert du service de transfert des données sur site

    La liste des tâches s'affiche. Cette liste comprend les tâches en cours et terminées.

  2. Pour afficher des informations détaillées sur une tâche de transfert, cliquez sur la description de la tâche qui vous intéresse.

    La page Détails de la tâche s'affiche.

La page Détails de la tâche affiche les informations suivantes :

  • Le volume de données qui a été transféré

  • Les informations de configuration de la tâche de transfert

  • Les informations concernant les tâches planifiées ou récurrentes

  • Les détails d'exécution de la tâche la plus récente

  • L'historique de toutes les tâches exécutées précédemment

Filtrer les tâches

Si vous avez plusieurs tâches et que vous souhaitez en surveiller un sous-ensemble, songez à utiliser des filtres pour trier et afficher uniquement les tâches qui vous intéressent.

Pour filtrer vos tâches de transfert, procédez comme suit :

  1. Cliquez sur Liste des filtres .

  2. Sélectionnez les filtres que vous souhaitez appliquer.

Modifier les configurations de tâches

Vous pouvez modifier les éléments suivants pour une tâche de transfert existante :

Pour modifier une configuration de tâche, procédez comme suit :

  1. Accédez à la page Tâches de transfert du service de transfert des données sur site dans Google Cloud Console.

    Accéder à la page Tâches de transfert du service de transfert des données sur site

  2. Cliquez sur Description de la tâche pour la tâche que vous modifiez.

    La page Détails de la tâche s'affiche.

  3. Cliquez sur Configuration

  4. Cliquez sur à côté de l'élément de configuration que vous souhaitez modifier.

Réexécuter des tâches

Le service de transfert des données sur site permet de réexécuter à une reprise une tâche terminée. Cela peut être utile si vous devez déplacer des données supplémentaires et souhaitez réutiliser une configuration de tâche existante.

Pour réexécuter une tâche, procédez comme suit :

  1. Accédez à la page Tâches de transfert du service de transfert des données sur site dans Google Cloud Console.

    Accéder à la page Tâches de transfert du service de transfert des données sur site

  2. Cliquez sur Description de la tâche pour la tâche que vous modifiez.

    La page Détails de la tâche s'affiche.

  3. Cliquez sur  Exécuter à nouveau.

    La tâche démarre.

Afficher les erreurs

Pour afficher un exemple des erreurs rencontrées lors du transfert, procédez comme suit :

  1. Accédez à la page Tâches de transfert du service de transfert des données sur site dans Google Cloud Console.

    Accéder à la page Tâches de transfert du service de transfert des données sur site

  2. Cliquez sur Description de la tâche pour la tâche que vous modifiez.

    La page Détails de la tâche s'affiche.

  3. Cliquez sur Voir les informations sur l'erreur.

    La page Détails de l'erreur s'affiche. Elle contient un exemple des erreurs rencontrées durant le transfert.

Afficher les journaux de transfert

Le service de transfert des données sur site génère des journaux de transfert détaillés qui vous permettent de vérifier les résultats de votre tâche de transfert. Chaque tâche crée une collection de journaux de transfert qui sont stockés dans le bucket Cloud Storage de destination.

Les journaux sont générés pendant l'exécution de la tâche de transfert. Les journaux complets sont généralement disponibles dans les 15 minutes suivant la fin de la tâche.

Vous pouvez afficher les journaux de l'une des manières suivantes :

Afficher les erreurs dans Google Cloud Console

Pour afficher toutes les erreurs rencontrées lors du transfert dans Google Cloud Console, procédez comme suit :

  1. Cliquez sur Afficher les journaux de transfert.

    La page Informations sur le bucket s'affiche. Il s'agit d'une destination dans votre bucket Cloud Storage.

  2. Cliquez sur le journal de transfert qui vous intéresse.

    Les journaux de transfert s'affichent. Pour plus d'informations, consultez la page Format du journal de transfert sur site.

Afficher les journaux dans le bucket de destination

Les journaux de transfert sont stockés dans le bucket de destination au chemin suivant :

destination-bucket-name/storage-transfer/logs/transferJobs/job-name/transferOperations/operation-name

où :

  • destination-bucket-name est le nom du bucket Cloud Storage de destination de la tâche.
  • job-name correspond au nom de la tâche, tel qu'il apparaît dans la liste des tâches.
  • operation-name correspond au nom de l'opération de transfert individuelle, composé de l'horodatage IS08601 et de l'ID généré.

Les journaux sont agrégés et stockés en tant qu'objets. Chaque lot de journaux est nommé en fonction de sa date de création. Exemple :

my bucket/storage-transfer/logs/transferOperations/job1/2019-10-19T10_52_56.519081644-07_00.log

Les journaux de transfert s'affichent. Pour plus d'informations, consultez la page Format du journal de transfert sur site.

Exécuter des requêtes BigQuery sur les journaux de transfert

Pour exécuter des requêtes BigQuery sur vos journaux de transfert, procédez comme suit :

  1. Chargez les données de journal au format CSV dans BigQuery.

  2. Exécutez votre requête BigQuery.

Exemples de requêtes

Afficher le nombre de fichiers ayant fait l'objet d'une tentative de transfert et l'état échec/réussite

select ActionStatus, count(*) as num_files
from big-query-table
where Action="TRANSFER"
group by 1;

big-query-table est le nom de la table BigQuery qui contient le journal de transfert.

Afficher tous les fichiers dont le transfert a échoué

select Src_File_Path  
from big-query-table
where Action="TRANSFER" and ActionStatus="FAILED";

big-query-table est le nom de la table BigQuery qui contient le journal de transfert.

Afficher la somme de contrôle et l'horodatage pour chaque fichier transféré

select Timestamp, Action, ActionStatus, Src_File_Path, Src_File_Size,
Src_File_Crc32C, Dst_Gcs_BucketName, Dst_Gcs_ObjectName, Dst_Gcs_Size,
Dst_Gcs_Crc32C, Dst_Gcs_Md5
from big-query-table
where Action="TRANSFER" and ActionStatus="SUCCEEDED";

big-query-table est le nom de la table BigQuery qui contient le journal de transfert.

Afficher tous les détails des erreurs pour les répertoires dont le transfert a échoué

select FailureDetails_ErrorType, FailureDetails_GrpcCode, FailureDetails_Message
from big-query-table
where Action="FIND" and ActionStatus="FAILED";

big-query-table est le nom de la table BigQuery qui contient le journal de transfert.