Présentation du service de transfert des données sur site

Restez organisé à l'aide des collections Enregistrez et classez les contenus selon vos préférences.

Cette page décrit le service de transfert des données sur site, ses exigences et ses fonctionnalités.

À propos du service de transfert des données sur site

Le service de transfert des données sur site est un service logiciel qui vous permet de transférer de grandes quantités de données depuis votre centre de données vers un bucket Cloud Storage. Il convient parfaitement aux clients qui déplacent des milliards de fichiers et des centaines de To de données en un seul transfert. Il peut s'adapter à des connexions réseau de dizaines de Gbit/s.

Avantages du service de transfert des données sur site

Le service de transfert des données sur site est un service évolutif, fiable et géré qui vous permet de transférer de gros volumes de données sans avoir à investir dans des équipes d'ingénieurs ni acheter des solutions prêtes à l'emploi chères. Vous installez un conteneur Docker contenant l'agent sur site pour Linux sur les ordinateurs de votre centre de données, et le service de transfert des données sur site coordonne les agents afin de transférer vos données vers Cloud Storage en toute sécurité.

Utiliser le service de transfert des données sur site avec une bande passante limitée

Si votre bande passante est limitée, vous pouvez toujours utiliser le service de transfert des données sur site. Vous pouvez définir une limite de bande passante pour votre projet Google Cloud, ce qui limite la vitesse à laquelle les agents sur site copient des données dans Google Cloud. La limite de bande passante est partagée entre toutes les tâches de transfert et les agents sur site associés dans votre projet Google Cloud.

Fonctionnement du service de transfert des données sur site

Voici un aperçu général du fonctionnement du service de transfert des données sur site :

  1. Installez Docker et exécutez un petit logiciel, appelé agent, dans votre centre de données privé. L'agent s'exécute dans un conteneur Docker et a accès à vos données NFS installées localement.

    Pour en savoir plus, consultez la section Installer et exécuter l'agent sur site.

  2. Terminez la configuration du transfert sur site. Cela inclut l'octroi de l'accès aux ressources utilisées par le service de transfert de stockage, comme Pub/Sub et Cloud Storage.

  3. Démarrez un transfert du service de transfert des données sur site à partir de Google Cloud Console. Vous fournissez le répertoire NFS et un bucket Cloud Storage de destination vers lequel transférer les données.

    Pour en savoir plus, consultez la section Créer une tâche de transfert.

  4. Lorsque le transfert commence, il parcourt de manière récursive le répertoire NFS en question et déplace les données qu'il trouve dans votre bucket Cloud Storage.

    Une somme de contrôle est exécutée sur les données transférées, les fichiers contenant des erreurs font l'objet d'une nouvelle tentative de transfert et les données sont envoyées via une connexion sécurisée. Un enregistrement de la progression du transfert est écrit dans les objets journaux de votre bucket Cloud Storage de destination. Vous pouvez suivre la progression du transfert dans Google Cloud Console.

  5. Une fois le transfert terminé, vous pouvez afficher des exemples d'erreurs dans Cloud Console. Vous pouvez également examiner le journal de transfert pour rechercher un catalogue de fichiers transférés et d'éventuelles erreurs.

Fonctionnement des agents du service de transfert des données sur site

La section suivante décrit les processus d'agent du service de transfert de données sur site :

  • Les processus d'agent sont dynamiques. Lors d'un transfert, vous pouvez ajouter des agents pour améliorer les performances. Les agents nouvellement lancés rejoignent le pool d'agents et effectuent des tâches à partir des transferts existants. Cela vous permet d'ajuster le nombre d'agents en cours d'exécution ou d'adapter les performances de transfert en fonction de la demande.

  • Les processus d'agent constituent une entité collective tolérante aux pannes. Si un agent cesse de s'exécuter, les agents restants continuent leur travail. Si tous vos agents s'arrêtent, le transfert reprend là où ils ont été arrêtés dès que vous les redémarrez. Ainsi, vous n'avez pas besoin d'exploiter des agents de surveillance, de relancer les transferts ni de mettre en œuvre une logique de récupération. Vous pouvez corriger, déplacer et effectuer un scaling dynamique de votre pool d'agents sans que vos transferts ne subissent de temps d'arrêt en coordonnant les agents avec Google Kubernetes Engine.

    Imaginons par exemple que vous lanciez deux transferts pendant que deux agents sont en cours d'exécution. Si l'un des agents s'arrête en raison d'un redémarrage de la machine ou d'un correctif du système d'exploitation, l'agent restant continue de fonctionner. Les deux transferts sont toujours en cours d'exécution, mais à une vitesse réduite, car un seul agent déplace les données. Si l'agent restant s'arrête aussi, tous les transferts cessent de progresser, car aucun agent n'est en cours d'exécution. Lorsque vous redémarrez les processus d'agent, les transferts reprennent là où ils s'étaient arrêtés.

  • Les processus d'agent appartiennent à un pool. Ils déplacent collectivement vos données en parallèle. Pour cette raison, tous les agents doivent disposer du même accès à toutes les sources de données que vous souhaitez transférer.

    Par exemple, si vous transférez des données à partir d'un système de fichiers spécifique, vous devez installer le système de fichiers sur chaque machine sur laquelle vous avez installé des agents. Si certains agents peuvent accéder à une source de données, mais que d'autres ne le peuvent pas, les transferts à partir de cette source de données échoueront.

Fonctionnement des pools d'agents

Un pool d'agents est un ensemble d'agents qui utilisent la même configuration, avec un accès uniforme et une visibilité sur votre source et votre destination. Par exemple, si vous disposez de deux centres de données avec des systèmes de fichiers distincts comme source, vous devez créer un pool d'agents distinct pour chacun d'eux. En effet, un seul pool d'agents ne peut pas disposer d'un accès uniforme ou d'une visibilité sur la source pour transférer efficacement les données.

Chaque pool d'agents est distinct et fonctionne selon sa configuration de transfert spécifique. Les agents peuvent ainsi effectuer des tâches avec différentes sources et destinations, et gérer des ressources de transfert telles que les limites de bande passante pour chaque pool.

Exigences liées au service de transfert des données sur site

Pour utiliser le transfert sur site, vous avez besoin des éléments suivants :

  • Une source compatible avec POSIX.

  • Un serveur ou une machine virtuelle Linux 64 bits compatible avec Docker qui peut accéder aux données que vous prévoyez de transférer.

    Docker Community Edition, compatible avec les systèmes d'exploitation CentOs, Debian, Fedora et Ubuntu.

    Pour utiliser d'autres systèmes d'exploitation Linux, consultez la page sur Docker Enterprise.

  • Un bucket Cloud Storage sans règle de conservation

    Pour effectuer un transfert vers un bucket avec une règle de conservation, nous vous recommandons de procéder comme suit:

    1. Créez un bucket Cloud Storage dans la même région que le bucket final. Assurez-vous que ce bucket temporaire ne dispose pas de règles de conservation.

      Pour en savoir plus sur les régions, consultez la page Emplacements des buckets.

    2. Utilisez le service de transfert des données sur site pour transférer vos données vers le bucket temporaire que vous avez créé sans règle de conservation.

    3. Effectuez un transfert de bucket à bucket pour transférer les données vers le bucket avec règle de conservation.

    4. Supprimez le bucket Cloud Storage que vous avez créé pour stocker vos données de manière temporaire.

  • Terminez la configuration initiale du transfert sur site.

Avant de commencer un transfert, vérifiez les points suivants :

  • Les ports TCP 80 (HTTP) et 443 (HTTPS) sont ouverts pour les connexions sortantes.
  • Tous les processus d'agent d'un même projet Google Cloud ont le même système de fichiers installé au même point d'installation.

Étape suivante

Configurez le transfert sur site.