Présentation du service de transfert des données sur site

Cette page décrit le service de transfert des données sur site, ses exigences et ses fonctionnalités.

À propos du service de transfert des données sur site

Le service de transfert des données sur site est un service logiciel qui vous permet de transférer de grandes quantités de données depuis votre centre de données vers un bucket Cloud Storage. Il convient parfaitement aux clients qui déplacent des milliards de fichiers et des centaines de To de données en un seul transfert. Il peut s'adapter à des connexions réseau de dizaines de Gbit/s.

Avantages du service de transfert des données sur site

Le service de transfert des données sur site vous permet de transférer de gros volumes de données sans avoir à écrire de scripts personnalisés ni à acheter de solutions prêtes à l'emploi. Les scripts personnalisés peuvent présenter les inconvénients suivants :

  • Manque de fiabilité
  • Lenteur
  • Manque de sécurité
  • Gestion et dépannage difficiles

Les solutions prêtes à l'emploi peuvent être coûteuses à déployer.

Le service de transfert des données sur site est un service géré, évolutif et fiable qui vous permet de déplacer vos données sans avoir à investir dans des équipes d'ingénieurs ni à acheter de solutions de transfert. Vous installez un conteneur Docker contenant l'agent sur site pour Linux sur les ordinateurs de votre centre de données, et le service de transfert des données sur site coordonne les agents afin de transférer vos données vers Cloud Storage en toute sécurité.

Utiliser le service de transfert des données sur site avec une bande passante limitée

Si votre bande passante est limitée, vous pouvez toujours utiliser le service de transfert des données sur site. Vous pouvez définir une limite de bande passante pour votre projet Google Cloud, ce qui limite la vitesse à laquelle les agents sur site copient des données dans Google Cloud. La limite de bande passante est partagée entre toutes les tâches de transfert et les agents sur site associés dans votre projet Google Cloud.

Fonctionnement du service de transfert des données sur site

Voici un aperçu général du fonctionnement du service de transfert des données sur site :

  1. Installez Docker et exécutez un petit logiciel, appelé agent, dans votre centre de données privé. L'agent s'exécute dans un conteneur Docker et a accès à vos données NFS installées localement.

    Pour en savoir plus, consultez la section Installer et exécuter l'agent sur site.

  2. Terminez la configuration initiale du transfert sur site. Cela inclut l'octroi de l'accès aux ressources utilisées par le service de transfert de stockage, tel que Pub/Sub et Cloud Storage.

  3. Démarrez un transfert du service de transfert des données sur site à partir de Google Cloud Console. Vous fournissez le répertoire NFS et un bucket Cloud Storage de destination vers lequel transférer les données.

    Pour en savoir plus, consultez la section Créer une tâche de transfert.

  4. Lorsque le transfert commence, il parcourt de manière récursive le répertoire NFS en question et déplace les données qu'il trouve dans votre bucket Cloud Storage.

    Une somme de contrôle est exécutée sur les données transférées, les fichiers contenant des erreurs font l'objet d'une nouvelle tentative de transfert et les données sont envoyées via une connexion sécurisée. Un enregistrement de la progression du transfert est écrit dans les objets journaux de votre bucket Cloud Storage de destination. Vous pouvez suivre la progression du transfert dans Google Cloud Console.

  5. Une fois le transfert terminé, vous pouvez afficher des exemples d'erreurs dans Google Cloud Console. Vous pouvez également examiner le journal de transfert pour rechercher un catalogue de fichiers transférés et d'éventuelles erreurs.

Fonctionnement des agents du service de transfert des données sur site

La section suivante décrit les processus d'agent du service de transfert de données sur site :

  • Les processus d'agent sont dynamiques. Lors d'un transfert, vous pouvez ajouter des agents pour améliorer les performances. Les agents nouvellement lancés rejoignent le pool d'agents et effectuent des tâches à partir des transferts existants. Cela vous permet d'ajuster le nombre d'agents en cours d'exécution ou d'adapter les performances de transfert en fonction de la demande.

  • Les processus d'agent constituent une entité collective tolérante aux pannes. Si un agent cesse de s'exécuter, les agents restants continuent leur travail. Si tous vos agents s'arrêtent, le transfert reprend là où ils ont été arrêtés dès que vous les redémarrez. Ainsi, vous n'avez pas besoin d'exploiter des agents de surveillance, de relancer les transferts ni de mettre en œuvre une logique de récupération. Vous pouvez corriger, déplacer et effectuer un scaling dynamique de votre pool d'agents sans que vos transferts ne subissent de temps d'arrêt en coordonnant les agents avec Google Kubernetes Engine.

    Imaginons par exemple que vous lanciez deux transferts pendant que deux agents sont en cours d'exécution. Si l'un des agents s'arrête en raison d'un redémarrage de la machine ou d'un correctif du système d'exploitation, l'agent restant continue de fonctionner. Les deux transferts sont toujours en cours d'exécution, mais à une vitesse réduite, car un seul agent déplace les données. Si l'agent restant s'arrête aussi, tous les transferts cessent de progresser, car aucun agent n'est en cours d'exécution. Lorsque vous redémarrez les processus d'agent, les transferts reprennent là où ils s'étaient arrêtés.

  • Les processus d'agent constituent un pool. Ils déplacent collectivement vos données en parallèle. Pour cette raison, tous les agents doivent disposer du même accès à toutes les sources de données que vous souhaitez transférer.

    Par exemple, si vous transférez des données à partir d'un système de fichiers spécifique, vous devez installer le système de fichiers sur chaque machine sur laquelle vous avez installé des agents. Si certains agents peuvent accéder à une source de données, mais que d'autres ne le peuvent pas, les transferts à partir de cette source de données échoueront.

Exigences liées au service de transfert des données sur site

Pour utiliser le transfert sur site, vous avez besoin des éléments suivants :

  • Une source compatible avec POSIX.

  • Une connexion réseau 300 Mbit/s au minimum.

  • Un serveur ou une machine virtuelle Linux 64 bits compatible avec Docker qui peut accéder aux données que vous prévoyez de transférer.

    Docker Community Edition, compatible avec les systèmes d'exploitation CentOs, Debian, Fedora et Ubuntu.

    Pour utiliser d'autres systèmes d'exploitation Linux, consultez la page sur Docker Enterprise.

  • Terminez la configuration initiale du transfert sur site.

Avant de commencer un transfert, vérifiez les points suivants :

  • Les ports TCP 80 (HTTP) et 443 (HTTPS) sont ouverts pour les connexions sortantes.
  • Tous les processus d'agent d'un même projet Google Cloud ont le même système de fichiers installé au même point d'installation.

Étape suivante

Effectuez la configuration initiale pour commencer votre transfert.