Présentation de la mise en réseau Cloud Data Fusion

Cette page fournit des informations générales sur la connexion à vos sources de données depuis des instances Cloud Data Fusion publiques ou privées à partir d'environnements de conception et d'exécution.

Avant de commencer

La mise en réseau dans Cloud Data Fusion nécessite des connaissances de base dans les domaines suivants:

Projet locataire

Cloud Data Fusion crée un projet locataire qui contient les ressources et les services nécessaires à la gestion des pipelines en votre nom, par exemple lorsqu'il les exécute sur les clusters Dataproc qui se trouvent dans votre projet client.

Le projet locataire ne vous est pas directement exposé, mais lorsque vous créez une instance privée, vous devez configurer l'appairage de VPC à l'aide du nom du projet. Chaque instance privée du projet locataire possède son propre réseau et sous-réseau VPC.

Le projet peut comporter plusieurs instances Cloud Data Fusion. Vous gérez les ressources et les services qu'elle contient lorsque vous accédez à une instance dans l'interface utilisateur Cloud Data Fusion ou Google Cloud CLI.
Pour en savoir plus, consultez la documentation de Service Infrastructure sur les projets locataires.

Projet client

Le client crée ce projet et en est le propriétaire. Par défaut, Cloud Data Fusion crée un cluster Dataproc éphémère dans ce projet pour exécuter vos pipelines.

Instance Cloud Data Fusion

Une instance Cloud Data Fusion est un déploiement unique de Cloud Data Fusion, dans lequel vous concevez et exécutez des pipelines. Vous pouvez créer plusieurs instances dans un même projet et spécifier la région Google Cloud dans laquelle créer les instances Cloud Data Fusion. En fonction de vos exigences et de vos contraintes de coût, vous pouvez créer une instance qui utilise l'édition Developer, Basic ou Enterprise de Cloud Data Fusion. Chaque instance contient un déploiement Cloud Data Fusion unique et indépendant qui comporte un ensemble de services qui gèrent la gestion du cycle de vie des pipelines, l'orchestration, la coordination et la gestion des métadonnées. Ces services s'exécutent à l'aide de ressources de longue durée dans un projet locataire.

Schéma réseau

Le schéma suivant illustre les connexions lorsque vous créez des pipelines de données qui extraient, transforment, combinent, agrègent et chargent des données à partir de diverses sources de données sur site et dans le cloud.

Dans Cloud Data Fusion 6.4 et versions ultérieures, consultez les schémas pour contrôler la sortie dans une instance privée et vous connecter à une source publique.

Pour les versions antérieures à 6.4, le schéma d'architecture système suivant montre comment Cloud Data Fusion se connecte aux sources de données de services tels que Preview ou Wrangler dans un projet locataire, et Dataproc dans un projet client.

Schéma du réseau Cloud Data Fusion

Conception et exécution du pipeline

Cloud Data Fusion fournit une séparation des environnements de conception et d'exécution, ce qui vous permet de concevoir un pipeline une fois, puis de l'exécuter dans plusieurs environnements. L'environnement de conception réside dans le projet locataire, tandis que l'environnement d'exécution se trouve dans un ou plusieurs projets clients.

Exemple: Vous concevez votre pipeline à l'aide de services Cloud Data Fusion tels que Wrangler et Preview. Ces services s'exécutent dans le projet locataire, où l'accès aux données est contrôlé par le rôle Agent de service Cloud Data Fusion géré par Google. Vous exécutez ensuite le pipeline dans votre projet client afin qu'il utilise votre cluster Dataproc. Dans le projet client, le compte de service Compute Engine par défaut contrôle l'accès aux données. Vous pouvez configurer votre projet pour utiliser un compte de service personnalisé.

Pour en savoir plus sur la configuration des comptes de service, consultez la page Comptes de service Cloud Data Fusion.

Environnement de conception

Lorsque vous créez une instance Cloud Data Fusion dans votre projet client, Cloud Data Fusion crée automatiquement un projet locataire distinct géré par Google pour exécuter les services requis pour gérer le cycle de vie des pipelines et des métadonnées, l'interface utilisateur de Cloud Data Fusion et des outils au moment de la conception tels que Preview et Wrangler.

Résolution DNS dans Cloud Data Fusion

Pour résoudre les noms de domaine dans votre environnement de conception lorsque vous superposez et prévisualisez les données que vous transférez vers Google Cloud, utilisez l'appairage DNS (disponible à partir de Cloud Data Fusion 6.7.0). Il vous permet d'utiliser des domaines ou des noms d'hôte pour les sources et les récepteurs, que vous n'avez pas besoin de reconfigurer aussi souvent que les adresses IP.

La résolution DNS est recommandée dans votre environnement au moment de la conception dans Cloud Data Fusion, lorsque vous testez des connexions et prévisualisez des pipelines qui utilisent des noms de domaine sur site ou d'autres serveurs (tels que des bases de données ou des serveurs FTP) dans un réseau VPC privé.

Pour plus d'informations, consultez les pages Appairage DNS et Transfert Cloud DNS.

Environnement d'exécution

Après avoir vérifié et déployé votre pipeline dans une instance, vous pouvez l'exécuter manuellement ou en fonction d'un calendrier ou d'un déclencheur d'état.

Que l'environnement d'exécution soit provisionné et géré par Cloud Data Fusion ou par le client, il existe dans votre projet client.

Instances publiques (par défaut)

Le moyen le plus simple de provisionner une instance Cloud Data Fusion consiste à créer une instance publique. Il sert de point de départ et permet d'accéder à des points de terminaison externes sur l'Internet public.

Une instance publique dans Cloud Data Fusion utilise le réseau VPC par défaut de votre projet.

Le réseau VPC par défaut présente les caractéristiques suivantes:

  • Sous-réseaux générés automatiquement pour chaque région
  • Tables de routage
  • Règles de pare-feu pour assurer la communication entre vos ressources informatiques

Mise en réseau entre les régions

Lorsque vous créez un projet, le réseau VPC par défaut présente l'avantage d'insérer automatiquement un sous-réseau par région à l'aide d'une plage d'adresses IP prédéfinie, exprimée sous la forme d'un bloc CIDR. Les plages d'adresses IP commencent par 10.128.0.0/20, 10.132.0.0/20, dans les régions mondiales de Google Cloud.

Pour garantir que vos ressources informatiques se connectent les unes aux autres entre les régions, le réseau VPC par défaut définit les routes locales par défaut sur chaque sous-réseau. En configurant la route par défaut vers Internet (0.0.0.0/0), vous accédez à Internet et capturez le trafic réseau non acheminé.

Règles de pare-feu

Le réseau VPC par défaut fournit un ensemble de règles de pare-feu :

Par défaut Description
Autoriser par défaut icmp Activer le protocole icmp pour la source 0.0.0.0/0
Autoriser par défaut en interne Activer tcp:0-65535, udp:0-65535 et icmp pour la source 10.128.0.0/9, qui couvre une valeur minimale de 10.128.0.1 à 10.255.255.254 adresses IP
Autoriser par défaut rdp Activer tcp:3389 pour la source 0.0.0.0/0
Autoriser par défaut ssh Activer tcp:22 pour la source 0.0.0.0/0

Ces paramètres réseau VPC par défaut minimisent les conditions préalables à la configuration des services cloud, y compris Cloud Data Fusion. En raison de préoccupations concernant la sécurité du réseau, il arrive souvent que les organisations ne vous permettent pas d'utiliser le réseau VPC par défaut pour les opérations commerciales. Sans le réseau VPC par défaut, vous ne pouvez pas créer d'instance publique Cloud Data Fusion. À la place, vous devez créer une instance privée.

Le réseau VPC par défaut n'accorde pas l'accès ouvert aux ressources. En revanche, Identity and Access Management (IAM) contrôle l'accès:

  • Vous devez disposer d'une identité validée pour vous connecter à Google Cloud.
  • Une fois connecté, vous devez disposer d'une autorisation explicite (par exemple, le rôle Lecteur) pour afficher les services Google Cloud.

Instances privées

Certaines organisations exigent que tous leurs systèmes de production soient isolés des adresses IP publiques. Une instance privée Cloud Data Fusion répond à cette exigence dans tous les types de paramètres réseau VPC.

Instances privées à partir de la version 6.4

Dans les versions de Cloud Data Fusion antérieures à la version 6.4, les environnements de conception et d'exécution n'utilisent que des adresses IP internes. Ils n'utilisent pas d'adresses IP publiques associées à des instances Cloud Data Fusion Compute Engine. En tant qu'outil au moment de la conception, l'instance privée Cloud Data Fusion ne peut pas accéder aux sources de données sur l'Internet public.

Concevez plutôt le pipeline dans une instance publique. Ensuite, pour son exécution, déplacez-la vers une instance privée dans un projet client, où vous contrôlez les stratégies VPC du projet. Vous devez vous connecter aux données des deux projets.

Accès aux données dans des environnements de conception et d'exécution

Dans une instance publique, la communication réseau s'effectue sur l'Internet ouvert, ce qui n'est pas recommandé pour les environnements critiques. Pour accéder de manière sécurisée à vos sources de données, exécutez toujours vos pipelines à partir d'une instance privée de votre environnement d'exécution.

Dans Cloud Data Fusion version 6.4, lorsque vous concevez votre pipeline, vous ne pouvez pas accéder aux sources de données sur Internet depuis une instance privée. À la place, vous devez concevoir votre pipeline dans un projet locataire à l'aide d'une instance publique afin de vous connecter à des sources de données sur Internet. Une fois le pipeline créé, déplacez-le vers un projet client et exécutez-le dans une instance privée pour pouvoir contrôler les règles de VPC. Vous devez vous connecter aux données des deux projets.

Accès aux sources

Si votre environnement d'exécution s'exécute dans une version Cloud Data Fusion antérieure à la version 6.4, vous ne pouvez accéder qu'aux ressources de votre réseau VPC. Configurez Cloud VPN ou Cloud Interconnect pour accéder aux sources de données sur site. Les versions de Cloud Data Fusion antérieures à la version 6.4 ne peuvent accéder aux sources sur l'Internet public que si vous configurez une passerelle Cloud NAT.

Pour accéder aux sources de données et aux instances publiques et privées :

  • Effectuez des appels sortants vers les API Google Cloud à l'aide de l'accès privé à Google.
  • Communiquez avec un environnement d'exécution (Dataproc) via l'appairage de VPC.

Le tableau suivant compare les instances publiques et privées lors de la conception et de l'exécution de diverses sources de données :

Source de données Instance Cloud Data Fusion publique
(lors de la conception)
Cloud Data Fusion Dataproc public
(exécution)
Instance Cloud Data Fusion privée
(lors de la conception)
Cloud Data Fusion Dataproc privé
(exécution)
Source Google Cloud
(après avoir accordé des autorisations et défini des règles de pare-feu)
Source sur site
(après avoir configuré un VPN/l'interconnexion, accordé des autorisations et défini des règles de pare-feu)
Source Internet publique
(après avoir accordé des autorisations et défini les règles de pare-feu)
versions ≥ 6.4 versions < 6.4

Étapes suivantes