Présentation de la mise en réseau dans Cloud Data Fusion

Cette page fournit des informations générales sur la connexion à vos sources de données depuis des instances Cloud Data Fusion publiques ou privées à partir d'environnements de conception et d'exécution.

Avant de commencer

La mise en réseau dans Cloud Data Fusion nécessite une compréhension de base des éléments suivants:

Projet locataire

Cloud Data Fusion crée un projet locataire qui contient les ressources et les services nécessaires pour gérer des pipelines en votre nom, par exemple lorsqu'il exécute des pipelines sur les clusters Dataproc qui se trouvent dans votre projet client.

Le projet locataire ne vous est pas directement exposé. Cependant, lorsque vous créez une instance privée, vous utilisez le nom du projet pour configurer l'appairage de VPC. Chaque instance privée du projet locataire dispose de son propre réseau et sous-réseau VPC.

Le projet peut comporter plusieurs instances Cloud Data Fusion. Vous gérez les ressources et les services qu'elle contient lorsque vous accédez à une instance dans l'interface utilisateur de Cloud Data Fusion ou dans la Google Cloud CLI.
Pour en savoir plus, consultez la documentation Service Infrastructure concernant les projets locataires.

Projet client

Le client crée ce projet et en est le propriétaire. Par défaut, Cloud Data Fusion crée un cluster Dataproc éphémère dans ce projet pour exécuter vos pipelines.

Instance Cloud Data Fusion

Une instance Cloud Data Fusion est un déploiement unique de Cloud Data Fusion, dans lequel vous concevez et exécutez des pipelines. Vous pouvez créer plusieurs instances dans un même projet et spécifier la région Google Cloud dans laquelle créer les instances Cloud Data Fusion. En fonction de vos exigences et des contraintes de coûts, vous pouvez créer une instance qui utilise l'édition Developer, Basic ou Enterprise de Cloud Data Fusion. Chaque instance contient un déploiement Cloud Data Fusion unique et indépendant contenant un ensemble de services qui gèrent le cycle de vie, l'orchestration, la coordination et la gestion des métadonnées du pipeline. Ces services s'exécutent à l'aide de ressources de longue durée dans un projet locataire.

Schéma réseau

Les diagrammes suivants montrent les connexions lorsque vous créez des pipelines de données qui extraient, transforment, fusionnent, agrègent et chargent des données à partir de diverses sources de données sur site et dans le cloud.

Consultez les schémas de contrôle de la sortie dans une instance privée et de la connexion à une source publique.

Conception et exécution de pipeline

Cloud Data Fusion fournit une séparation des environnements de conception et d'exécution, ce qui vous permet de concevoir un pipeline une fois, puis de l'exécuter dans plusieurs environnements. L'environnement de conception réside dans le projet locataire, tandis que l'environnement d'exécution se trouve dans un ou plusieurs projets clients.

Exemple: vous concevez votre pipeline à l'aide de services Cloud Data Fusion, tels que Wrangler et Aperçu. Ces services sont exécutés dans le projet locataire, où l'accès aux données est contrôlé par le rôle Agent de service Cloud Data Fusion géré par Google. Vous exécutez ensuite le pipeline dans votre projet client afin qu'il utilise votre cluster Dataproc. Dans le projet client, le compte de service Compute Engine par défaut contrôle l'accès aux données. Vous pouvez configurer votre projet pour utiliser un compte de service personnalisé.

Pour en savoir plus sur la configuration des comptes de service, consultez la page Comptes de service Cloud Data Fusion.

Environnement de conception

Lorsque vous créez une instance Cloud Data Fusion dans votre projet client, Cloud Data Fusion crée automatiquement un projet locataire distinct géré par Google pour exécuter les services requis pour gérer le cycle de vie des pipelines et des métadonnées, l'interface utilisateur Cloud Data Fusion, ainsi que des outils de conception tels que Preview et Wrangler.

Résolution DNS dans Cloud Data Fusion

Pour résoudre les noms de domaine dans votre environnement de conception lorsque vous triez et prévisualisez les données que vous transférez dans Google Cloud, utilisez l'appairage DNS (disponible à partir de Cloud Data Fusion 6.7.0). Il vous permet d'utiliser des noms de domaine ou d'hôte pour les sources et les puits, que vous n'avez pas besoin de reconfigurer aussi souvent que les adresses IP.

La résolution DNS est recommandée dans votre environnement de conception dans Cloud Data Fusion lorsque vous testez des connexions et prévisualisez des pipelines qui utilisent des noms de domaine de serveurs sur site ou d'autres serveurs (tels que des bases de données ou des serveurs FTP) dans un réseau VPC privé.

Pour en savoir plus, consultez les pages Partage de fichiers DNS et Transfert DNS Cloud.

Environnement d'exécution

Après avoir vérifié et déployé votre pipeline dans une instance, vous pouvez l'exécuter manuellement ou en fonction d'un calendrier ou d'un déclencheur d'état.

Que l'environnement d'exécution soit provisionné et géré par Cloud Data Fusion ou par le client, l'environnement existe dans votre projet client.

Instances publiques (par défaut)

Le moyen le plus simple de provisionner une instance Cloud Data Fusion consiste à créer une instance publique. Il sert de point de départ et permet d'accéder à des points de terminaison externes sur l'Internet public.

Une instance publique dans Cloud Data Fusion utilise le réseau VPC par défaut de votre projet.

Le réseau VPC par défaut présente les caractéristiques suivantes:

  • Sous-réseaux générés automatiquement pour chaque région
  • Tables de routage
  • Règles de pare-feu pour assurer la communication entre vos ressources informatiques

Mise en réseau entre les régions

Lorsque vous créez un projet, le réseau VPC par défaut présente l'avantage d'insérer automatiquement un sous-réseau par région à l'aide d'une plage d'adresses IP prédéfinie, exprimée sous la forme d'un bloc CIDR. Les plages d'adresses IP commencent par 10.128.0.0/20, 10.132.0.0/20, dans les régions mondiales. Google Cloud

Pour garantir que vos ressources informatiques se connectent les unes aux autres entre les régions, le réseau VPC par défaut définit les routes locales par défaut sur chaque sous-réseau. En configurant la route par défaut vers Internet (0.0.0.0/0), vous accédez à Internet et capturez le trafic réseau non acheminé.

Règles de pare-feu

Le réseau VPC par défaut fournit un ensemble de règles de pare-feu :

Par défaut Description
Autoriser par défaut icmp Activer le protocole icmp pour la source 0.0.0.0/0
Autoriser par défaut en interne Activer tcp:0-65535 ; udp:0-65535 ; icmp pour la source 10.128.0.0/9, qui couvre les adresses IP 10.128.0.1 min à 10.255.255.254 max
Autoriser par défaut rdp Activer tcp:3389 pour la source 0.0.0.0/0
Autoriser par défaut ssh Activer tcp:22 pour la source 0.0.0.0/0

Ces paramètres réseau VPC par défaut minimisent les conditions préalables à la configuration des services cloud, y compris Cloud Data Fusion. Pour des raisons de sécurité du réseau, les entreprises ne sont généralement pas autorisées à utiliser le réseau VPC par défaut pour des opérations commerciales. Sans le réseau VPC par défaut, vous ne pouvez pas créer d'instance publique Cloud Data Fusion. Créez plutôt une instance privée.

Le réseau VPC par défaut n'accorde pas l'accès ouvert aux ressources. À la place, la gestion de l'authentification et des accès (IAM) contrôle l'accès:

  • Vous devez disposer d'une identité validée pour vous connecter à Google Cloud.
  • Une fois connecté, vous avez besoin d'une autorisation explicite (par exemple, le rôle Lecteur) pour afficher les services Google Cloud .

Instances privées

Certaines organisations exigent que tous leurs systèmes de production soient isolés des adresses IP publiques. Une instance privée Cloud Data Fusion répond à cette exigence dans tous les types de paramètres réseau VPC.

Private Service Connect dans Cloud Data Fusion

Les instances Cloud Data Fusion peuvent devoir se connecter à des ressources situées sur site, sur Google Cloudou auprès d'autres fournisseurs cloud. Lorsque vous utilisez Cloud Data Fusion avec des adresses IP internes, les connexions aux ressources externes sont établies sur le réseau VPC de votre projetGoogle Cloud . Le trafic sur le réseau ne passe pas par l'Internet public. Lorsque Cloud Data Fusion est autorisé à accéder à votre VPC à l'aide de l'appairage de réseaux VPC, des limites s'appliquent, qui deviennent apparentes lorsque vous utilisez des réseaux à grande échelle.

Avec les interfaces Private Service Connect, Cloud Data Fusion se connecte à votre VPC sans utiliser l'appairage de réseaux VPC. L'interface Private Service Connect est un type de Private Service Connect qui permet à Cloud Data Fusion d'établir des connexions privées et sécurisées avec les réseaux VPC des clients. Cela offre non seulement la flexibilité et la facilité d'accès (comme l'appairage de réseaux VPC), mais aussi l'autorisation explicite et le contrôle côté client que Private Service Connect propose. Pour en savoir plus, consultez Créer une instance privée avec Private Service Connect.

Accès aux données dans des environnements de conception et d'exécution

Dans une instance publique, la communication réseau s'effectue sur l'Internet ouvert, ce qui n'est pas recommandé pour les environnements critiques. Pour accéder de manière sécurisée à vos sources de données, exécutez toujours vos pipelines à partir d'une instance privée de votre environnement d'exécution.

Accès aux sources

Pour accéder aux sources de données et aux instances publiques et privées :

  • Effectuer des appels sortants vers les API Google Cloud à l'aide de l'accès privé à Google
  • Communiquez avec un environnement d'exécution (Dataproc) via l'appairage de VPC.

Le tableau suivant compare les instances publiques et privées lors de la conception et de l'exécution de diverses sources de données :

Source de données Instance Cloud Data Fusion publique
(lors de la conception)
Cloud Data Fusion Dataproc public
(exécution)
Instance Cloud Data Fusion privée
(lors de la conception)
Cloud Data Fusion Dataproc privé
(exécution)
Google Cloud source
(après avoir accordé des autorisations et défini des règles de pare-feu)
Source sur site
(après avoir configuré un VPN/l'interconnexion, accordé des autorisations et défini des règles de pare-feu)
Source Internet publique
(après avoir accordé des autorisations et défini les règles de pare-feu)

Étape suivante