Présentation de la mise en réseau Cloud Data Fusion

Cette page fournit des informations générales sur la connexion à vos sources de données depuis des instances Cloud Data Fusion publiques ou privées à partir d'environnements de conception et d'exécution.

Avant de commencer

La mise en réseau dans Cloud Data Fusion nécessite une compréhension de base suivantes:

Projet locataire

Cloud Data Fusion crée un projet locataire qui contient les ressources et services nécessaires pour gérer les pipelines en votre nom, par exemple exécute des pipelines sur les clusters Dataproc qui se trouvent dans votre projet client.

Le projet locataire ne vous est pas directement exposé, mais lorsque vous créez une instance privée, vous utilisez le nom du projet pour configurer et l'appairage de réseaux VPC. Chaque instance privée du projet locataire possède sa propre un réseau et un sous-réseau VPC.

Le projet peut comporter plusieurs instances Cloud Data Fusion. Toi gérer les ressources et les services qu'il contient lorsque vous accédez à une instance dans l'UI Cloud Data Fusion ou la Google Cloud CLI.
Pour en savoir plus, consultez la documentation de Service Infrastructure sur projets locataires.

Projet client

Le client crée ce projet et en est le propriétaire. Par défaut, Cloud Data Fusion crée un cluster Dataproc éphémère de ce projet pour exécuter vos pipelines.

Instance Cloud Data Fusion

Une instance Cloud Data Fusion est un déploiement unique Cloud Data Fusion, qui vous permet de concevoir et d'exécuter des pipelines. Vous pouvez créer plusieurs instances dans un même projet et spécifier la région Google Cloud dans laquelle créer les instances Cloud Data Fusion. En fonction de vos exigences et de vos contraintes de coût, vous pouvez créer un qui utilise Développeur, Basic ou Enterprise de Cloud Data Fusion. Chaque instance contient une instance Cloud Data Fusion unique et indépendante Déploiement qui contient un ensemble de services qui gèrent le cycle de vie du pipeline la gestion, l'orchestration, la coordination et la gestion des métadonnées. Ces s'exécutent à l'aide de ressources de longue durée projet locataire.

Schéma réseau

Les schémas suivants montrent les connexions lors de la création de pipelines de données extraire, transformer, combiner, agréger et charger des données issues de diverses sources sources de données cloud.

Consultez les schémas pour Contrôle du trafic de sortie dans une instance privée et vous connecter à une source publique.

Conception et exécution du pipeline

Cloud Data Fusion fournit une séparation des environnements de conception et d'exécution, ce qui vous permet de concevoir un pipeline une fois, puis de l'exécuter dans plusieurs environnements. L'environnement de conception réside dans le projet locataire, tandis que l'environnement d'exécution se trouve dans un ou plusieurs projets clients.

Exemple : vous concevez votre pipeline à l'aide de services Cloud Data Fusion, tels que Wrangler et Aperçu. Ces services sont exécutés dans le projet locataire, où l'accès aux données est contrôlé par le rôle Agent de service Cloud Data Fusion géré par Google. Vous exécutez ensuite le pipeline dans votre projet client afin qu'il utilise votre cluster Dataproc. Dans le projet client, le compte de service Compute Engine par défaut contrôle l'accès aux données. Vous pouvez configurer votre pour utiliser un compte de service personnalisé.

Pour en savoir plus sur la configuration des comptes de service, consultez la page Comptes de service Cloud Data Fusion.

Environnement de conception

Lorsque vous créez une instance Cloud Data Fusion dans votre projet client, Cloud Data Fusion crée automatiquement un locataire distinct géré par Google pour exécuter les services requis pour gérer le cycle de vie des pipelines l'UI Cloud Data Fusion, et des outils de conception tels que Preview et Wrangler

Résolution DNS dans Cloud Data Fusion

Pour résoudre les noms de domaine dans votre environnement de conception lorsque vous vous débattez et prévisualiser les données que vous transférez vers Google Cloud, utiliser l'appairage DNS (disponible à partir de Cloud Data Fusion 6.7.0). Il vous permet d'utiliser des noms de domaine ou d'hôte pour les sources et les puits, que vous n'avez pas besoin de reconfigurer aussi souvent que les adresses IP.

La résolution DNS est recommandée dans votre environnement au moment de la conception Cloud Data Fusion, lorsque vous testez des connexions et prévisualisez des pipelines qui utilisent les noms de domaine d'un serveur sur site ou d'un autre serveur (bases de données ou serveurs FTP, par exemple) ; dans un réseau VPC privé.

Pour en savoir plus, consultez Appairage DNS et Transfert Cloud DNS :

Environnement d'exécution

Après avoir vérifié et déployé votre pipeline dans une instance, vous pouvez l'exécuter manuellement ou en fonction d'un calendrier ou d'un déclencheur d'état.

Indique si l'environnement d'exécution est provisionné et géré par Cloud Data Fusion ou le client : l'environnement existe au sein de votre client. projet.

Instances publiques (par défaut)

Le moyen le plus simple de provisionner une instance Cloud Data Fusion consiste à créer une instance publique. Il sert de point de départ et permet d'accéder à des points de terminaison externes sur l'Internet public.

Une instance publique dans Cloud Data Fusion utilise le réseau VPC par défaut de votre projet.

Le réseau VPC par défaut présente les caractéristiques suivantes :

  • Sous-réseaux générés automatiquement pour chaque région
  • Tables de routage
  • Règles de pare-feu pour assurer la communication entre vos ressources informatiques

Mise en réseau entre les régions

Lorsque vous créez un projet, le réseau VPC par défaut présente l'avantage d'insérer automatiquement un sous-réseau par région à l'aide d'une plage d'adresses IP prédéfinie, exprimée sous la forme d'un bloc CIDR. Les plages d'adresses IP commencent par 10.128.0.0/20, 10.132.0.0/20, dans les régions mondiales de Google Cloud.

Pour garantir que vos ressources informatiques se connectent les unes aux autres entre les régions, le réseau VPC par défaut définit les routes locales par défaut sur chaque sous-réseau. En configurant la route par défaut vers Internet (0.0.0.0/0), vous accédez à Internet et capturez le trafic réseau non acheminé.

Règles de pare-feu

Le réseau VPC par défaut fournit un ensemble de règles de pare-feu :

Par défaut Description
Autoriser par défaut icmp Activer le protocole icmp pour la source 0.0.0.0/0
Autoriser par défaut en interne Activer tcp:0-65535 ; udp:0-65535; icmp pour la source 10.128.0.0/9, qui couvre la plage d'adresses IP 10.128.0.1 minimale à 10.255.255.254 adresses IP
Autoriser par défaut rdp Activer tcp:3389 pour la source 0.0.0.0/0
Autoriser par défaut ssh Activer tcp:22 pour la source 0.0.0.0/0

Ces paramètres réseau VPC par défaut minimisent les conditions préalables à la configuration des services cloud, y compris Cloud Data Fusion. En raison de préoccupations concernant la sécurité du réseau, les organisations ne vous laissent pas souvent utiliser réseau VPC pour les opérations commerciales. Sans la valeur par défaut vous ne pouvez pas créer de réseau VPC public Compute Engine. À la place, Créez une instance privée.

Le réseau VPC par défaut n'accorde pas l'accès ouvert aux ressources. À la place, la gestion de l'authentification et des accès (IAM) contrôle l'accès :

  • Vous devez disposer d'une identité validée pour vous connecter à Google Cloud.
  • Une fois connecté, vous avez besoin d'une autorisation explicite (par exemple, le rôle Lecteur) pour afficher les services Google Cloud.

Instances privées

Certaines organisations exigent que tous leurs systèmes de production soient isolés des adresses IP publiques. Une instance privée Cloud Data Fusion répond à cette exigence dans tous les types de paramètres réseau VPC.

Private Service Connect dans Cloud Data Fusion

Les instances Cloud Data Fusion peuvent devoir se connecter à des ressources situées sur site, dans Google Cloud ou chez d'autres fournisseurs de services cloud. Lorsque vous utilisez Cloud Data Fusion avec adresses IP internes, connexions aux serveurs externes les ressources sont établies sur le réseau VPC projet Google Cloud. Le trafic sur le réseau ne passe pas par l'Internet public. Lorsque Cloud Data Fusion dispose d'un accès à votre à l'aide de l'appairage de réseaux VPC, il existe des limites, qui deviennent apparents lorsque vous utilisez des réseaux à grande échelle.

Grâce aux interfaces Private Service Connect, Cloud Data Fusion se connecte à votre VPC sans utiliser l'appairage de réseaux VPC. L'interface Private Service Connect est un type de Private Service Connect qui permet à Cloud Data Fusion d'établir des connexions privées et sécurisées avec les réseaux VPC des consommateurs. Cela offre non seulement la flexibilité et d'accès (comme l'appairage de réseaux VPC), mais offre également d'autorisation et de contrôle côté consommateur Private Service Connect. Pour en savoir plus, consultez la section Créer une instance privée avec Private Service Connect

Accès aux données dans des environnements de conception et d'exécution

Dans une instance publique, la communication réseau s'effectue sur l'Internet ouvert, ce qui n'est pas recommandé pour les environnements critiques. Pour accéder de manière sécurisée à vos sources de données, exécutez toujours vos pipelines à partir d'une instance privée de votre environnement d'exécution.

Accès aux sources

Pour accéder aux sources de données et aux instances publiques et privées :

  • Effectuez des appels sortants vers les API Google Cloud à l'aide de l'accès privé à Google.
  • Communiquez avec un environnement d'exécution (Dataproc) via l'appairage de VPC.

Le tableau suivant compare les instances publiques et privées lors de la conception et de l'exécution de diverses sources de données :

Source de données Instance Cloud Data Fusion publique
(lors de la conception)
Cloud Data Fusion Dataproc public
(exécution)
Instance Cloud Data Fusion privée
(lors de la conception)
Cloud Data Fusion Dataproc privé
(exécution)
Source Google Cloud
(après avoir accordé des autorisations et défini des règles de pare-feu)
Source sur site
(après avoir configuré un VPN/l'interconnexion, accordé des autorisations et défini des règles de pare-feu)
Source Internet publique
(après avoir accordé des autorisations et défini les règles de pare-feu)

Étape suivante