Mise en réseau

Cette page fournit des informations générales sur la connexion à vos sources de données depuis des instances Cloud Data Fusion publiques ou privées à partir d'environnements de conception et d'exécution.

Avant de commencer

Dans cette page, nous partons du principe que vous connaissez bien les termes suivants :

Projet locataire

Cloud Data Fusion crée un projet locataire destiné à contenir les ressources et les services dont il a besoin pour gérer des pipelines en votre nom. Par exemple, pour exécuter des pipelines sur des clusters Dataproc résidant dans votre projet client. Un projet locataire n'est pas exposé aux clients. Cependant, lorsque vous créerez une instance privée, vous devrez peut-être utiliser le nom du projet locataire pour configurer l'appairage de VPC.

Un projet locataire peut avoir plusieurs instances Cloud Data Fusion. Vous accédez aux ressources et aux services qu'un projet locataire gère via une instance Cloud Data Fusion à partir de l'interface utilisateur Web de Cloud Data Fusion ou de la CLI Google Cloud.

Pour en savoir plus, consultez la documentation Service Infrastructure concernant les projets locataires.

Projet client

Le client crée ce projet et en est le propriétaire. Par défaut, Cloud Data Fusion crée un cluster Dataproc éphémère dans ce projet pour exécuter les pipelines du client.

Instance Cloud Data Fusion

Une instance Cloud Data Fusion est un déploiement unique de Cloud Data Fusion. Pour commencer à utiliser Cloud Data Fusion, vous devez créer une instance Cloud Data Fusion à l'aide de Google Cloud Console.

Vous pouvez créer plusieurs instances dans un même projet Google Cloud et spécifier la région Google Cloud dans laquelle créer vos instances Cloud Data Fusion.

En fonction des exigences et des contraintes de coûts, vous pouvez créer une instance Developer, Basic ou Enterprise.

Chaque instance Cloud Data Fusion contient un déploiement Cloud Data Fusion unique et indépendant contenant un ensemble de services qui gèrent le cycle de vie, l'orchestration, la coordination et la gestion des métadonnées du pipeline. Ces services s'exécutent à l'aide de ressources de longue durée dans un projet locataire.

Schéma du réseau

Vous pouvez créer des pipelines de données qui extraient, transforment, fusionnent, agrègent et chargent des données à partir de diverses sources de données sur site et dans le cloud.

Pour Cloud Data Fusion versions 6.4 et ultérieures, consultez les schémas de contrôle de la sortie dans une instance privée et de la connexion à une source publique.

Pour les versions Cloud Data Fusion antérieures à la version 6.4, le schéma d'architecture système suivant montre comment Cloud Data Fusion se connecte aux sources de données de services tels que Preview ou Wrangler dans un projet locataire et Dataproc dans un projet client.

Schéma du réseau Cloud Data Fusion

Avantages de l'utilisation d'un projet locataire

L'utilisation d'un projet locataire dans Cloud Data Fusion présente les avantages suivants :

  • Les utilisateurs et les développeurs ne peuvent utiliser que des services gérés dans un projet locataire fourni par l'interface utilisateur Web de Cloud Data Fusion ou la CLI gcloud.
  • Les utilisateurs ne peuvent pas afficher ni gérer les ressources d'un projet locataire. Ils ne sont donc pas facturés, ni ne sont susceptibles d'apporter des modifications inattendues aux services, ce qui pourrait entraîner des pannes de système.
  • Chaque service géré du projet locataire dispose de son propre réseau et sous-réseau VPC.

Environnements de conception et d'exécution

Cloud Data Fusion fournit une séparation des environnements de conception et d'exécution, ce qui vous permet de concevoir un pipeline une fois, puis de l'exécuter dans plusieurs environnements. L'environnement de conception réside dans le projet locataire, tandis que l'environnement d'exécution se trouve dans un ou plusieurs projets clients.

Exemple: vous concevez votre pipeline à l'aide de services Cloud Data Fusion, tels que Wrangler et Aperçu. Ces services sont exécutés dans le projet locataire, où l'accès aux données est contrôlé par le rôle Agent de service Cloud Data Fusion géré par Google. Vous exécutez ensuite le pipeline dans votre projet client afin qu'il utilise votre cluster Dataproc. Dans le projet client, l'accès aux données est contrôlé par le compte de service Compute Engine par défaut. Vous pouvez configurer votre projet pour utiliser un compte de service personnalisé.

Pour en savoir plus sur la configuration des comptes de service, consultez la page Comptes de service Cloud Data Fusion.

Environnement de conception

Lorsque vous créez une instance Cloud Data Fusion dans votre projet client, Cloud Data Fusion crée automatiquement un projet locataire distinct géré par Google pour chaque projet client. Dans le projet locataire, il exécute les services requis pour gérer le cycle de vie des pipelines et des métadonnées, l'interface utilisateur Cloud Data Fusion, ainsi que des outils de conception tels que Aperçu et Wrangler.

Environnement d'exécution

Après avoir vérifié et déployé votre pipeline dans une instance, vous pouvez l'exécuter manuellement ou en fonction d'un calendrier ou d'un déclencheur d'état.

Que l'environnement d'exécution soit provisionné et géré par Cloud Data Fusion ou par le client, l'environnement existe dans votre projet client.

Instances Cloud Data Fusion

Il existe deux types d'instances Cloud Data Fusion basées sur un modèle d'accès : une instance publique (par défaut) et une instance privée.

Instances publiques (par défaut)

Le moyen le plus simple de provisionner une instance Cloud Data Fusion consiste à créer une instance publique. Il sert de point de départ et permet d'accéder à des points de terminaison externes sur l'Internet public.

Une instance publique dans Cloud Data Fusion utilise le réseau VPC par défaut de votre projet.

Le réseau VPC par défaut présente les caractéristiques suivantes :

  • Sous-réseaux générés automatiquement pour chaque région
  • Tables de routage
  • Règles de pare-feu pour assurer la communication entre vos ressources informatiques

Mise en réseau entre les régions

Lorsque vous créez un projet, le réseau VPC par défaut présente l'avantage d'insérer automatiquement un sous-réseau par région à l'aide d'une plage d'adresses IP prédéfinie, exprimée sous la forme d'un bloc CIDR. Les plages d'adresses IP commencent par 10.128.0.0/20, 10.132.0.0/20, dans les régions mondiales de Google Cloud.

Pour garantir que vos ressources informatiques se connectent les unes aux autres entre les régions, le réseau VPC par défaut définit les routes locales par défaut sur chaque sous-réseau. En configurant la route par défaut vers Internet (0.0.0.0/0), vous accédez à Internet et capturez le trafic réseau non acheminé.

Règles de pare-feu

Le réseau VPC par défaut fournit un ensemble de règles de pare-feu :

Par défaut Description
Autoriser par défaut icmp Activer le protocole icmp pour la source 0.0.0.0/0
Autoriser par défaut en interne Activer tcp:0-65535 ; udp:0-65535 ; icmp pour la source 10.128.0.0/9, qui couvre les adresses IP 10.128.0.1 min à 10.255.255.254 max
Autoriser par défaut rdp Activer tcp:3389 pour la source 0.0.0.0/0
Autoriser par défaut ssh Activer tcp:22 pour la source 0.0.0.0/0

Ces paramètres réseau VPC par défaut minimisent les conditions préalables à la configuration des services cloud, y compris Cloud Data Fusion. Pour des raisons de sécurité du réseau, les entreprises ne sont généralement pas autorisées à utiliser le réseau VPC par défaut pour des opérations commerciales. Sans le réseau VPC par défaut, vous ne pouvez pas créer d'instance publique Cloud Data Fusion. Suivez plutôt les étapes permettant de créer une instance privée Cloud Data Fusion.

Le réseau VPC par défaut n'accorde pas l'accès ouvert aux ressources. À la place, le service Identity and Access Management (IAM) contrôle qui peut accéder aux ressources:

  • Vous devez disposer d'une identité validée pour vous connecter à Google Cloud.
  • Une fois connecté, vous avez besoin d'une autorisation explicite (par exemple, le rôle Lecteur) pour afficher les services Google Cloud.

Instances privées

Certaines organisations exigent que tous leurs systèmes de production soient isolés des adresses IP publiques. Une instance privée Cloud Data Fusion répond à cette exigence dans tous les types de paramètres réseau VPC.

Dans les versions antérieures à la version 6.4 de Cloud Data Fusion, les environnements de conception et d'exécution utilisent des adresses IP privées. Elles n'utilisent pas d'adresses IP publiques Internet associées à des instances Compute Engine Cloud Data Fusion. Par conséquent, en tant qu'outil lors de la conception, l'instance d'adresse IP privée de Cloud Data Fusion ne peut pas accéder aux sources de données sur l'Internet public.

Pour vous connecter à des sources de données sur l'Internet public depuis une instance privée, vous devez concevoir votre pipeline dans une instance publique, puis, pour l'exécution, le déplacer vers une instance privée d'un projet client, dans lequel vous contrôlez les règles VPC du projet. Vous devez vous connecter aux données des deux projets que vous utilisez pendant la conception et l'exécution.

Accès aux données dans des environnements de conception et d'exécution

Dans une instance publique, la communication réseau s'effectue sur l'Internet ouvert, ce qui n'est pas recommandé pour les environnements critiques. Pour accéder de manière sécurisée à vos sources de données, exécutez toujours vos pipelines à partir d'une instance privée de votre environnement d'exécution.

Dans Cloud Data Fusion version 6.4, lorsque vous concevez votre pipeline, vous ne pouvez pas accéder aux sources de données sur Internet depuis une instance privée. À la place, vous devez concevoir votre pipeline dans un projet locataire à l'aide d'une instance publique afin de vous connecter à des sources de données sur Internet. Une fois le pipeline créé, déplacez-le vers un projet client et exécutez-le dans une instance privée pour pouvoir contrôler les règles de VPC. Vous devez vous connecter aux données des deux projets.

Pour en savoir plus sur les types de projets et d'instances nécessaires pour accéder à diverses sources de données, consultez la section Accès aux sources.

Accès aux sources

Si votre environnement d'exécution s'exécute dans une version Cloud Data Fusion antérieure à la version 6.4, vous ne pouvez accéder qu'aux ressources de votre réseau VPC. La configuration de Cloud VPN ou Cloud Interconnect vous permet d'accéder à des sources de données sur site. Les versions de Cloud Data Fusion antérieures à 6.4 ne peuvent accéder aux sources sur l'Internet public que si vous configurez une passerelle Cloud NAT.

Pour accéder aux sources de données et aux instances publiques et privées :

  • Effectuez des appels sortants vers les API Google Cloud à l'aide de l'accès privé à Google.
  • Communiquez avec un environnement d'exécution (Dataproc) via l'appairage de VPC.

Le tableau suivant compare les instances publiques et privées lors de la conception et de l'exécution de diverses sources de données :

Source de données Instance Cloud Data Fusion publique
(lors de la conception)
Cloud Data Fusion Dataproc public
(exécution)
Instance Cloud Data Fusion privée
(lors de la conception)
Cloud Data Fusion Dataproc privé
(exécution)
Source Google Cloud
(après avoir accordé des autorisations et défini des règles de pare-feu)
Source sur site
(après avoir configuré un VPN/l'interconnexion, accordé des autorisations et défini des règles de pare-feu)
Source Internet publique
(après avoir accordé des autorisations et défini les règles de pare-feu)
versions ≥ 6.4 versions < 6.4

Étapes suivantes