Mise en réseau

Cette page fournit des informations générales sur la connexion à vos sources de données à partir d'instances Cloud Data Fusion publiques ou privées à partir d'environnements de conception et d'exécution.

Avant de commencer

Dans cette page, nous partons du principe que vous connaissez les termes suivants:

Projet locataire

Cloud Data Fusion crée un projet locataire destiné à contenir les ressources et les services dont il a besoin pour gérer des pipelines en votre nom. Par exemple, pour exécuter des pipelines sur des clusters Dataproc résidant dans votre projet client. Un projet locataire n'est pas exposé aux clients. Cependant, lorsque vous créerez une instance privée, vous devrez peut-être utiliser le nom du projet locataire pour configurer l'appairage de VPC.

Un projet locataire peut comporter plusieurs instances Cloud Data Fusion. Vous accédez aux ressources et aux services dont un projet locataire dispose d'une instance Cloud Data Fusion à partir de l'interface utilisateur Web de Cloud Data Fusion ou de l'outil de ligne de commande gcloud.

Pour en savoir plus, consultez la documentation Service Infrastructure concernant les projets locataires.

Projet client

Le client crée ce projet et en est le propriétaire. Par défaut, Cloud Data Fusion crée un cluster Dataproc éphémère dans ce projet pour exécuter les pipelines du client.

Instance Cloud Data Fusion

Une instance Cloud Data Fusion est un déploiement unique de Cloud Data Fusion. Pour commencer à utiliser Cloud Data Fusion, vous devez créer une instance Cloud Data Fusion à l'aide de Google Cloud Console.

Vous pouvez créer plusieurs instances dans un même projet Google Cloud et spécifier la région Google Cloud dans laquelle vous souhaitez créer vos instances Cloud Data Fusion.

En fonction de vos exigences et de vos contraintes budgétaires, vous pouvez créer une instance de développeur, standard ou Enterprise.

Chaque instance Cloud Data Fusion contient un déploiement unique et indépendant de Cloud Data Fusion contenant un ensemble de services qui gèrent la gestion du cycle de vie des pipelines, l'orchestration, la coordination et la gestion des métadonnées. Ces services s'exécutent à l'aide de ressources de longue durée dans un projet locataire.

Schéma du réseau

Vous pouvez créer des pipelines de données permettant d'extraire, de transformer, de fusionner, d'agréger et de charger des données à partir de diverses sources de données sur site et dans le cloud.

Pour les versions 6.4 et ultérieures de Cloud Data Fusion, consultez les schémas du contrôle de la sortie dans une instance privée et de la connexion à une source publique.

Pour les versions de Cloud Data Fusion inférieures à 6.4, le schéma d'architecture système suivant montre comment Cloud Data Fusion se connecte à des sources de données telles que Preview ou Wrangler dans un projet locataire et Dataproc dans un projet client.

Schéma réseau Cloud Data Fusion

Avantages de l'utilisation d'un projet locataire

L'utilisation d'un projet locataire dans Cloud Data Fusion offre les avantages suivants:

  • Les utilisateurs et les développeurs ne peuvent utiliser que les services gérés dans un projet locataire fourni par l'interface utilisateur Web de Cloud Data Fusion ou l'outil gcloud.
  • Les utilisateurs ne peuvent pas afficher ni gérer les ressources d'un projet locataire. Par conséquent, ils ne sont pas facturés, et aucune modification inattendue des services n'est facturée, ce qui peut entraîner des interruptions du système.
  • Chaque service géré du projet locataire dispose de son propre réseau VPC et d'un sous-réseau.

Environnements de conception et d'exécution

Cloud Data Fusion assure la séparation des environnements de conception et d'exécution, ce qui vous permet de concevoir un pipeline une fois, puis de l'exécuter dans plusieurs environnements. L'environnement de conception réside dans le projet locataire, tandis que l'environnement d'exécution se trouve dans un ou plusieurs projets clients.

Exemple: Vous concevez votre pipeline à l'aide de services Cloud Data Fusion tels que Wrangler et Aperçu. Ces services s'exécutent dans le projet locataire, où l'accès aux données est contrôlé par le rôle Agent de service Cloud Data Fusion géré par Google. Vous exécutez ensuite le pipeline dans votre projet client afin qu'il utilise votre cluster Dataproc. Dans le projet client, l'accès aux données est contrôlé par le compte de service Compute Engine par défaut. Vous pouvez configurer votre projet pour utiliser un compte de service personnalisé.

Pour en savoir plus sur la configuration des comptes de service, consultez la page Comptes de service Cloud Data Fusion.

Concevoir un environnement

Lorsque vous créez une instance Cloud Data Fusion dans votre projet client, Cloud Data Fusion crée automatiquement un projet locataire distinct géré par Google pour chaque projet client. Dans le projet locataire, il exécute les services nécessaires pour gérer le cycle de vie des pipelines et des métadonnées, l'interface utilisateur de Cloud Data Fusion et les outils de temps de conception tels que Preview et Wrangler.

Environnement d'exécution

Une fois que vous avez vérifié et déployé votre pipeline dans une instance, vous pouvez l'exécuter manuellement, ou bien l'exécuter selon un calendrier ou un déclencheur.

Que l'environnement d'exécution soit provisionné et géré par Cloud Data Fusion ou le client, l'environnement existe dans votre projet client.

Instances Cloud Data Fusion

Il existe deux types d'instances Cloud Data Fusion basées sur un modèle d'accès: une instance publique (par défaut) et une instance privée.

Instances publiques (par défaut)

Le moyen le plus simple de provisionner une instance Cloud Data Fusion consiste à créer une instance publique. Il sert de point de départ et permet d'accéder à des points de terminaison externes sur l'Internet public.

Une instance publique dans Cloud Data Fusion utilise le réseau VPC par défaut de votre projet.

Le réseau VPC par défaut présente les caractéristiques suivantes:

  • Sous-réseaux générés automatiquement pour chaque région
  • Acheminer des tables
  • Règles de pare-feu pour assurer la communication entre vos ressources informatiques

Mise en réseau entre régions

Lorsque vous créez un projet, l'avantage du réseau VPC par défaut est qu'il remplit automatiquement un sous-réseau par région à l'aide d'une plage d'adresses IP prédéfinie, exprimée en tant que bloc CIDR. Les plages d'adresses IP commencent par 10.128.0.0/20, 10.132.0.0/20, au sein des régions mondiales de Google Cloud.

Pour vous assurer que vos ressources informatiques se connectent les unes aux autres, le réseau VPC par défaut définit les routes locales par défaut vers chaque sous-réseau. En configurant la route par défaut à Internet (0.0.0.0/0), vous obtenez l'accès à Internet et capturez tout trafic réseau non routé.

Règles de pare-feu

Le réseau VPC par défaut fournit un ensemble de règles de pare-feu:

Par défaut Description
Autoriser par défaut icmp Activer le protocole icmp pour la source 0.0.0.0/0
Autorisation par défaut interne Activertcp:0-65535 ;udp:0-65535 ;icmp pour la source10.128.0.0/9, qui couvre10.128.0.1 à maximum10.255.255.254 adresses IP)
Autoriser par défaut rdp Activer tcp:3389 pour la source 0.0.0.0/0
Autoriser par défaut ssh Activer tcp:22 pour la source 0.0.0.0/0

Ces paramètres réseau par défaut minimisent les conditions préalables à la configuration des services cloud, y compris Cloud Data Fusion. En raison de problèmes de sécurité réseau, les organisations ne vous permettent généralement pas d'utiliser le réseau VPC par défaut pour les opérations commerciales. Sans le réseau VPC par défaut, vous ne pouvez pas créer d'instance publique Cloud Data Fusion. Suivez plutôt les étapes permettant de créer une instance privée Cloud Data Fusion.

Le réseau VPC par défaut n'accorde pas d'accès ouvert aux ressources. Au lieu de cela, le service de gestion de l'authentification et des accès (IAM) contrôle l'accès aux ressources:

  • Une identité validée est requise pour se connecter à Google Cloud.
  • Une fois connecté, vous avez besoin d'une autorisation explicite (par exemple, le rôle Lecteur) pour afficher les services Google Cloud.

Instances privées

Certaines organisations exigent que tous leurs systèmes de production soient isolés de leurs adresses IP publiques. Une instance privée Cloud Data Fusion répond à cette exigence pour tous les paramètres de réseau VPC.

Dans les versions Cloud Data Fusion inférieures à 6.4, les environnements de conception et d'exécution utilisent des adresses IP privées. Elles n'utilisent pas d'adresses IP Internet publiques associées à Cloud Data Fusion Compute Engine. Par conséquent, en tant qu'outil de conception, l'instance IP privée Cloud Data Fusion ne peut pas accéder aux sources de données sur Internet.

Pour vous connecter à des sources de données sur l'Internet public à partir d'une instance privée, concevez votre pipeline dans une instance publique, puis exécutez-le dans une instance privée d'un projet client où vous contrôlez les Règles de VPC. Vous devez vous connecter aux données des projets que vous utilisez lors de la conception et de l'exécution.

Accès aux données dans les environnements de conception et d'exécution

Dans une instance publique, la communication réseau s'effectue sur l'Internet ouvert, ce qui n'est pas recommandé pour les environnements critiques. Pour accéder en toute sécurité à vos sources de données, exécutez toujours vos pipelines à partir d'une instance privée dans votre environnement d'exécution.

Dans la version 6.4 de Cloud Data Fusion, lorsque vous concevez votre pipeline, vous ne pouvez pas accéder aux sources de données sur Internet depuis une instance privée. À la place, vous concevez votre pipeline dans un projet locataire à l'aide d'une instance publique pour vous connecter à des sources de données sur Internet. Une fois votre pipeline créé, déplacez-le vers un projet client et exécutez-le dans une instance privée afin de pouvoir contrôler les règles de VPC. Vous devez vous connecter aux données des deux projets.

Pour plus d'informations sur les types de projets et d'instances nécessaires pour accéder à diverses sources de données, consultez la section Accès aux sources.

Accès aux sources

Si votre environnement d'exécution s'exécute dans une version de Cloud Data Fusion antérieure à la version 6.4, vous ne pouvez accéder qu'aux ressources de votre réseau VPC. La configuration de Cloud VPN ou de Cloud Interconnect vous permet d'accéder à des sources de données sur site. Les versions de Cloud Data Fusion antérieures à 6.4 ne peuvent accéder aux sources sur l'Internet public que si vous configurez une passerelle Cloud NAT.

Lors de l'accès aux sources de données, aux instances publiques et privées:

  • effectuer des appels sortants vers les API Google Cloud à l'aide de l'accès privé à Google ;
  • communiquer avec un environnement d'exécution (Dataproc) via l'appairage de VPC ;

Le tableau suivant compare les instances publiques et privées lors de la conception et de l'exécution de différentes sources de données:

Source de données Instance publique Cloud Data Fusion
(heure de conception)
Dataproc Cloud Data Fusion
(exécution)
Instance Cloud Data Fusion
(heure de conception)
Dataproc Cloud Data Fusion
(exécution)
Source Google Cloud
(après avoir accordé des autorisations et défini des règles de pare-feu)
Source sur site
(après avoir configuré VPN/Interconnect, accordez des autorisations et définissez des règles de pare-feu)
Source Internet publique
(après avoir accordé des autorisations et défini des règles de pare-feu)
Versions 6.4 < 6.4

Étape suivante