Cette page explique comment créer une instance Cloud Data Fusion avec une adresse IP interne. Vous créez l'instance dans un réseau VPC ou un réseau VPC partagé.
Une instance Cloud Data Fusion privée offre les avantages suivants:
Les connexions à l'instance sont établies via un réseau VPC privé dans votre projet Google Cloud. Le trafic sur le réseau ne passe pas par l'Internet public.
L'instance peut se connecter à vos ressources sur site, telles que des bases de données relationnelles, car votre réseau sur site se connecte au réseau VPC privé Google Cloud via Cloud VPN ou Cloud Interconnect. Vous pouvez accéder de manière sécurisée à vos ressources sur site, telles que les bases de données, via le réseau privé sans ouvrir l'accès à Google Cloud.
Objectifs
- Configurer le réseau VPC ou le réseau VPC partagé
- Allouez une plage d'adresses IP qui sera utilisée pour déployer l'instance Cloud Data Fusion dans le projet locataire.
- Créer l'instance privée Cloud Data Fusion
- Configurez l'appairage de réseaux VPC entre le VPC qui contient l'instance Cloud Data Fusion et le VPC qui contient le projet locataire associé.
- Pour les réseaux VPC partagés, configurez les autorisations IAM (Identity and Access Management).
- Si votre instance privée utilise Cloud Data Fusion version 6.2.0 ou antérieure, créez une règle de pare-feu.
- Permettez aux différents services Google Cloud de communiquer en interne entre eux en activant l'accès privé à Google sur le sous-réseau Dataproc.
Avant de commencer
- Pour en savoir plus sur l'architecture de déploiement de Cloud Data Fusion, consultez la page Mise en réseau.
Configurer le réseau VPC
Si vous ne l'avez pas déjà fait, créez un réseau VPC ou un réseau VPC partagé.
Pour configurer votre réseau VPC, vous devez allouer une plage d'adresses IP.
Allouer une plage d'adresses IP
Réseau VPC
Si vous n'utilisez pas de réseau VPC partagé, Cloud Data Fusion alloue une plage d'adresses IP par défaut lorsque vous créez une instance.
Réseau VPC partagé
Pour utiliser un VPC partagé, vous devez allouer une plage d'adresses IP à votre instance Cloud Data Fusion.
Pour allouer une plage d'adresses IP à votre instance Cloud Data Fusion, procédez comme suit:
Dans Google Cloud Console, accédez à la page Réseaux VPC.
Dans la colonne Nom, cliquez sur le réseau VPC dans lequel vous souhaitez créer une instance Cloud Data Fusion privée.
La page Détails du réseau VPC s'ouvre.
Cliquez sur Connexion de service privé. Si vous y êtes invité, activez l'API Service Networking en cliquant sur Activer l'API.
Cliquez sur Allouer une plage d'adresses IP.
Attribuez un nom à votre plage d'adresses IP.
Pour Plage d'adresses IP, cliquez sur Automatique.
Spécifiez une taille de préfixe de
22
.Cliquez sur Allouer.
Créer une instance privée
Créer l'instance Cloud Data Fusion privée dans un réseau VPC ou un réseau VPC partagé
Réseau VPC
Pour créer l'instance dans un réseau VPC, utilisez la console Google Cloud ou cURL.
Si vous utilisez la console Google Cloud pour créer votre instance privée, Cloud Data Fusion alloue la plage d'adresses IP /22
par défaut. Pour choisir une autre plage d'adresses IP, vous devez utiliser la commande cURL.
Console
Accédez à la page Créer une instance Data Fusion.
Saisissez un nom et une description pour votre instance.
Sélectionnez la région dans laquelle créer l'instance.
Sélectionnez une version et une édition de Cloud Data Fusion.
Spécifiez le compte de service Dataproc à utiliser pour exécuter votre pipeline Cloud Data Fusion dans Dataproc. Le compte Compute Engine par défaut est présélectionné.
Développez le menu Options avancées et cliquez sur Activer l'adresse IP privée.
Dans le champ Réseau, choisissez le réseau dans lequel créer l'instance.
Cliquez sur Créer. Le processus de création de l'instance peut prendre jusqu'à 30 minutes.
cURL
Pour plus de commodité, vous pouvez exporter les variables suivantes ou les remplacer directement dans les commandes suivantes:
export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com
Pour créer l'instance, appelez sa méthode create()
:
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Remplacez les éléments suivants :
INSTANCE_ID
: chaîne d'ID que votre nouvelle instance doit recevoir.NETWORK_NAME
: nom du réseau VPC dans lequel vous souhaitez créer votre instance privée.IP_RANGE
: plage d'adresses IP que vous avez allouée ; Pour trouver la plage d'adresses IP dans la console Google Cloud, accédez à Détails du réseau VPC > Connexion de service privée > Plage d'adresses IP internes .
Réseau VPC partagé
Pour créer votre instance dans un réseau VPC partagé, utilisez cURL, et non la console Google Cloud.
cURL
Pour plus de commodité, vous pouvez exporter les variables suivantes. Vous pouvez également remplacer directement ces valeurs dans les commandes suivantes:
export PROJECT=PROJECT_ID export LOCATION=REGION export DATA_FUSION_API_NAME=datafusion.googleapis.com
Pour créer l'instance, appelez sa méthode create()
:
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'
Remplacez les éléments suivants :
INSTANCE_ID
: chaîne d'ID que votre nouvelle instance doit recevoir.SHARED_VPC_HOST_PROJECT_ID
: ID du projet qui héberge le réseau VPC partagé.NETWORK_NAME
: nom du réseau VPC dans lequel vous souhaitez créer l'instance privée.IP_RANGE
: plage d'adresses IP que vous avez allouée Pour trouver la plage d'adresses IP dans la console Google Cloud, accédez à la page Détails du réseau VPC > Connexion de service privée > Plage d'adresses IP internes.
Configurer l'appairage de réseaux VPC
Les services Cloud Data Fusion que vous utilisez dans votre environnement de conception (par exemple, Wrangler, gestionnaire de connexions et validation de schémas) initient les connexions réseau du VPC du projet locataire aux systèmes sources. Cloud Data Fusion utilise l'appairage de réseaux VPC pour établir la connectivité réseau avec le VPC ou le VPC partagé contenant votre instance. L'appairage de réseaux VPC permet à Cloud Data Fusion d'accéder aux ressources de votre réseau via des adresses IP internes à l'aide de votre propre VPC et de ses contrôles. Pour vous connecter à une ressource d'un autre réseau, consultez les étapes pour les cas d'utilisation de connexion.
La section suivante explique comment créer une configuration d'appairage entre votre réseau et le réseau du projet locataire Cloud Data Fusion.
Obtenir l'ID du projet locataire
Pour créer une configuration d'appairage, vous avez besoin de l'ID du projet locataire.
Accédez à la page Instances de Cloud Data Fusion.
Dans la colonne Nom de l'instance, sélectionnez l'instance.
Sur la page Détails de l'instance, copiez l'ID du projet locataire, qui est nécessaire pour créer une connexion d'appairage lors des étapes suivantes.
Créer une connexion d'appairage
Accédez à la page Appairage de réseaux VPC.
Cliquez sur Créer une connexion > Continuer.
Sur la page Créer une connexion d'appairage qui s'affiche, procédez comme suit:
- Saisissez le nom de votre connexion d'appairage.
- Pour Votre réseau VPC, sélectionnez le réseau contenant votre instance Cloud Data Fusion.
- Sous Réseau VPC appairé, sélectionnez Dans un autre projet.
- Dans le champ ID du projet, saisissez l'ID du projet locataire que vous avez trouvé précédemment dans ce tutoriel.
Dans le champ Nom du réseau VPC, sélectionnez un réseau ou saisissez INSTANCE_REGION-INSTANCE_ID.
Remplacez les éléments suivants :
- INSTANCE_REGION: région dans laquelle vous avez créé votre instance Cloud Data Fusion.
- INSTANCE_ID: ID de votre instance Cloud Data Fusion.
Sélectionnez la version du protocole Internet pour la connexion d'appairage afin d'échanger des routes IPv4 et IPv6 entre votre réseau VPC et le réseau VPC appairé. Pour en savoir plus, consultez la section Appairage de réseaux VPC.
Sélectionnez Exporter les routes personnalisées pour pouvoir exporter les routes personnalisées de votre réseau VPC vers le réseau VPC locataire.
Indiquez si vous souhaitez autoriser l'importation ou l'exportation de routes de sous-réseau avec une adresse IPv4 publique dans votre réseau VPC.
Cliquez sur Créer.
L'appairage de réseaux VPC devient actif peu de temps après sa création.
Configurer les autorisations IAM
Réseau VPC
Ignorez cette étape et consultez la section Créer une règle de pare-feu.
Réseau VPC partagé
Si vous créez votre instance Cloud Data Fusion dans un réseau VPC partagé, vous devez attribuer le rôle d'utilisateur de réseau Compute aux comptes de service suivants. Pour accorder des autorisations sur tous les sous-réseaux, attribuez le rôle au projet hôte de VPC partagé.
Pour mieux contrôler l'accès, accordez plutôt le rôle à un sous-réseau spécifique et le rôle de lecteur de réseau sur le projet hôte.
- Compte de service Cloud Data Fusion :
service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
- Compte de service Dataproc :
service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com
PROJECT_NUMBER
est le numéro du projet Google Cloud contenant votre instance Cloud Data Fusion.
Pour en savoir plus, consultez la page Accorder l'accès aux comptes de service requis.
Créer une règle de pare-feu
Sur votre réseau VPC, créez une règle de pare-feu autorisant les connexions SSH entrantes de la plage d'adresses IP que vous avez spécifiée lors de la création de votre instance Cloud Data Fusion privée.
Cette étape est nécessaire pour les versions de Cloud Data Fusion antérieures à la version 6.2.0. Il permet la communication entre Cloud Data Fusion et les clusters Dataproc exécutant des pipelines.
Vous pouvez créer la règle de pare-feu à l'aide de la console Google Cloud ou de la gcloud CLI.
Console
Consultez la section Créer des règles de pare-feu.
gcloud
Exécutez la commande ci-dessous.
gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID
Remplacez les éléments suivants :
FIREWALL_NAME
: nom de la règle de pare-feu à créer.IP_RANGE
: plage d'adresses IP que vous avez allouée ;NETWORK_NAME
: nom du réseau auquel la règle de pare-feu est associée. Il s'agit du nom du réseau VPC dans lequel vous avez créé l'instance privée.PROJECT_ID
: ID du projet qui héberge le réseau VPC.
Étapes pour les cas d'utilisation de connexion
Les sections suivantes décrivent des cas d'utilisation liés à la connexion pour des instances privées.
Activer l'accès privé à Google
Pour accéder aux ressources via des adresses IP internes, Cloud Data Fusion doit créer les clusters Dataproc et exécuter les pipelines de données dans un sous-réseau disposant d'un accès privé à Google. Vous devez activer l'accès privé à Google pour le sous-réseau qui contient les clusters Dataproc.
- Si un seul sous-réseau est présent dans la région où les clusters Dataproc sont lancés, le cluster est lancé dans ce sous-réseau.
S'il existe plusieurs sous-réseaux dans une région, vous devez configurer Cloud Data Fusion pour sélectionner le sous-réseau avec l'accès privé à Google pour le lancement des clusters Dataproc.
Pour activer l'accès privé à Google pour le sous-réseau, consultez la section Configuration de l'accès privé à Google.
Facultatif: Se connecter à d'autres sources
Après avoir créé une instance privée dans Cloud Data Fusion, vous pouvez vous connecter à d'autres sources, telles que les cas d'utilisation suivants:
- Bases de données et systèmes sur site exécutés dans d'autres réseaux VPC
- D'autres services Google Cloud s'exécutant sur leur propre réseau en mode privé, tels que Cloud SQL
- Sources sur l'Internet public
Facultatif: Activer l'appairage DNS
Activez l'appairage DNS dans les cas suivants:
- Lorsque Cloud Data Fusion se connecte à des systèmes via des noms d'hôte et non des adresses IP
- Lorsque le système cible est déployé derrière un équilibreur de charge, comme dans certains déploiements SAP
Étapes suivantes
- Découvrez les concepts de sécurité dans Cloud Data Fusion.
- Découvrez comment vous connecter aux ressources de réseaux externes.
- Familiarisez-vous avec d'autres concepts et fonctionnalités clés de Cloud Data Fusion.
- Consultez les pricing de Cloud Data Fusion.