Créer une instance privée avec appairage de VPC

Cette page explique comment créer une instance Cloud Data Fusion avec une adresse IP interne. Vous créez l'instance dans un réseau VPC ou un réseau VPC partagé.

Une instance Cloud Data Fusion privée offre les avantages suivants:

  • Les connexions à l'instance sont établies via un réseau VPC privé dans votre projet Google Cloud. Le trafic sur le réseau ne passe pas par l'Internet public.

  • L'instance peut se connecter à vos ressources sur site, telles que des bases de données relationnelles, car votre réseau sur site se connecte au réseau VPC privé Google Cloud via Cloud VPN ou Cloud Interconnect. Vous pouvez accéder de manière sécurisée à vos ressources sur site, telles que les bases de données, via le réseau privé sans ouvrir l'accès à Google Cloud.

Objectifs

  • Configurer le réseau VPC ou le réseau VPC partagé
  • Allouez une plage d'adresses IP qui sera utilisée pour déployer l'instance Cloud Data Fusion dans le projet locataire.
  • Créer l'instance privée Cloud Data Fusion
  • Configurez l'appairage de réseaux VPC entre le VPC qui contient l'instance Cloud Data Fusion et le VPC qui contient le projet locataire associé.
  • Pour les réseaux VPC partagés, configurez les autorisations IAM (Identity and Access Management).
  • Si votre instance privée utilise Cloud Data Fusion version 6.2.0 ou antérieure, créez une règle de pare-feu.
  • Permettez aux différents services Google Cloud de communiquer en interne entre eux en activant l'accès privé à Google sur le sous-réseau Dataproc.

Avant de commencer

  • Pour en savoir plus sur l'architecture de déploiement de Cloud Data Fusion, consultez la page Mise en réseau.

Configurer le réseau VPC

Si vous ne l'avez pas déjà fait, créez un réseau VPC ou un réseau VPC partagé.

Pour configurer votre réseau VPC, vous devez allouer une plage d'adresses IP.

Allouer une plage d'adresses IP

Réseau VPC

Si vous n'utilisez pas de réseau VPC partagé, Cloud Data Fusion alloue une plage d'adresses IP par défaut lorsque vous créez une instance.

Réseau VPC partagé

Pour utiliser un VPC partagé, vous devez allouer une plage d'adresses IP à votre instance Cloud Data Fusion.

Pour allouer une plage d'adresses IP à votre instance Cloud Data Fusion, procédez comme suit:

  1. Dans Google Cloud Console, accédez à la page Réseaux VPC.

    Accéder aux réseaux VPC

  2. Dans la colonne Nom, cliquez sur le réseau VPC dans lequel vous souhaitez créer une instance Cloud Data Fusion privée.

    La page Détails du réseau VPC s'ouvre.

  3. Cliquez sur Connexion de service privé. Si vous y êtes invité, activez l'API Service Networking en cliquant sur Activer l'API.

    Configurez les détails du réseau VPC.

  4. Cliquez sur Allouer une plage d'adresses IP.

    1. Attribuez un nom à votre plage d'adresses IP.

    2. Pour Plage d'adresses IP, cliquez sur Automatique.

    3. Spécifiez une taille de préfixe de 22.

    4. Cliquez sur Allouer.

      Allouez une plage d'adresses IP.

Créer une instance privée

Créer l'instance Cloud Data Fusion privée dans un réseau VPC ou un réseau VPC partagé

Réseau VPC

Pour créer l'instance dans un réseau VPC, utilisez la console Google Cloud ou cURL.

Si vous utilisez la console Google Cloud pour créer votre instance privée, Cloud Data Fusion alloue la plage d'adresses IP /22 par défaut. Pour choisir une autre plage d'adresses IP, vous devez utiliser la commande cURL.

Console

  1. Accédez à la page Créer une instance Data Fusion.

    Accéder à Créer une instance Data Fusion

  2. Saisissez un nom et une description pour votre instance.

  3. Sélectionnez la région dans laquelle créer l'instance.

  4. Sélectionnez une version et une édition de Cloud Data Fusion.

  5. Spécifiez le compte de service Dataproc à utiliser pour exécuter votre pipeline Cloud Data Fusion dans Dataproc. Le compte Compute Engine par défaut est présélectionné.

  6. Développez le menu Options avancées et cliquez sur Activer l'adresse IP privée.

  7. Dans le champ Réseau, choisissez le réseau dans lequel créer l'instance.

  8. Cliquez sur Créer. Le processus de création de l'instance peut prendre jusqu'à 30 minutes.

cURL

Pour plus de commodité, vous pouvez exporter les variables suivantes ou les remplacer directement dans les commandes suivantes:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Pour créer l'instance, appelez sa méthode create():

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Remplacez les éléments suivants :

  • INSTANCE_ID: chaîne d'ID que votre nouvelle instance doit recevoir.
  • NETWORK_NAME: nom du réseau VPC dans lequel vous souhaitez créer votre instance privée.
  • IP_RANGE: plage d'adresses IP que vous avez allouée ; Pour trouver la plage d'adresses IP dans la console Google Cloud, accédez à Détails du réseau VPC > Connexion de service privée > Plage d'adresses IP internes .

Réseau VPC partagé

Pour créer votre instance dans un réseau VPC partagé, utilisez cURL, et non la console Google Cloud.

cURL

Pour plus de commodité, vous pouvez exporter les variables suivantes. Vous pouvez également remplacer directement ces valeurs dans les commandes suivantes:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Pour créer l'instance, appelez sa méthode create():

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Remplacez les éléments suivants :

  • INSTANCE_ID: chaîne d'ID que votre nouvelle instance doit recevoir.
  • SHARED_VPC_HOST_PROJECT_ID: ID du projet qui héberge le réseau VPC partagé.
  • NETWORK_NAME: nom du réseau VPC dans lequel vous souhaitez créer l'instance privée.
  • IP_RANGE: plage d'adresses IP que vous avez allouée Pour trouver la plage d'adresses IP dans la console Google Cloud, accédez à la page Détails du réseau VPC > Connexion de service privée > Plage d'adresses IP internes.

Configurer l'appairage de réseaux VPC

Les services Cloud Data Fusion que vous utilisez dans votre environnement de conception (par exemple, Wrangler, gestionnaire de connexions et validation de schémas) initient les connexions réseau du VPC du projet locataire aux systèmes sources. Cloud Data Fusion utilise l'appairage de réseaux VPC pour établir la connectivité réseau avec le VPC ou le VPC partagé contenant votre instance. L'appairage de réseaux VPC permet à Cloud Data Fusion d'accéder aux ressources de votre réseau via des adresses IP internes à l'aide de votre propre VPC et de ses contrôles. Pour vous connecter à une ressource d'un autre réseau, consultez les étapes pour les cas d'utilisation de connexion.

La section suivante explique comment créer une configuration d'appairage entre votre réseau et le réseau du projet locataire Cloud Data Fusion.

Obtenir l'ID du projet locataire

Pour créer une configuration d'appairage, vous avez besoin de l'ID du projet locataire.

  1. Accédez à la page Instances de Cloud Data Fusion.

    Accéder à la page "Instances"

  2. Dans la colonne Nom de l'instance, sélectionnez l'instance.

  3. Sur la page Détails de l'instance, copiez l'ID du projet locataire, qui est nécessaire pour créer une connexion d'appairage lors des étapes suivantes.

Créer une connexion d'appairage

  1. Accédez à la page Appairage de réseaux VPC.

    Accéder à la page "Appairage de réseaux VPC"

  2. Cliquez sur Créer une connexion > Continuer.

  3. Sur la page Créer une connexion d'appairage qui s'affiche, procédez comme suit:

    1. Saisissez le nom de votre connexion d'appairage.
    2. Pour Votre réseau VPC, sélectionnez le réseau contenant votre instance Cloud Data Fusion.
    3. Sous Réseau VPC appairé, sélectionnez Dans un autre projet.
    4. Dans le champ ID du projet, saisissez l'ID du projet locataire que vous avez trouvé précédemment dans ce tutoriel.
    5. Dans le champ Nom du réseau VPC, sélectionnez un réseau ou saisissez INSTANCE_REGION-INSTANCE_ID.

      Remplacez les éléments suivants :

      • INSTANCE_REGION: région dans laquelle vous avez créé votre instance Cloud Data Fusion.
      • INSTANCE_ID: ID de votre instance Cloud Data Fusion.
    6. Sélectionnez la version du protocole Internet pour la connexion d'appairage afin d'échanger des routes IPv4 et IPv6 entre votre réseau VPC et le réseau VPC appairé. Pour en savoir plus, consultez la section Appairage de réseaux VPC.

    7. Sélectionnez Exporter les routes personnalisées pour pouvoir exporter les routes personnalisées de votre réseau VPC vers le réseau VPC locataire.

    8. Indiquez si vous souhaitez autoriser l'importation ou l'exportation de routes de sous-réseau avec une adresse IPv4 publique dans votre réseau VPC.

    9. Cliquez sur Créer.

    L'appairage de réseaux VPC devient actif peu de temps après sa création.

Configurer les autorisations IAM

Réseau VPC

Ignorez cette étape et consultez la section Créer une règle de pare-feu.

Réseau VPC partagé

Si vous créez votre instance Cloud Data Fusion dans un réseau VPC partagé, vous devez attribuer le rôle d'utilisateur de réseau Compute aux comptes de service suivants. Pour accorder des autorisations sur tous les sous-réseaux, attribuez le rôle au projet hôte de VPC partagé.

Pour mieux contrôler l'accès, accordez plutôt le rôle à un sous-réseau spécifique et le rôle de lecteur de réseau sur le projet hôte.

  • Compte de service Cloud Data Fusion : service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
  • Compte de service Dataproc : service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com

PROJECT_NUMBER est le numéro du projet Google Cloud contenant votre instance Cloud Data Fusion.

Pour en savoir plus, consultez la page Accorder l'accès aux comptes de service requis.

Créer une règle de pare-feu

Sur votre réseau VPC, créez une règle de pare-feu autorisant les connexions SSH entrantes de la plage d'adresses IP que vous avez spécifiée lors de la création de votre instance Cloud Data Fusion privée.

Cette étape est nécessaire pour les versions de Cloud Data Fusion antérieures à la version 6.2.0. Il permet la communication entre Cloud Data Fusion et les clusters Dataproc exécutant des pipelines.

Vous pouvez créer la règle de pare-feu à l'aide de la console Google Cloud ou de la gcloud CLI.

Console

Consultez la section Créer des règles de pare-feu.

gcloud

Exécutez la commande ci-dessous.

gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID

Remplacez les éléments suivants :

Étapes pour les cas d'utilisation de connexion

Les sections suivantes décrivent des cas d'utilisation liés à la connexion pour des instances privées.

Activer l'accès privé à Google

Pour accéder aux ressources via des adresses IP internes, Cloud Data Fusion doit créer les clusters Dataproc et exécuter les pipelines de données dans un sous-réseau disposant d'un accès privé à Google. Vous devez activer l'accès privé à Google pour le sous-réseau qui contient les clusters Dataproc.

  • Si un seul sous-réseau est présent dans la région où les clusters Dataproc sont lancés, le cluster est lancé dans ce sous-réseau.
  • S'il existe plusieurs sous-réseaux dans une région, vous devez configurer Cloud Data Fusion pour sélectionner le sous-réseau avec l'accès privé à Google pour le lancement des clusters Dataproc.

Pour activer l'accès privé à Google pour le sous-réseau, consultez la section Configuration de l'accès privé à Google.

Facultatif: Se connecter à d'autres sources

Après avoir créé une instance privée dans Cloud Data Fusion, vous pouvez vous connecter à d'autres sources, telles que les cas d'utilisation suivants:

Facultatif: Activer l'appairage DNS

Activez l'appairage DNS dans les cas suivants:

  • Lorsque Cloud Data Fusion se connecte à des systèmes via des noms d'hôte et non des adresses IP
  • Lorsque le système cible est déployé derrière un équilibreur de charge, comme dans certains déploiements SAP

Étapes suivantes