Créer une instance privée avec appairage de VPC

Cette page explique comment créer une instance Cloud Data Fusion avec une adresse IP interne. Vous créez l'instance dans un VPC, ou un VPC partagé.

Une instance Cloud Data Fusion privée présente les avantages suivants:

  • Les connexions à l'instance sont établies via réseau VPC privé de votre projet Google Cloud. Le trafic sur le réseau ne passe pas par l'Internet public.

  • L'instance peut se connecter à vos ressources sur site, telles que les ressources car votre réseau sur site se connecte réseau VPC privé Google Cloud via Cloud VPN ou Cloud Interconnect : Vous pouvez accéder en toute sécurité à vos ressources sur site, telles que les bases de données, via le réseau privé sans ouvrir l'accès à Google Cloud.

Objectifs

  • Configurez le réseau VPC ou le réseau VPC partagé.
  • Allouer une plage d'adresses IP qui servira à déployer Cloud Data Fusion dans le projet locataire.
  • Créez l'instance privée Cloud Data Fusion.
  • Configurez l'appairage de réseaux VPC entre le VPC contient l'instance Cloud Data Fusion et le VPC qui contient le projet locataire associé.
  • Configurer Identity and Access Management (IAM) pour les réseaux VPC partagés autorisations.
  • Si votre instance privée utilise Cloud Data Fusion version 6.2.0 ou créez une règle de pare-feu.
  • Autoriser les différents services Google Cloud à communiquer en interne avec chacun en activant l'accès privé à Google sous-réseau Dataproc.

Avant de commencer

  • Pour en savoir plus sur l'architecture de déploiement de Cloud Data Fusion, consultez la page Mise en réseau.

Configurer le réseau VPC

Si vous ne l'avez pas déjà fait, créez un réseau VPC. ou un réseau VPC partagé.

Pour configurer votre réseau VPC, vous devez allouer une adresse IP la plage d'adresses IP.

Allouer une plage d'adresses IP

Réseau VPC

Si vous n'utilisez pas de réseau VPC partagé, Cloud Data Fusion alloue par défaut une plage d'adresses IP lorsque vous créez un Compute Engine.

Réseau VPC partagé

Pour utiliser un VPC partagé, vous devez allouer une adresse IP pour votre instance Cloud Data Fusion.

Pour allouer une plage d'adresses IP à votre instance Cloud Data Fusion, procédez comme suit : procédez comme suit:

  1. Dans Google Cloud Console, accédez à la page Réseaux VPC.

    Accéder aux réseaux VPC

  2. Dans la colonne Nom, cliquez sur le réseau VPC dans lequel vous souhaitez créer une instance Cloud Data Fusion privée.

    La page Détails du réseau VPC s'ouvre.

  3. Cliquez sur Connexion de service privé. Si vous y êtes invité, activez API Service Networking en cliquant sur Activer l'API.

    Configurez les détails du réseau VPC.

  4. Cliquez sur Allouer une plage d'adresses IP.

    1. Attribuez un nom à votre plage d'adresses IP.

    2. Dans Plage d'adresses IP, cliquez sur Automatique.

    3. Spécifiez une taille de préfixe de 22.

    4. Cliquez sur Allouer.

      Allouez une plage d'adresses IP.

Créer une instance privée

Créer l'instance Cloud Data Fusion privée dans un VPC réseau VPC partagé ou un réseau VPC partagé.

Réseau VPC

Pour créer l'instance dans un réseau VPC, utilisez la méthode la console Google Cloud ou cURL.

Si vous utilisez la console Google Cloud pour créer votre instance privée, Cloud Data Fusion alloue la plage d'adresses IP /22 par défaut. À choisissez une autre plage d'adresses IP, vous devez utiliser la commande cURL.

Console

  1. Accédez à la page Créer une instance Data Fusion.

    <ph type="x-smartling-placeholder"></ph> Accéder à la page "Créer une instance Data Fusion"

  2. Saisissez un nom et une description pour votre instance.

  3. Sélectionnez la région dans laquelle créer l'instance.

  4. sélectionner une version Cloud Data Fusion et Édition :

  5. Spécifiez le paramètre Compte de service Dataproc à utiliser pour exécuter votre pipeline Cloud Data Fusion Dataproc. L'instance Compute Engine par défaut est présélectionné.

  6. Développez le menu Options avancées et cliquez sur Activer l'adresse IP privée.

  7. Dans le champ Réseau, sélectionnez un réseau dans lequel créer le Compute Engine.

  8. Cliquez sur Créer. Le processus de création de l'instance peut prendre jusqu'à 30 minutes.

cURL

Pour plus de commodité, vous pouvez exporter les variables suivantes ou remplacez directement ces valeurs dans les commandes suivantes:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Pour créer l'instance, appelez sa méthode create() méthode:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instance_id=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Remplacez les éléments suivants :

  • INSTANCE_ID: chaîne d'ID que votre nouvelle instance doit obtenir.
  • NETWORK_NAME: nom du le réseau VPC sur lequel vous souhaitez créer Compute Engine.
  • IP_RANGE: adresse IP que vous avez allouée. Pour trouver la plage d'adresses IP dans le fichier Console Google Cloud, accédez à Détails du réseau VPC &gt; Connexion de service privée &gt; Plage d'adresses IP internes

Réseau VPC partagé

Pour créer votre instance dans un réseau VPC partagé, utilisez cURL, et non la commande console Google Cloud.

cURL

Pour plus de commodité, vous pouvez exporter les variables suivantes. Vous pouvez également remplacer directement ces valeurs dans les commandes:

export PROJECT=PROJECT_ID
export LOCATION=REGION
export DATA_FUSION_API_NAME=datafusion.googleapis.com

Pour créer l'instance, appelez sa méthode create(). méthode:

curl -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" https://$DATA_FUSION_API_NAME/v1/projects/$PROJECT/locations/$LOCATION/instances?instanceId=INSTANCE_ID -X POST -d '{"description": "Private CDF instance created through REST.", "type": "ENTERPRISE", "privateInstance": true, "networkConfig": {"network": "projects/SHARED_VPC_HOST_PROJECT_ID/global/networks/NETWORK_NAME", "ipAllocation": "IP_RANGE"}}'

Remplacez les éléments suivants :

  • INSTANCE_ID: chaîne d'ID que votre nouvelle instance doit obtenir.
  • SHARED_VPC_HOST_PROJECT_ID: ID du qui héberge le réseau VPC partagé.
  • NETWORK_NAME: nom du le réseau VPC dans lequel vous souhaitez créer Compute Engine.
  • IP_RANGE: plage d'adresses IP que vous avez allouée. Pour trouver la plage d'adresses IP dans la console Google Cloud, accédez à Page Détails du réseau VPC &gt; Connexion de service privée &gt; Plage d'adresses IP internes.

Configurer l'appairage de réseaux VPC

les services Cloud Data Fusion que vous utilisez environnement de conception (Wrangler, Connection Manager et Schema Validation, par exemple) lance les connexions réseau entre le VPC du projet locataire et la source systèmes. Cloud Data Fusion utilise Appairage de réseaux VPC pour établir un réseau la connectivité au VPC ou au VPC partagé contenant Compute Engine. L'appairage de réseaux VPC permet à Cloud Data Fusion d'accéder aux ressources de votre réseau via des adresses IP internes le VPC et ses contrôles. Pour se connecter à une ressource située dans un autre consultez la procédure pour les cas d'utilisation d'une connexion.

La section suivante explique comment Créer une configuration d'appairage entre votre réseau et Cloud Data Fusion projet locataire réseau.

Obtenir l'ID du projet locataire

Pour créer une configuration d'appairage, vous avez besoin du l'ID du projet locataire.

  1. Accédez à la page Instances de Cloud Data Fusion.

    Accéder à la page "Instances"

  2. Dans la colonne Nom de l'instance, sélectionnez l'instance.

  3. Sur la page Détails de l'instance, copiez l'ID du projet locataire, qui correspond à requise pour créer une connexion d'appairage dans les étapes suivantes.

Créer une connexion d'appairage

  1. Accédez à la page Appairage de réseaux VPC.

    Accéder à la page "Appairage de réseaux VPC"

  2. Cliquez sur Créer une connexion &gt; Continuer.

  3. Sur la page Créer une connexion d'appairage qui s'affiche, procédez comme suit:

    1. Saisissez le nom de votre connexion d'appairage.
    2. Pour Votre réseau VPC, sélectionnez le réseau contenant vos Instance Cloud Data Fusion.
    3. Pour Réseau VPC appairé, sélectionnez Dans un autre projet.
    4. Dans le champ ID du projet, saisissez le ID du projet locataire que vous avez trouvé précédemment dans ce tutoriel.
    5. Dans le champ Nom du réseau VPC, sélectionnez un réseau ou saisissez INSTANCE_REGIONINSTANCE_ID.

      Remplacez les éléments suivants :

      • INSTANCE_REGION: région dans laquelle vous avez créé votre Instance Cloud Data Fusion.
      • INSTANCE_ID: ID de votre instance Cloud Data Fusion.
    6. Sélectionnez la version du protocole Internet pour la connexion d'appairage à des routes IPv4 et IPv6 entre votre réseau VPC le réseau VPC appairé. Pour en savoir plus, consultez Appairage de réseaux VPC.

    7. Sélectionnez Exporter les routes personnalisées afin que les routes personnalisées peuvent être exportés de votre réseau VPC vers le locataire sur le réseau VPC du client.

    8. Indiquez si vous souhaitez autoriser l'importation des routes de sous-réseau avec une adresse IPv4 publique exportées dans votre réseau VPC.

    9. Cliquez sur Créer.

    L'appairage de réseaux VPC devient actif peu de temps après sa création.

Configurer les autorisations IAM

Réseau VPC

Ignorez cette étape et accédez à la section Créer une règle de pare-feu.

Réseau VPC partagé

Si vous créez votre instance Cloud Data Fusion dans un VPC partagé vous devez attribuer le rôle d'utilisateur de réseau Compute aux comptes de service suivants. Pour accorder des autorisations à tous les sous-réseaux, accordez le rôle au projet hôte du VPC partagé.

Pour mieux contrôler l'accès, attribuez plutôt le rôle à un sous-réseau spécifique. le rôle Lecteur de réseau sur le projet hôte.

  • Compte de service Cloud Data Fusion : service-PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
  • Compte de service Dataproc : service-PROJECT_NUMBER@dataproc-accounts.iam.gserviceaccount.com

PROJECT_NUMBER est le numéro Le projet Google Cloud contenant votre Cloud Data Fusion Compute Engine.

Pour en savoir plus, consultez la section Accorder l'accès. aux comptes de service requis.

Créer une règle de pare-feu

Sur votre réseau VPC, créez une règle de pare-feu autorisant les connexions SSH entrantes de la plage d'adresses IP que vous avez spécifiée lors de la création de votre instance Cloud Data Fusion privée.

Cette étape est obligatoire pour les versions de Cloud Data Fusion antérieures à la version 6.2.0. Il permet la communication entre Cloud Data Fusion et Dataproc clusters exécutant des pipelines.

Vous pouvez créer la règle de pare-feu à l'aide de la console Google Cloud. ou à l'aide de la gcloud CLI.

Console

Consultez la section Créer des règles de pare-feu.

gcloud

Exécutez la commande suivante :

gcloud compute firewall-rules create FIREWALL_NAME-allow-ssh --allow=tcp:22 --source-ranges=IP_RANGE --network=NETWORK_NAME --project=PROJECT_ID

Remplacez les éléments suivants :

  • FIREWALL_NAME: nom de la règle de pare-feu à créer.
  • IP_RANGE: plage d'adresses IP alloué.
  • NETWORK_NAME: nom du réseau auquel la règle de pare-feu est associée. C'est le nom du VPC dans lequel vous avez créé l'instance privée.
  • PROJECT_ID: ID du projet hébergement du réseau VPC.

Étapes à suivre pour les cas d'utilisation d'une connexion

Les sections suivantes décrivent des cas d'utilisation liés aux connexions pour les applications privées Compute Engine.

Activer l'accès privé à Google

Pour accéder aux ressources via des adresses IP internes, Cloud Data Fusion doit créer les clusters Dataproc et exécuter les pipelines de données dans un sous-réseau disposant de l'accès privé à Google. Vous devez activer l'accès privé à Google pour le sous-réseau clusters Dataproc.

  • Si un seul sous-réseau est présent dans la région où Dataproc les clusters sont lancés, puis le cluster est lancé dans ce sous-réseau.
  • S'il existe plusieurs sous-réseaux dans une région, vous devez configurer Cloud Data Fusion pour sélectionner le sous-réseau l'accès privé à Google pour lancer des clusters Dataproc.

Pour activer l'accès privé à Google pour le sous-réseau, consultez Configuration de l'accès privé à Google

Facultatif: Se connecter à d'autres sources

Après avoir créé une instance privée dans Cloud Data Fusion, vous pouvez vous connecter à d'autres sources, comme les cas d'utilisation suivants:

Facultatif: Activer l'appairage DNS

Activez l'appairage DNS dans la section les cas suivants:

  • Lorsque Cloud Data Fusion se connecte aux systèmes via des noms d'hôte, et non via des adresses IP adresses
  • Lorsque le système cible est déployé derrière un équilibreur de charge, comme c'est le cas dans certains déploiements SAP

Étape suivante