Ingérer des données avec Cloud Data Fusion

Cloud Data Fusion fournit un plug-in de récepteur Dataplex permettant d'ingérer des données dans n'importe quel élément compatible avec Dataplex.

Avant de commencer

  • Créez une instance Cloud Data Fusion, si vous n'en avez pas. Ce plug-in est disponible dans les instances exécutées dans Cloud Data Fusion 6.6 ou version ultérieure.
  • L'ensemble de données BigQuery ou le bucket Cloud Storage dans lequel les données sont ingérées doivent faire partie d'un lac Dataplex.
  • Pour que les données soient lues à partir d'entités Cloud Storage, Dataproc Metastore doit être associé au lac.
  • Les données CSV dans les entités Cloud Storage ne sont pas acceptées.
  • Dans le projet Dataplex, activez l'accès privé à Google sur le sous-réseau, généralement défini sur default, ou définissez internal_ip_only sur false.

Rôles requis

Pour obtenir les autorisations nécessaires pour gérer les rôles, demandez à votre administrateur de vous attribuer les rôles IAM suivants sur le compte de service Dataproc et le compte de service géré par Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com):

Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.

Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.

Ajouter le plug-in à votre pipeline

  1. Dans la console Google Cloud, accédez à la page Instances de Cloud Data Fusion.

    Accéder à la page "Instances"

    Cette page vous permet de gérer vos instances.

  2. Cliquez sur Afficher l'instance pour ouvrir votre instance dans l'interface utilisateur de Cloud Data Fusion.

  3. Accédez à la page Studio, développez le menu Récepteur, puis cliquez sur Dataplex.

Configurer le plug-in

Après avoir ajouté ce plug-in à votre pipeline sur la page Studio, cliquez sur le récepteur Dataplex pour configurer et enregistrer ses propriétés.

Pour en savoir plus sur les configurations, consultez la documentation de référence sur le récepteur Dataplex.

Facultatif: Premiers pas avec un exemple de pipeline

Des exemples de pipelines sont disponibles, y compris un pipeline entre une source SAP et un récepteur Dataplex, et un pipeline entre la source Dataplex et le récepteur BigQuery.

Pour utiliser un exemple de pipeline, ouvrez votre instance dans l'interface utilisateur Cloud Data Fusion, cliquez sur Hub > Pipelines, puis sélectionnez l'un des pipelines Dataplex. Une boîte de dialogue s'ouvre pour vous aider à créer le pipeline.

Exécuter le pipeline

  1. Après avoir déployé le pipeline, ouvrez-le sur la page Studio de Cloud Data Fusion.

  2. Cliquez sur Configurer > Ressources.

  3. (Facultatif) Modifiez les paramètres Executor CPU (Processeur d'exécuteur) et Memory (Mémoire) en fonction de la taille globale des données et du nombre de transformations utilisées dans votre pipeline.

  4. Cliquez sur Enregistrer.

  5. Pour démarrer le pipeline de données, cliquez sur Exécuter.

Étapes suivantes