Cloud Data Fusion fournit un plug-in Dataplex Sink pour insérer des données dans n'importe quel élément compatible avec Dataplex.
Avant de commencer
- Si vous ne disposez pas d'instance Cloud Data Fusion, créez-en une. Ce plug-in est disponible dans les instances exécutées dans la version 6.6 ou ultérieure de Cloud Data Fusion. Pour en savoir plus, consultez Créer une instance publique Cloud Data Fusion.
- L'ensemble de données BigQuery ou le bucket Cloud Storage dans lequel les données sont ingérées doit faire partie d'un lac Dataplex.
- Pour que les données puissent être lues à partir d'entités Cloud Storage, Dataproc Metastore doit être associé au lac.
- Les données CSV dans les entités Cloud Storage ne sont pas prises en charge.
- Dans le projet Dataplex, activez l'accès privé à Google sur le sous-réseau, qui est généralement défini sur
default
, ou définissezinternal_ip_only
surfalse
.
Rôles requis
Pour obtenir les autorisations nécessaires pour gérer les rôles, demandez à votre administrateur de vous accorder les rôles IAM suivants sur l'agent de service Dataproc et l'agent de service Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
):
-
Développeur Dataplex (
roles/dataplex.developer
) -
Lecteur de données Dataplex (
roles/dataplex.dataReader
) -
Utilisateur de métadonnées Dataproc Metastore (
roles/metastore.metadataUser
) -
Agent de service Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lecteur de métadonnées Dataplex (
roles/dataplex.metadataReader
)
Pour en savoir plus sur l'attribution de rôles, consultez la page Gérer l'accès aux projets, aux dossiers et aux organisations.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Ajouter le plug-in à votre pipeline
Dans la console Google Cloud, accédez à la page Instances de Cloud Data Fusion.
Cette page vous permet de gérer vos instances.
Pour ouvrir votre instance, cliquez sur Afficher l'instance.
Accédez à la page Studio, développez le menu Récepteur, puis cliquez sur Dataplex.
Configurer le plug-in
Après avoir ajouté ce plug-in à votre pipeline sur la page Studio, cliquez sur le récepteur Dataplex pour configurer et enregistrer ses propriétés.
Pour en savoir plus sur les configurations, consultez la documentation de référence sur le sink Dataplex.
Facultatif: Commencer avec un exemple de pipeline
Des exemples de pipelines sont disponibles, y compris un pipeline de source SAP vers un récepteur Dataplex et un pipeline de source Dataplex vers un récepteur BigQuery.
Pour utiliser un exemple de pipeline, ouvrez votre instance dans l'interface utilisateur de Cloud Data Fusion, cliquez sur Hub > Pipelines (Hub > Pipelines), puis sélectionnez l'un des pipelines Dataplex. Une boîte de dialogue s'ouvre pour vous aider à créer le pipeline.
Exécuter le pipeline
Après avoir déployé le pipeline, ouvrez-le sur la page Studio de Cloud Data Fusion.
Cliquez sur Configurer > Ressources.
Facultatif: modifiez le processeur d'exécuteur et la mémoire en fonction de la taille globale des données et du nombre de transformations utilisées dans votre pipeline.
Cliquez sur Enregistrer.
Pour démarrer le pipeline de données, cliquez sur Exécuter.
Étape suivante
- Traitez des données avec Cloud Data Fusion à l'aide du plug-in Source Dataplex.