Cloud Data Fusion fournit un plug-in source Dataplex pour lire les données des entités Dataplex (tables) hébergées sur des éléments Cloud Storage ou BigQuery. Source Dataplex vous permet de traiter les données des éléments Cloud Storage comme des tables et de filtrer les données à l'aide de requêtes SQL simples.
Avant de commencer
Créer une instance Cloud Data Fusion si vous n'en avez pas. Ce plug-in est disponible dans les instances exécutées dans Cloud Data Fusion 6.6 ou version ultérieure
Les données sources doivent déjà faire partie d'un Dataplex Une zone et un asset (bucket Cloud Storage ou ensemble de données BigQuery).
Pour utiliser des tables Cloud Storage, vous devez configurer un métastore pour votre lac.
Pour que les données soient lues à partir d'entités Cloud Storage, Dataproc Metastore doit être associé au lac.
Les données CSV dans les entités Cloud Storage ne sont pas acceptées.
Dans le projet Dataplex, activez l'accès privé à Google sur le sous-réseau, généralement défini sur
default
, ou définissezinternal_ip_only
surfalse
Rôles requis
Pour obtenir les autorisations nécessaires pour gérer les rôles, demandez à votre administrateur de vous accorder le les rôles IAM suivants sur l'agent de service Dataproc et l'agent de service Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Développeur Dataplex (
roles/dataplex.developer
) -
Lecteur de données Dataplex (
roles/dataplex.dataReader
) -
Utilisateur de métadonnées Dataproc Metastore (
roles/metastore.metadataUser
) -
Agent de service Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Lecteur de métadonnées Dataplex (
roles/dataplex.metadataReader
)
Pour en savoir plus sur l'attribution de rôles, consultez la section Gérer les accès.
Vous pouvez également obtenir les autorisations requises via des rôles personnalisés ou d'autres rôles prédéfinis.
Limites
Pour les éléments Cloud Storage: ce plug-in n'est pas compatible avec la lecture CSV. Il est compatible avec la lecture des formats JSON, Avro, Parquet et ORC.
Pour les éléments Cloud Storage: Date de début de la partition et Partition Date de fin ne sont pas applicables.
Ajouter le plug-in à votre pipeline
Dans la console Google Cloud, accédez à la page Instances de Cloud Data Fusion.
Cette page vous permet de gérer vos instances.
Cliquez sur Afficher l'instance pour ouvrir votre instance dans Cloud Data Fusion. UI.
Accédez à la page Studio, développez le menu Source et cliquez sur Dataplex.
Configurer le plug-in
Après avoir ajouté ce plug-in à votre pipeline sur la page Studio, cliquez sur la source Dataplex pour configurer ses propriétés.
Pour en savoir plus sur les configurations, consultez la Documentation de référence sur une source Dataplex
Facultatif: Premiers pas avec un exemple de pipeline
Des exemples de pipelines sont disponibles, y compris une source SAP pour un pipeline de récepteur Dataplex et une source Dataplex pour Pipeline de récepteur BigQuery.
Pour utiliser un exemple de pipeline, ouvrez votre instance dans l'UI Cloud Data Fusion. cliquez sur Hub > Pipelines, puis sélectionnez l'une des Pipelines Dataplex Une boîte de dialogue s'ouvre pour vous aider à créer le pipeline.
Étape suivante
- Ingérer des données avec Cloud Data Fusion à l'aide du plug-in Récepteur Dataplex.