Ce document présente les pipelines de connectivité gérés qui qui vous permet d'importer des métadonnées dans Dataplex à partir de sources tierces.
La connectivité gérée vous permet d'importer des métadonnées dans Dataplex à grande échelle. Un pipeline de connectivité géré extrait les métadonnées de vos sources de données puis importe les métadonnées dans Dataplex. Si nécessaire, le pipeline crée également des groupes d'entrées de catalogue Dataplex dans votre projet Google Cloud. Vous pouvez orchestrer les workflows et planifier les tâches d'importation en fonction de vos besoins.
Vous créez vos propres connecteurs personnalisés pour extraire des métadonnées à partir de sources tierces. Par exemple, vous pouvez créer un connecteur pour extraire des métadonnées à partir de sources. comme MySQL, SQL Server, Oracle, Snowflake, Databricks, etc. Pour savoir comment créer un exemple de connecteur personnalisé, consultez la section Développer un connecteur personnalisé pour l'importation de métadonnées.
Pour connaître la procédure d'exécution d'un pipeline de connectivité géré, consultez Importez des métadonnées à partir d'une source personnalisée à l'aide de Workflows.
Fonctionnement de la connectivité gérée
Le schéma suivant illustre un pipeline de connectivité géré.
De manière générale, voici comment fonctionne la connectivité gérée:
Vous créez un connecteur pour votre source de données.
Le connecteur doit être une image Artifact Registry pouvant s'exécuter sur Dataproc sans serveur.
Vous exécutez le pipeline de connectivité gérée. de Workflows, une plate-forme d'orchestration.
Le pipeline de connectivité gérée effectue les opérations suivantes :
- Crée un groupe d'entrées cible en fonction de votre configuration, si l'entrée n'existe pas encore.
- Exécute le connecteur. Le connecteur extrait les métadonnées de votre source de données et génère un fichier d'importation de métadonnées pouvant être importé dans Dataplex Catalog.
- Surveille la progression de l'extraction des métadonnées.
- Exécute une tâche d'importation de métadonnées pour importer les métadonnées dans le catalogue Dataplex.
- Surveille la progression de la tâche d'importation des métadonnées.
Le pipeline de connectivité gérée utilise Dataproc sans serveur pour exécuter le connecteur et les méthodes de l'API d'importation de métadonnées Dataplex pour exécuter le job d'importation de métadonnées.
Les métadonnées que vous importez sont issues du catalogue Dataplex les entrées et leurs aspects. Pour en savoir plus sur les métadonnées du catalogue Dataplex, consultez la page Présentation du catalogue Dataplex.
Étape suivante
- Importer des métadonnées à partir d'une source personnalisée à l'aide de Workflows
- Développer un connecteur personnalisé pour l'importation de métadonnées
- Importer des métadonnées à l'aide d'un pipeline personnalisé