Présentation de la connectivité gérée

Ce document présente les pipelines de connectivité gérés que vous pouvez utiliser pour importer des métadonnées à partir de sources tierces dans Dataplex.

La connectivité gérée vous permet d'importer des métadonnées dans Dataplex à grande échelle. Un pipeline de connectivité géré extrait les métadonnées de vos sources de données, puis les importe dans Dataplex. Si nécessaire, le pipeline crée également des groupes d'entrées du catalogue Dataplex dans votre projetGoogle Cloud . Vous pouvez orchestrer les workflows et planifier les tâches d'importation en fonction de vos besoins.

Vous créez vos propres connecteurs personnalisés pour extraire des métadonnées à partir de sources tierces. Par exemple, vous pouvez créer un connecteur pour extraire des métadonnées à partir de sources telles que MySQL, SQL Server, Oracle, Snowflake, Databricks, etc. Pour savoir comment créer un exemple de connecteur personnalisé, consultez la section Développer un connecteur personnalisé pour l'importation de métadonnées.

Pour savoir comment exécuter un pipeline de connectivité géré, consultez la section Importer des métadonnées à partir d'une source personnalisée à l'aide de workflows.

Fonctionnement de la connectivité gérée

Le schéma suivant montre un pipeline de connectivité géré.

Un pipeline de connectivité géré

Voici un aperçu du fonctionnement de la connectivité gérée:

  1. Vous créez un connecteur pour votre source de données.

    Le connecteur doit être une image Artifact Registry pouvant s'exécuter sur Dataproc sans serveur.

  2. Vous exécutez le pipeline de connectivité gérée dans Workflows, une plate-forme d'orchestration.

  3. Le pipeline de connectivité gérée effectue les opérations suivantes:

    1. Crée un groupe d'entrées cible en fonction de votre configuration, si le groupe d'entrées n'existe pas encore.
    2. Exécute le connecteur. Le connecteur extrait les métadonnées de votre source de données et génère un fichier d'importation de métadonnées pouvant être importé dans Dataplex Catalog.
    3. Surveille la progression de l'extraction des métadonnées.
    4. Exécute une tâche d'importation de métadonnées pour importer les métadonnées dans le catalogue Dataplex.
    5. Surveille la progression de la tâche d'importation des métadonnées.

Le pipeline de connectivité géré utilise Dataproc Serverless pour exécuter le connecteur et les méthodes de l'API d'importation de métadonnées Dataplex pour exécuter la tâche d'importation de métadonnées.

Les métadonnées que vous importez se composent d'entrées du catalogue Dataplex et de leurs aspects. Pour en savoir plus sur les métadonnées du catalogue Dataplex, consultez la page Présentation du catalogue Dataplex.

Étape suivante