代管式连接概览

本文档简要介绍了托管连接流水线, 用于将元数据从第三方来源导入 Dataplex。

借助代管式连接,您可以在以下位置将元数据导入 Dataplex: 。代管式连接流水线从您的数据源提取元数据 然后将元数据导入 Dataplex。如有必要, 还会在存储分区中创建 Dataplex Catalog 条目组 Google Cloud 项目。您可以编排工作流,并根据需要安排导入作业。

您可以构建自己的自定义连接器,从第三方来源提取元数据。例如,您可以构建连接器,以从 MySQL、SQL Server、Oracle、Snowflake、Databricks 等来源中提取元数据。如需了解构建自定义连接器示例的步骤,请参阅开发用于元数据导入的自定义连接器

如需了解运行代管式连接流水线的步骤,请参阅 使用 Workflows 从自定义来源导入元数据

受管理的网络连接的运作方式

下图显示了托管式连接流水线。

代管式连接流水线。

大致来说,托管式连接的运作方式如下:

  1. 为数据源构建连接器

    连接器必须是可以在 Dataproc Serverless 上运行的 Artifact Registry 映像。

  2. 运行代管式连接流水线 编排平台 Workflows

  3. 代管式连接流水线会执行以下操作:

    1. 如果目标条目组尚不存在,则根据您的配置创建目标条目组。
    2. 运行连接器。连接器会从数据源中提取元数据,并生成可导入 Dataplex 目录的元数据导入文件。
    3. 监控元数据提取的进度。
    4. 运行元数据导入作业,将元数据导入 Dataplex Catalog。
    5. 监控元数据导入作业的进度。

托管式连接流水线使用 Dataproc Serverless 来运行 以及 Dataplex 元数据导入 API 方法 运行元数据导入作业。

您导入的元数据包含 Dataplex Catalog 条目及其切面。如需详细了解 Dataplex Catalog 元数据,请参阅 Dataplex Catalog 概览

后续步骤