本文档简要介绍了可用于将元数据从第三方来源导入 Dataplex 的托管连接流水线。
借助托管式连接,您可以大规模将元数据导入 Dataplex。托管式连接流水线会从数据源中提取元数据,然后将元数据导入 Dataplex。必要时,该流水线还会在您的Google Cloud 项目中创建 Dataplex Catalog 条目组。您可以编排工作流,并根据需要安排导入作业。
您可以构建自己的自定义连接器,从第三方来源提取元数据。例如,您可以构建连接器,以从 MySQL、SQL Server、Oracle、Snowflake、Databricks 等来源中提取元数据。如需了解构建自定义连接器示例的步骤,请参阅开发用于元数据导入的自定义连接器。
如需了解运行托管式连接流水线的步骤,请参阅使用工作流从自定义来源导入元数据。
受管理的连接功能的运作方式
下图展示了一个托管连接流水线。
大致来说,托管式连接的运作方式如下:
-
连接器必须是可以在 Dataproc Serverless 上运行的 Artifact Registry 映像。
您可以在编排平台 Workflows 中运行托管式连接流水线。
托管式连接流水线会执行以下操作:
- 如果目标条目组尚不存在,则根据您的配置创建目标条目组。
- 运行连接器。连接器会从数据源中提取元数据,并生成可导入 Dataplex Catalog 的元数据导入文件。
- 监控元数据提取的进度。
- 运行元数据导入作业,将元数据导入 Dataplex Catalog。
- 监控元数据导入作业的进度。
托管式连接流水线使用 Dataproc 无服务器运行连接器,并使用 Dataplex 元数据导入 API 方法运行元数据导入作业。
您导入的元数据包括 Dataplex Catalog 条目及其切面。如需详细了解 Dataplex Catalog 元数据,请参阅 Dataplex Catalog 概览。