本文档简要介绍了托管连接流水线, 用于将元数据从第三方来源导入 Dataplex。
借助代管式连接,您可以在以下位置将元数据导入 Dataplex: 。代管式连接流水线从您的数据源提取元数据 然后将元数据导入 Dataplex。如有必要, 还会在存储分区中创建 Dataplex Catalog 条目组 Google Cloud 项目。您可以编排工作流,并根据需要安排导入作业。
您可以构建自己的自定义连接器,从第三方来源提取元数据。例如,您可以构建连接器,以从 MySQL、SQL Server、Oracle、Snowflake、Databricks 等来源中提取元数据。如需了解构建自定义连接器示例的步骤,请参阅开发用于元数据导入的自定义连接器。
如需了解运行代管式连接流水线的步骤,请参阅 使用 Workflows 从自定义来源导入元数据。
受管理的网络连接的运作方式
下图显示了托管式连接流水线。
大致来说,托管式连接的运作方式如下:
您 为数据源构建连接器。
连接器必须是可以在 Dataproc Serverless 上运行的 Artifact Registry 映像。
运行代管式连接流水线 编排平台 Workflows
代管式连接流水线会执行以下操作:
- 如果目标条目组尚不存在,则根据您的配置创建目标条目组。
- 运行连接器。连接器会从数据源中提取元数据,并生成可导入 Dataplex 目录的元数据导入文件。
- 监控元数据提取的进度。
- 运行元数据导入作业,将元数据导入 Dataplex Catalog。
- 监控元数据导入作业的进度。
托管式连接流水线使用 Dataproc Serverless 来运行 以及 Dataplex 元数据导入 API 方法 运行元数据导入作业。
您导入的元数据包含 Dataplex Catalog 条目及其切面。如需详细了解 Dataplex Catalog 元数据,请参阅 Dataplex Catalog 概览。