使用 Cloud Data Fusion 注入数据

Cloud Data Fusion 提供了一个 Dataplex 接收器插件 将数据注入任何支持 Dataplex 的资产。

前期准备

  • 创建 Cloud Data Fusion 实例(如果您还没有的话)。此插件适用于在 Cloud Data Fusion 6.6 或更高版本中运行的实例。
  • 提取数据的 BigQuery 数据集或 Cloud Storage 存储桶必须属于 Dataplex 数据湖。
  • 如需从 Cloud Storage 实体读取数据,必须将 Dataproc Metastore 附加到数据湖。
  • 不支持 Cloud Storage 实体中的 CSV 数据。
  • 在 Dataplex 项目中,为子网启用专用 Google 访问通道(通常设置为 default),或将 internal_ip_only 设置为 false

所需的角色

如需获得管理角色所需的权限,请让管理员向您授予 Dataproc 服务代理和 Cloud Data Fusion 服务代理 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

将插件添加到流水线

  1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 实例页面。

    转到实例

    通过此页面,您可以管理自己的实例。

  2. 点击查看实例,在 Cloud Data Fusion 中打开您的实例 界面。

  3. 前往 Studio 页面,展开 Sink 菜单,然后点击 Dataplex

配置插件

Studio 页面上将此插件添加到流水线后,点击 用于配置和保存其属性的 Dataplex 接收器。

如需详细了解配置,请参阅 Dataplex 接收器参考文档。

可选:使用示例流水线开始构建

提供了示例流水线,包括 SAP 源到 Dataplex 接收器流水线和 Dataplex 源到 BigQuery 接收器流水线。

如需使用示例流水线,请在 Cloud Data Fusion 界面中打开您的实例,依次点击 Hub > 流水线,然后选择其中一个 Dataplex 流水线。系统会打开一个对话框,以帮助您创建数据流水线。

运行流水线

  1. 部署流水线后,在 Cloud Data Fusion 的 Studio 页面上打开流水线。

  2. 依次点击配置 > 资源

  3. 可选:根据总体配置来更改 Executor CPUMemory 数据大小和流水线中使用的转换数量。

  4. 点击保存

  5. 如需启动数据流水线,请点击运行

后续步骤