使用 Cloud Data Fusion 提取数据

Cloud Data Fusion 提供了 Dataplex Sink 插件,用于将数据注入任何支持 Dataplex 的资产。

准备工作

  • 如果您没有 Cloud Data Fusion 实例,请创建一个。此插件适用于在 Cloud Data Fusion 6.6 或更高版本中运行的实例。如需了解详情,请参阅创建 Cloud Data Fusion 公共实例
  • 提取数据的 BigQuery 数据集或 Cloud Storage 存储分区必须属于 Dataplex 数据湖。
  • 如需从 Cloud Storage 实体读取数据,必须将 Dataproc Metastore 附加到数据湖。
  • 不支持 Cloud Storage 实体中的 CSV 数据。
  • 在 Dataplex 项目中,为子网启用专用 Google 访问通道(通常设置为 default),或将 internal_ip_only 设置为 false

所需的角色

如需获得管理角色所需的权限,请让管理员为您授予 Dataproc 服务代理和 Cloud Data Fusion 服务代理 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

将插件添加到流水线

  1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 实例页面。

    转到实例

    您可以在该页面中管理实例。

  2. 如需打开实例,请点击查看实例

  3. 前往 Studio 页面,展开 Sink 菜单,然后点击 Dataplex

配置插件

Studio 页面上将此插件添加到流水线后,点击 Dataplex 接收器以配置并保存其属性。

如需详细了解配置,请参阅 Dataplex Sink 参考文档。

可选:使用示例流水线入门

提供了示例流水线,包括 SAP 源到 Dataplex 接收器流水线和 Dataplex 源到 BigQuery 接收器流水线。

如需使用示例流水线,请在 Cloud Data Fusion 界面中打开您的实例,依次点击 Hub > 流水线,然后选择其中一个 Dataplex 流水线。系统会打开一个对话框,以帮助您创建数据流水线。

运行流水线

  1. 部署流水线后,在 Cloud Data Fusion 的 Studio 页面上打开流水线。

  2. 依次点击配置 > 资源

  3. 可选:根据整体数据大小和流水线中使用的转换数量来更改执行器 CPU内存

  4. 点击保存

  5. 如需启动数据流水线,请点击运行

后续步骤