使用 Cloud Data Fusion 处理数据

Cloud Data Fusion 提供了一个 Dataplex Universal Catalog 源插件,用于从位于 Cloud Storage 或 BigQuery 资产中的 Dataplex Universal Catalog 实体(表)读取数据。借助 Dataplex Universal Catalog Source 插件,您可以将 Cloud Storage 资产中的数据视为表,并使用 SQL 查询过滤数据。

准备工作

  • 创建 Cloud Data Fusion 实例(如果您还没有)。此插件适用于在 Cloud Data Fusion 6.6 版或更高版本中运行的实例。

  • 源数据必须已是 Dataplex Universal Catalog 区域资产(Cloud Storage 存储桶或 BigQuery 数据集)的一部分。

  • 如需使用 Cloud Storage 中的表,您必须为数据湖配置 metastore。

  • 为了能够从 Cloud Storage 实体读取数据,必须将 Dataproc Metastore 附加到数据湖。

  • 不支持 Cloud Storage 实体中的 CSV 数据。

  • 在 Dataplex Universal Catalog 项目中,为子网启用专用 Google 访问通道(通常设置为 default),或者将 internal_ip_only 设置为 false

限制

  • 对于 Cloud Storage 资产:此插件不支持从 CSV 文件读取数据。它支持从 JSON、Avro、Parquet 和 ORC 格式的文件读取数据。

  • 对于 Cloud Storage 资产:分区开始日期分区结束日期不适用。

所需的角色

如需获得管理角色所需的权限,请让您的管理员为您授予 Dataproc 服务代理和 Cloud Data Fusion 服务代理 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

将插件添加到流水线

  1. 在 Google Cloud 控制台中,前往 Cloud Data Fusion 实例页面。

    转到实例

    该页面可让您管理实例。

  2. 点击查看实例,以在 Cloud Data Fusion 界面中打开实例。

  3. 前往 Studio 页面,展开来源菜单,然后点击 Dataplex

配置插件

Studio 页面上将此插件添加到流水线后,点击 Dataplex Universal Catalog 来源以配置其属性。

如需详细了解配置,请参阅 Dataplex 来源参考文档。

可选:开始使用示例流水线

我们提供了示例流水线,包括从 SAP 来源到 Dataplex Universal Catalog 接收器的流水线,以及从 Dataplex Universal Catalog 来源到 BigQuery 接收器的流水线。

如需使用示例流水线,请在 Cloud Data Fusion 界面中打开实例,然后点击 Hub > 流水线,并选择一个 Dataplex Universal Catalog 流水线。系统会打开一个对话框,帮助您创建流水线。

后续步骤