使用 Cloud Data Fusion 处理数据

Cloud Data Fusion 提供 Dataplex Source 插件 从驻留 Cloud Storage 或 BigQuery 资产。Dataplex 来源 插件,您可以将 Cloud Storage 资产中的数据视为表并进行过滤 通过简单的 SQL 查询来提取数据。

准备工作

  • 创建 Cloud Data Fusion 实例。 如果您没有这样的设备在运行 Cloud Data Fusion 6.6 或更高版本。

  • 源数据必须已属于 Dataplex zoneasset (Cloud Storage 存储桶或 BigQuery 数据集)。

  • 如需使用 Cloud Storage 中的表,您必须配置 Metastore 数据池

  • 如需从 Cloud Storage 实体中读取数据, Dataproc Metastore 必须挂接到数据湖。

  • 系统不支持 Cloud Storage 实体中的 CSV 数据。

  • 在 Dataplex 项目中,对以下各项启用专用 Google 访问通道: 子网,通常设置为 default,或将 internal_ip_only 设置为 false.

所需的角色

要获取管理角色所需的权限, 请让管理员向您授予 针对 Dataproc 服务代理和 Cloud Data Fusion 服务代理 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com) 的以下 IAM 角色:

如需详细了解如何授予角色,请参阅管理访问权限

您也可以通过自定义角色或其他预定义角色来获取所需的权限。

限制

  • 对于 Cloud Storage 资产:此插件不支持从 CSV 文件。它支持从 JSON、Avro、Parquet 和 ORC 格式读取数据。

  • 对于 Cloud Storage 资产:Partition Start DatePartition 结束日期不适用。

将插件添加到流水线

  1. 在 Google Cloud 控制台中,转到 Cloud Data Fusion 实例页面。

    转到实例

    通过此页面,您可以管理自己的实例。

  2. 点击查看实例,在 Cloud Data Fusion 中打开您的实例 界面。

  3. 前往 Studio 页面,展开 Source 菜单,然后点击 Dataplex

配置插件

Studio 页面上将此插件添加到流水线后,点击 来配置其属性。

如需详细了解配置,请参阅 Dataplex 来源参考。

可选:开始使用示例流水线

我们提供示例流水线,包括用于 Dataplex 接收器流水线和 Dataplex 来源 BigQuery 接收器流水线。

如需使用示例流水线,请在 Cloud Data Fusion 界面中打开您的实例, 点击 Hub > Pipelines,然后选择 Dataplex 流水线。系统会打开一个对话框,帮助您创建 流水线。

后续步骤