Cloud Data Fusion 提供了一个 Dataplex Source 插件,用于从驻留在 Cloud Storage 或 BigQuery 资源上的 Dataplex 实体(表)中读取数据。借助 Dataplex 来源插件,您可以将 Cloud Storage 资产中的数据视为表,并通过简单的 SQL 查询来过滤数据。
准备工作
创建一个 Cloud Data Fusion 实例(如果您没有该实例)。此插件可在 Cloud Data Fusion 6.6 或更高版本中运行的实例使用。
如需使用 Cloud Storage 中的表,您必须为数据湖配置 Metastore。
如需从 Cloud Storage 实体中读取数据,Dataproc Metastore 必须附加到数据湖。
不支持 Cloud Storage 实体中的 CSV 数据。
在 Dataplex 项目中,在子网上启用专用 Google 访问通道(通常设置为
default
),或将internal_ip_only
设置为false
。
所需的角色
如需获取管理角色所需的权限,请让管理员向您授予对 Dataproc 服务帐号和 Google 代管式服务账号 (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com) 的以下 IAM 角色:
-
Dataplex Developer (
roles/dataplex.developer
) -
Dataplex Data Reader (
roles/dataplex.dataReader
) -
Dataproc Metastore Metadata User (
roles/metastore.metadataUser
) -
Cloud Dataplex Service Agent (
roles/dataplex.serviceAgent
) -
Dataplex Metadata Reader (
roles/dataplex.metadataReader
)
如需详细了解如何授予角色,请参阅管理访问权限。
限制
对于 Cloud Storage 资产:此插件不支持从 CSV 文件读取数据。它支持从 JSON、Avro、Parquet 和 ORC 格式读取数据。
对于 Cloud Storage 资产:分区开始日期和分区结束日期不适用。
将插件添加到流水线
在 Google Cloud 控制台中,转到 Cloud Data Fusion 实例页面。
通过此页面,您可以管理自己的实例。
点击查看实例,在 Cloud Data Fusion 界面中打开您的实例。
转到 Studio 页面,展开 Source 菜单,然后点击 Dataplex。
配置插件
在 Studio 页面上将此插件添加到流水线后,点击 Dataplex 来源以配置其属性。
如需详细了解配置,请参阅 Dataplex 来源参考文档。
可选:通过示例流水线开始使用
可用示例流水线,包括 SAP 来源到 Dataplex 接收器流水线,以及 Dataplex 来源到 BigQuery 接收器流水线。
如需使用示例流水线,请在 Cloud Data Fusion 界面中打开您的实例,点击中心 > 流水线,然后选择一个 Dataplex 流水线。系统会打开一个对话框,帮助您创建流水线。
后续步骤
- 使用 Dataplex 接收器插件通过 Cloud Data Fusion 注入数据。