Cloud Data Fusion 中的服务账号

本页面介绍了如何在 Cloud Data Fusion 中使用服务帐号。如需了解详情,请参阅使用服务帐号

租户和客户项目

Cloud Data Fusion 设置服务账号,以访问以下项目中的资源:

租户项目

Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目未公开给您,但创建专用实例时,您可能需要使用租户项目名称设置 VPC 对等互连。

如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

此项目由您创建并拥有。默认情况下,Cloud Data Fusion 会在此项目中创建一个临时的 Dataproc 集群来运行您的流水线。

下图展示了在租户项目中运行的 Cloud Data Fusion 实例和客户项目中的 Dataproc 集群上运行的流水线。

部署流水线。

Cloud Data Fusion 中的服务账号

服务账号可为 Cloud Data Fusion 提供身份,该身份可让 Cloud Data Fusion 访问您的资源。

启用 Cloud Data Fusion API 后,Cloud Data Fusion 会创建一个 Google 代管式服务帐号,以访问 Service Networking、Dataproc、Cloud Storage、BigQuery、Spanner 和 Bigtable 等资源。此服务账号称为 Cloud Data Fusion API Service Agent。系统会自动向此服务代理授予角色。

服务账号由其电子邮件地址(对该账号是唯一的)标识。

Cloud Data Fusion 中使用的以下类型的服务账号。如需了解详情,请参阅服务帐号的类型

服务账号 说明
service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com Google 管理的服务帐号,称为 Cloud Data Fusion API Service Agent,Cloud Data Fusion 会创建此帐号来访问客户资源,从而代表客户执行操作。它在租户项目中用于访问客户项目资源。例如,预览版在内存而不是 Dataproc 集群中运行。
CUSTOMER_PROJECT_NUMBER- compute@developer.gserviceaccount.com Cloud Data Fusion 创建的默认的 Compute Engine 服务账号,用于部署访问其他 Google Cloud 资源的作业。默认情况下,它会挂接到 Dataproc 集群虚拟机,以使 Cloud Data Fusion 在流水线运行期间能够访问 Dataproc 资源。在 Cloud Data Fusion 企业版中,您可以通过从 Cloud Data Fusion 控制台→“系统管理员”→“配置”标签页创建配置文件,然后添加自定义服务帐号,从用户管理的服务帐号运行流水线。在 6.2.3 及更高版本中,您可以在创建 Cloud Data Fusion 实例时,选择要附加到 Dataproc 集群的自定义服务账号。如需了解详情,请参阅 Dataproc 中的服务账号

后续步骤