Cloud Data Fusion 中的服务账号

本页介绍了如何在 Cloud Data Fusion 中使用服务账号。如需了解详情,请参阅使用服务账号

租户和客户项目

Cloud Data Fusion 设置服务账号,以访问以下项目中的资源:

租户项目

Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目不会向您公开,但在创建私有实例时,您可能需要使用租户项目名称来设置 VPC 对等互连。

如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

您创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群,以运行您的流水线。

下图展示了在租户项目中运行的 Cloud Data Fusion 实例和客户项目中的 Dataproc 集群上运行的流水线。

在 Cloud Data Fusion 中部署流水线。

Cloud Data Fusion 中的服务账号

服务账号可为 Cloud Data Fusion 提供身份,该身份可让 Cloud Data Fusion 访问您的资源。

启用 Cloud Data Fusion API 并创建 Cloud Data Fusion 实例后,系统会向您的项目添加一个服务账号,以便访问 Service Networking、Dataproc、Cloud Storage、BigQuery、Spanner 和 Bigtable 等资源。此服务账号称为 Cloud Data Fusion API Service Agent。系统会自动向此服务代理授予角色。

服务账号由其电子邮件地址(对该账号是唯一的)标识。

Cloud Data Fusion 中使用以下类型的服务账号。如需了解详情,请参阅服务账号类型

服务账号 说明
service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com

服务代理(称为 Cloud Data Fusion API Service Agent),Cloud Data Fusion 会创建该代理以获得对客户资源的访问权限,以便其代表客户执行操作。它在租户项目中用于访问客户项目资源。例如,预览版在内存(而不是 Dataproc 集群)中运行。

默认情况下,分配给 Cloud Data Fusion 服务账号的 Cloud Data Fusion API Service Agent (roles/datafusion.serviceAgent) Identity and Access Management 角色包含额外的权限,以确保提供最佳用户体验。为增强安全性,您可以创建一个自定义角色,为其分配一组任务所需的最低权限,然后将其分配给 Cloud Data Fusion 服务账号。

CUSTOMER_PROJECT_NUMBER- compute@developer.gserviceaccount.com Cloud Data Fusion 创建的默认的 Compute Engine 服务账号,用于部署访问其他 Google Cloud 资源的作业。默认情况下,它会挂接到 Dataproc 集群虚拟机,以使 Cloud Data Fusion 在流水线运行期间能够访问 Dataproc 资源。在 Cloud Data Fusion 企业版中,通过从 Cloud Data Fusion 控制台→系统管理员→“配置”标签页创建配置文件并添加自定义服务账号,您可以从用户管理的服务账号运行流水线。在 6.2.3 及更高版本中,您可以在创建 Cloud Data Fusion 实例时,选择要附加到 Dataproc 集群的自定义服务账号。如需了解详情,请参阅 Dataproc 中的服务账号

后续步骤