Cloud Data Fusion 服务帐号

准备工作

了解 Identity and Access Management 中服务帐号的工作原理

租户和客户项目

Cloud Data Fusion 设置服务帐号,以访问以下项目中的资源:

租户项目

Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目不会向客户公开,但在创建私有实例时,您可能需要使用租户项目名称来设置 VPC 对等互连。

如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

客户创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群,以运行客户的流水线。

下图展示了在租户项目中运行的 Cloud Data Fusion 实例和客户项目中的 Dataproc 集群上运行的流水线。

部署流水线。

Cloud Data Fusion 中的服务帐号

服务帐号可为 Cloud Data Fusion 提供身份,该身份可让 Cloud Data Fusion 访问您的资源。

启用 Cloud Data Fusion API 后,Cloud Data Fusion 会创建一个由 Google 代管的服务帐号,以便有权访问如下资源:Service Networking、Dataproc、Cloud Storage、BigQuery、Cloud Spanner 和 Cloud Bigtable 资源等。此服务帐号称为 Cloud Data Fusion API Service Agent。角色将自动授予此服务代理。

服务帐号由其电子邮件地址(对该帐号是唯一的)标识。

下表列出了 Cloud Data Fusion 中使用的服务帐号类型。如需了解详情,请参阅 IAM 文档中的服务帐号类型

服务帐号 说明
service-customer-project-number@gcp-sa- datafusion.iam.gserviceaccount.com Google 代管的服务帐号(称为 Cloud Data Fusion API Service Agent),Cloud Data Fusion 会创建该帐号以获得对客户资源的访问权限,以便其代表客户执行操作。它在租户项目中用于访问客户项目资源。例如,预览版在内存(而不是 Dataproc 集群)中运行。
customer-project-number- compute@developer.gserviceaccount.com Cloud Data Fusion 创建的默认的 Compute Engine 服务帐号,用于部署访问其他 Google Cloud 资源的作业。默认情况下,它会挂接到 Dataproc 集群虚拟机,以使 Cloud Data Fusion 在流水线运行期间能够访问 Dataproc 资源。在 Cloud Data Fusion 企业版中,通过从 Cloud Data Fusion 控制台→系统管理员→“配置”标签页创建配置文件并添加自定义服务帐户,您可以从用户管理的服务帐号运行流水线。在 6.2.3 及更高版本中,您可以在创建 Cloud Data Fusion 实例时,选择要附加到 Dataproc 集群的自定义服务帐号。如需了解详情,请参阅 Dataproc 中的服务帐号
cloud-datafusion-management-sa@tenant-project- id.iam.gserviceaccount.com 已弃用。目前未创建或未使用此服务帐号。输出为 API 字段,以便查找要在对等互连中使用的租户项目名称(请参阅设置 VPC 网络对等互连)。

后续步骤