Cloud Data Fusion 服务帐号

准备工作

了解 Identity and Access Management 中服务帐号的工作原理

租户和客户项目

Cloud Data Fusion 设置服务帐号,以访问以下项目中的资源:

租户项目

Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目不会向您公开,但在您创建私有实例时,您可能需要使用租户项目名称来设置 VPC 对等互连。

如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

您创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群来运行流水线。

下图展示了在租户项目中运行的 Cloud Data Fusion 实例和客户项目中的 Dataproc 集群上运行的流水线。

部署流水线。

Cloud Data Fusion 中的服务帐号

服务帐号可为 Cloud Data Fusion 提供身份,该身份可让 Cloud Data Fusion 访问您的资源。

启用 Cloud Data Fusion API 后,Cloud Data Fusion 会创建一个由 Google 代管的服务帐号,以便有权访问如下资源:Service Networking、Dataproc、Cloud Storage、BigQuery、Cloud Spanner 和 Cloud Bigtable 资源等。此服务帐号称为 Cloud Data Fusion API Service Agent。系统会自动将角色授予此服务代理。

服务帐号由其电子邮件地址(对该帐号是唯一的)标识。

Cloud Data Fusion 中使用的以下类型的服务帐号。如需了解详情,请参阅服务帐号类型

服务帐号 说明
service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com Google 管理的服务帐号,称为 Cloud Data Fusion API Service Agent,由 Cloud Data Fusion 创建,以获取客户资源访问权限,以便可以代表客户执行操作。它在租户项目中用于访问客户项目资源。例如,预览版在内存中运行,而不是在 Dataproc 集群中运行。
CUSTOMER_PROJECT_NUMBER- compute@developer.gserviceaccount.com Cloud Data Fusion 创建的默认的 Compute Engine 服务帐号,用于部署访问其他 Google Cloud 资源的作业。默认情况下,它会挂接到 Dataproc 集群虚拟机,以使 Cloud Data Fusion 在流水线运行期间能够访问 Dataproc 资源。在 Cloud Data Fusion 企业版中,您可以从用户管理的服务帐号运行流水线,方法是从 Cloud Data Fusion 控制台→系统管理员 → 配置标签页,然后添加自定义服务帐号。在 6.2.3 及更高版本中,您可以在创建 Cloud Data Fusion 实例时,选择要附加到 Dataproc 集群的自定义服务帐号。如需了解详情,请参阅 Dataproc 中的服务帐号
cloud-datafusion-management-sa@TENANT_PROJECT_ID .iam.gserviceaccount.com 已弃用。目前未创建或未使用此服务帐号。输出为 API 字段,以便查找要在对等互连中使用的租户项目名称(请参阅设置 VPC 网络对等互连)。

后续步骤