Cloud Data Fusion 中的服务账号

本页介绍了如何在 Cloud Data Fusion 中使用服务账号。如需了解详情,请参阅使用服务账号

租户和客户项目

Cloud Data Fusion 设置服务账号,以访问以下项目中的资源:

租户项目

Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目不会向您公开,但在创建私有实例时,您可能需要使用租户项目名称来设置 VPC 对等互连。

如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

您创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群,以运行您的流水线。

下图展示了在租户项目中运行的 Cloud Data Fusion 实例和客户项目中的 Dataproc 集群上运行的流水线。

部署流水线。

Cloud Data Fusion 中的服务账号

服务账号可为 Cloud Data Fusion 提供身份,该身份可让 Cloud Data Fusion 访问您的资源。

启用 Cloud Data Fusion API 后,Cloud Data Fusion 会创建一个服务账号,以便有权访问如下资源:Service Networking、Dataproc、Cloud Storage、BigQuery、Spanner 和 Bigtable 资源等。此服务账号称为 Cloud Data Fusion API Service Agent。系统会自动向此服务代理授予角色。

服务账号由其电子邮件地址(对该账号是唯一的)标识。

Cloud Data Fusion 中使用的服务账号类型如下。有关 相关信息,请参阅服务账号类型

服务账号 说明
service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com 服务代理,称为 Cloud Data Fusion API Service Agent, Cloud Data Fusion 为访问客户资源而创建的, 可以代表客户执行操作。它在租户项目中用于访问客户项目资源。例如: 预览在内存而不是 Dataproc 集群中运行。
CUSTOMER_PROJECT_NUMBER- compute@developer.gserviceaccount.com Cloud Data Fusion 创建的默认的 Compute Engine 服务账号,用于部署访问其他 Google Cloud 资源的作业。默认情况下,它会挂接到 Dataproc 集群虚拟机,以使 Cloud Data Fusion 在流水线运行期间能够访问 Dataproc 资源。在 Cloud Data Fusion 企业版中,通过从 Cloud Data Fusion 控制台→系统管理员→“配置”标签页创建配置文件并添加自定义服务账号,您可以从用户管理的服务账号运行流水线。在 6.2.3 及更高版本中,您可以在创建 Cloud Data Fusion 实例时,选择要附加到 Dataproc 集群的自定义服务账号。如需了解详情,请参阅 Dataproc 中的服务账号

后续步骤