Cloud Data Fusion 中的服务账号

本页面介绍了如何在 Cloud Data Fusion 中使用服务账号。对于 详情请参阅使用服务账号

租户和客户项目

Cloud Data Fusion 设置服务账号,以访问以下项目中的资源:

租户项目

Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目不会提供给您,但当您创建 专用实例,您可能需要使用租户项目名称来设置 VPC 对等互联。

如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。

客户项目

您创建并拥有此项目。默认情况下,Cloud Data Fusion 会创建一个 临时 Dataproc 集群,以运行您的 流水线。

下图展示了在租户项目中运行的 Cloud Data Fusion 实例和客户项目中的 Dataproc 集群上运行的流水线。

部署流水线。

Cloud Data Fusion 中的服务账号

服务账号可为 Cloud Data Fusion 提供身份,该身份可让 Cloud Data Fusion 访问您的资源。

当您启用 Cloud Data Fusion API 时,Cloud Data Fusion 会创建一个 服务账号,以访问 Service Networking、 Dataproc、Cloud Storage、BigQuery、Spanner、 和 Bigtable 资源。此服务账号称为 Cloud Data Fusion API Service Agent。 系统会自动将角色授予此服务代理。

服务账号由其电子邮件地址(对该账号是唯一的)标识。

Cloud Data Fusion 中使用的以下类型的服务账号。有关 相关信息,请参阅服务账号类型

服务账号 说明
service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com 服务代理,称为 Cloud Data Fusion API Service Agent, Cloud Data Fusion 为访问客户资源而创建的, 可以代表客户执行操作。它在租户项目中用于访问客户项目资源。例如: 预览在内存而不是 Dataproc 集群中运行。
CUSTOMER_PROJECT_NUMBER- compute@developer.gserviceaccount.com Cloud Data Fusion 创建的默认的 Compute Engine 服务账号,用于部署访问其他 Google Cloud 资源的作业。默认情况下,它会挂接到 Dataproc 集群虚拟机,以使 Cloud Data Fusion 在流水线运行期间能够访问 Dataproc 资源。在 Cloud Data Fusion 企业版 您可以通过用户管理的服务账号运行流水线 使用 Cloud Data Fusion 创建配置文件 控制台→系统管理员→配置标签页并添加自定义服务 。在 6.2.3 及更高版本中,您可以在创建 Cloud Data Fusion 实例时,选择要附加到 Dataproc 集群的自定义服务账号。如需了解详情,请参阅 Dataproc 中的服务账号

后续步骤