本页介绍了如何在 Cloud Data Fusion 中使用服务账号。如需了解详情,请参阅使用服务账号。
租户和客户项目
Cloud Data Fusion 设置服务账号,以访问以下项目中的资源:
- 租户项目
Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目不会向您公开,但在创建私有实例时,您可能需要使用租户项目名称来设置 VPC 对等互连。
如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。
- 客户项目
您创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建临时 Dataproc 集群,以运行您的流水线。
下图展示了在租户项目中运行的 Cloud Data Fusion 实例和客户项目中的 Dataproc 集群上运行的流水线。
![在 Cloud Data Fusion 中部署流水线。](https://cloud.google.com/static/data-fusion/docs/images/concepts/cdf-projects-2x.png?authuser=002&hl=zh-cn)
Cloud Data Fusion 中的服务账号
服务账号可为 Cloud Data Fusion 提供身份,该身份可让 Cloud Data Fusion 访问您的资源。
启用 Cloud Data Fusion API 并创建 Cloud Data Fusion 实例后,系统会向您的项目添加一个服务账号,以便访问 Service Networking、Dataproc、Cloud Storage、BigQuery、Spanner 和 Bigtable 等资源。此服务账号称为 Cloud Data Fusion API Service Agent。系统会自动向此服务代理授予角色。
服务账号由其电子邮件地址(对该账号是唯一的)标识。
Cloud Data Fusion 中使用以下类型的服务账号。如需了解详情,请参阅服务账号类型。
服务账号 | 说明 |
---|---|
service-CUSTOMER_PROJECT_NUMBER@gcp-sa-
datafusion.iam.gserviceaccount.com |
服务代理(称为 Cloud Data Fusion API Service Agent),Cloud Data Fusion 会创建该代理以获得对客户资源的访问权限,以便其代表客户执行操作。它在租户项目中用于访问客户项目资源。例如,预览版在内存(而不是 Dataproc 集群)中运行。 默认情况下,分配给 Cloud Data Fusion 服务账号的 Cloud Data Fusion API Service Agent ( |
CUSTOMER_PROJECT_NUMBER-
compute@developer.gserviceaccount.com |
Cloud Data Fusion 创建的默认的 Compute Engine 服务账号,用于部署访问其他 Google Cloud 资源的作业。默认情况下,它会挂接到 Dataproc 集群虚拟机,以使 Cloud Data Fusion 在流水线运行期间能够访问 Dataproc 资源。在 Cloud Data Fusion 企业版中,通过从 Cloud Data Fusion 控制台→系统管理员→“配置”标签页创建配置文件并添加自定义服务账号,您可以从用户管理的服务账号运行流水线。在 6.2.3 及更高版本中,您可以在创建 Cloud Data Fusion 实例时,选择要附加到 Dataproc 集群的自定义服务账号。如需了解详情,请参阅 Dataproc 中的服务账号。 |
后续步骤
- 了解如何控制对数据的访问权限。
- 向服务账号用户授予权限。
- 参阅 Cloud Data Fusion 价格。