本页面介绍了如何在 Cloud Data Fusion 中使用服务账号。如需了解详情,请参阅使用服务帐号。
租户和客户项目
Cloud Data Fusion 设置服务账号,以访问以下项目中的资源:
- 租户项目
Cloud Data Fusion 会创建一个租户项目来保存代表您管理流水线所需的资源和服务。例如:在客户项目中的 Dataproc 集群上运行流水线。租户项目不会公开给您,但创建专用实例时,您可能需要使用租户项目名称来设置 VPC 对等互连。
如需了解详情,请参阅有关租户项目的 Service Infrastructure 文档。
- 客户项目
您创建并拥有此项目。默认情况下,Cloud Data Fusion 会在此项目中创建一个临时 Dataproc 集群来运行流水线。
下图展示了在租户项目中运行的 Cloud Data Fusion 实例和客户项目中的 Dataproc 集群上运行的流水线。
![部署流水线。](https://cloud.google.com/static/data-fusion/docs/images/concepts/cdf-projects-2x.png?authuser=0&hl=zh-cn)
Cloud Data Fusion 中的服务账号
服务账号可为 Cloud Data Fusion 提供身份,该身份可让 Cloud Data Fusion 访问您的资源。
启用 Cloud Data Fusion API 时,Cloud Data Fusion 会创建一个服务帐号,以便访问 Service Networking、Dataproc、Cloud Storage、BigQuery、Spanner 和 Bigtable 资源等资源。此服务帐号称为 Cloud Data Fusion API Service Agent。系统会自动将角色授予此服务代理。
服务账号由其电子邮件地址(对该账号是唯一的)标识。
Cloud Data Fusion 中使用的以下类型的服务帐号。如需了解详情,请参阅服务帐号类型。
服务账号 | 说明 |
---|---|
service-CUSTOMER_PROJECT_NUMBER@gcp-sa-
datafusion.iam.gserviceaccount.com |
服务代理,称为 Cloud Data Fusion API Service Agent,由 Cloud Data Fusion 创建,用于获取客户资源的访问权限,从而代表客户执行操作。它在租户项目中用于访问客户项目资源。例如,预览版在内存而不是 Dataproc 集群中运行。 |
CUSTOMER_PROJECT_NUMBER-
compute@developer.gserviceaccount.com |
Cloud Data Fusion 创建的默认的 Compute Engine 服务账号,用于部署访问其他 Google Cloud 资源的作业。默认情况下,它会挂接到 Dataproc 集群虚拟机,以使 Cloud Data Fusion 在流水线运行期间能够访问 Dataproc 资源。在 Cloud Data Fusion 企业版中,您可以通过从用户代管式服务运行流水线,方法是从 Cloud Data Fusion 控制台→“系统管理员”→“配置”标签页创建配置文件,然后添加自定义服务帐号。在 6.2.3 及更高版本中,您可以在创建 Cloud Data Fusion 实例时,选择要附加到 Dataproc 集群的自定义服务账号。如需了解详情,请参阅 Dataproc 中的服务账号。 |
后续步骤
- 了解如何控制对数据的访问权限。
- 向 Service Account User 授予相关权限。
- 参阅 Cloud Data Fusion pricing。