安全

身份验证

Cloud Data Fusion 网页界面支持 Google Cloud Console 支持的身份验证机制,并通过 Identity and Access Management 控制访问权限。

网络控制

您可以创建一个专用 Cloud Data Fusion 实例,该实例可与其 VPC 网络对等互连。私有 Cloud Data Fusion 实例具有专用 IP 地址,并且不会向公共互联网公开。您可以使用 VPC Service Controls 为 Cloud Data Fusion 私有实例建立安全边界,从而提供额外的安全性。

如需了解详情,请参阅 Cloud Data Fusion 网络概览

在预先创建的专用 IP Dataproc 集群上执行流水线

您可以将私有 Cloud Data Fusion 实例与远程 Hadoop 预配工具搭配使用。Dataproc 集群必须位于与 Cloud Data Fusion 对等互连的 VPC 网络上。远程 Hadoop 预配程序配置了 Dataproc 集群的主节点的专用 IP 地址。

访问权限控制机制

  • 管理对 Cloud Data Fusion 实例的访问权限:Cloud Data Fusion 仅支持实例级层管理访问权限。如果您有权访问某一实例,则有权访问该实例中的所有流水线和元数据。

  • 对数据流水线的流水线访问权限:通过授予对服务帐号的访问权限(该帐号是您指定的自定义服务帐号)提供数据访问流水线。

最终用户对 Cloud Data Fusion 资源的访问权限

Cloud Data Fusion 资源是在 Google 拥有的租户项目中创建的。Cloud Data Fusion 不提供对租户项目中底层 Cloud Data Fusion 虚拟机实例和资源的访问权限。

防火墙规则

对于流水线执行,可以针对流水线在其中执行的客户 VPC 设置适当的防火墙规则,从而控制入站流量和出站流量。

如需了解详情,请参阅防火墙规则

密钥存储

您可以将密码、密钥和其他数据安全存储在 Cloud Key Management Service 中。在运行时,Cloud Data Fusion 会调用 Cloud Key Management Service 来检索密钥。

加密

默认情况下,使用 Google 管理的加密密钥对静态数据进行加密,并使用 TLS v1.2 对传输中的数据进行加密。您可以使用客户管理的加密密钥 (CMEK) 来控制由 Cloud Data Fusion 流水线写入的数据,包括 Dataproc 集群元数据和 Cloud Storage、BigQuery 和 Pub/Sub 数据源和接收器。

服务帐号

Cloud Data Fusion 流水线在客户项目的 Dataproc 集群中执行,并且可以配置为使用客户指定的(自定义)服务帐号运行。自定义服务帐号必须被授予 Service Account User 角色。

项目

Cloud Data Fusion 服务是在用户无法访问的 Google 管理的租户项目中创建的。Cloud Data Fusion 流水线在客户项目中的 Dataproc 集群上执行。客户可在集群的生命周期内访问这些集群。

部署流水线。

审核日志

您可以从 Logging 获得 Cloud Data Fusion 审核日志。

插件和工件

操作员和管理员应谨慎安装不受信任的插件或工件,因为它们可能会带来安全风险。