安全性

安全建议

对于需要强安全边界或隔离的工作负载,请考虑以下事项:

Authentication

Cloud Data Fusion 网页界面支持 Google Cloud 控制台支持的身份验证机制,并通过 Identity and Access Management 控制访问权限。

网络控制

您可以创建一个专用 Cloud Data Fusion 实例,该实例可与其 VPC 网络对等互连。私有 Cloud Data Fusion 实例具有专用 IP 地址,并且不会向公共互联网公开。您可以使用 VPC Service Controls 为 Cloud Data Fusion 私有实例建立安全边界,从而提供额外的安全性。

如需了解详情,请参阅 Cloud Data Fusion 网络概览

在预先创建的专用 IP Dataproc 集群上执行流水线

您可以将私有 Cloud Data Fusion 实例与远程 Hadoop 预配工具搭配使用。Dataproc 集群必须位于与 Cloud Data Fusion 对等互连的 VPC 网络上。远程 Hadoop 预配程序配置了 Dataproc 集群的主节点的专用 IP 地址。

访问权限控制

  • 管理对 Cloud Data Fusion 实例的访问权限:启用了 RBAC 的实例支持通过 Identity and Access Management 在命名空间级别管理访问权限。已停用 RBAC 的实例仅支持在实例级层管理访问权限。如果您有权访问某一实例,则有权访问该实例中的所有流水线和元数据。

  • 对数据流水线的流水线访问权限:通过授予对服务账号的访问权限(该账号是您指定的自定义服务账号)提供数据访问流水线。

防火墙规则

对于流水线执行,可以针对流水线在其中执行的客户 VPC 设置适当的防火墙规则,从而控制入站流量和出站流量。

如需了解详情,请参阅防火墙规则

密钥存储

密码、密钥和其他数据安全地存储在 Cloud Data Fusion 中,并使用存储在 Cloud Key Management Service 中的密钥进行加密。在运行时,Cloud Data Fusion 会调用 Cloud Key Management Service 来检索用于解密存储的密钥的密钥。

加密

默认情况下,使用 Google 管理的加密密钥对静态数据进行加密,并使用 TLS v1.2 对传输中的数据进行加密。您可以使用客户管理的加密密钥 (CMEK) 来控制由 Cloud Data Fusion 流水线写入的数据,包括 Dataproc 集群元数据和 Cloud Storage、BigQuery 和 Pub/Sub 数据源和接收器。

服务账号

Cloud Data Fusion 流水线在客户项目的 Dataproc 集群中执行,并且可以配置为使用客户指定的(自定义)服务账号运行。自定义服务账号必须被授予 Service Account User 角色。

项目

Cloud Data Fusion 服务是在用户无法访问的 Google 管理的租户项目中创建的。Cloud Data Fusion 流水线在客户项目中的 Dataproc 集群上执行。客户可在集群的生命周期内访问这些集群。

部署流水线。

审核日志

您可以从 Logging 获得 Cloud Data Fusion 审核日志。

插件和工件

操作员和管理员应谨慎安装不受信任的插件或工件,因为它们可能会带来安全风险。

员工身份联合

员工身份联合用户可以在 Cloud Data Fusion 中执行操作,例如创建、删除、升级和列出实例。如需详细了解限制,请参阅员工身份联合:支持的产品和限制