此页面由 Cloud Translation API 翻译。

将数据导入安全的 BigQuery 数据仓库

Last reviewed 2025-06-15 UTC

许多组织会部署用于存储敏感数据的数据仓库，以便分析数据以用于各种业务目的。本文档适用于使用 BigQuery 部署和保护数据仓库安全的数据工程师和安全管理员。它是蓝图的一部分，由以下各项组成：

两个 GitHub 代码库（terraform-google-secured-data-warehouse 和 terraform-google-secured-data-warehouse-onprem-ingest），其中包含 Terraform 配置和脚本。Terraform 配置会在 Google Cloud 中设置环境，以支持用于存储机密数据的数据仓库。 Google Cloud
此蓝图的架构、设计和安全控制的指南（本文档）。
部署示例环境的演示。

本文档讨论了以下内容：

可用于帮助保护生产环境中的数据仓库安全的架构和服务。 Google Cloud
从外部网络（例如本地环境）将数据导入到 BigQuery 的最佳实践。
在Google Cloud中创建、部署和操作数据仓库时有关数据治理的最佳实践，包括：
- 数据去标识化
- 差分处理机密数据
- 列级加密
- 列级访问权限控制

本文档假定您已按照企业基础蓝图中所述配置了一组基本的安全控制措施。它可以帮助您在现有安全控制机制上额外增加一层控制机制，以帮助保护数据仓库中的机密数据。

数据仓库用例

此蓝图支持以下应用场景：

使用 terraform-google-secured-data-warehouse 代码库将数据从 Google Cloud 导入 BigQuery 数据仓库
使用 terraform-google-secured-data-warehouse-onprem-ingest 代码库将数据从本地环境或其他云导入 BigQuery 数据仓库

概览

借助 BigQuery 等数据仓库，企业可以分析其商家数据以获取数据分析。分析师可以访问存储在数据仓库中的商家数据，以生成数据分析。如果您的数据仓库包含机密数据，则必须采取相应的措施，以便在存储数据时、在数据传输过程中或在分析数据时确保商家数据的安全性、机密性、完整性和可用性。在此蓝图中，您将执行以下操作：

从外部数据源导入数据时，请对位于 Google Cloud 之外（例如在本地环境中）的数据进行加密，然后将其导入 Google Cloud。
配置有助于保护对机密数据的访问的控制机制。
配置有助于保护数据流水线的控制机制。
为不同的角色配置适当的职责分离。
从 Google Cloud 中导入其他来源（也称为内部数据源）的数据时，请设置模板以查找机密数据并对其进行去标识化。
设置适当的安全控制机制和日志记录以帮助保护机密数据。
使用数据分类、政策标记、动态数据遮盖和列级加密来限制对数据仓库中特定列的访问权限。

架构

如需创建机密数据仓库，您需要安全地导入数据，然后将数据存储在 VPC Service Controls 边界中。

从 Google Cloud导入数据时的架构

下图显示了当您使用 terraform-google-secured-data-warehouse 代码库从 Google Cloud 导入源数据时，系统如何对提取的数据进行分类、去标识化和存储。本文档还介绍了如何按需重标识机密数据以进行分析。

适用于内部来源的敏感数据仓库架构。

从外部来源导入数据时的架构

下图展示了当您使用 terraform-google-secured-data-warehouse-onprem-ingest 代码库将数据从本地环境或其他云导入 BigQuery 数据仓库时，系统如何提取和存储数据。

适用于外部网络的敏感数据仓库架构。

Google Cloud 服务和功能

这些架构结合使用了以下 Google Cloud 服务和功能：

服务或功能	说明
BigQuery	适用于内部和外部数据源。不过，您可以选择不同的存储方案，如下所示：从 Google Cloud导入数据时，BigQuery 会将机密数据存储在机密数据边界内。从外部来源导入数据时，BigQuery 会将加密数据和封装的加密密钥存储在单独的表中。 BigQuery 采用各种安全控制措施来帮助保护内容，包括访问权限控制、用于机密数据的列级别安全性和数据加密。
将 Cloud Key Management Service (Cloud KMS) 与 Cloud HSM 搭配使用	适用于内部和外部来源。不过，外部数据源还有一个额外的用例。 Cloud HSM 是一种云端硬件安全模块 (HSM) 服务，负责托管密钥加密密钥 (KEK)。从外部来源导入数据时，您可以使用 Cloud HSM 生成加密密钥，以便在将数据发送到 Google Cloud之前对网络中的数据进行加密。
Cloud Logging	适用于内部和外部来源。 Cloud Logging 可从服务中收集所有日志，供您的分析和调查工具进行存储和检索。 Google Cloud
Cloud Monitoring	适用于内部和外部来源。 Cloud Monitoring 会收集并存储有关 Google Cloud 服务的性能信息和指标。
Cloud Run functions	仅适用于外部数据源。 Cloud Run functions 由 Cloud Storage 触发，并将 Cloud Storage 上传到注入存储桶的数据写入 BigQuery。
Cloud Storage 和 Pub/Sub	适用于内部和外部来源。 Cloud Storage 和 Pub/Sub 按如下方式接收数据： Cloud Storage：接收和存储批量数据。默认情况下，Cloud Storage 会使用 TLS 来加密传输中的数据，此外也会对存储空间中的数据进行 AES-256 加密。加密密钥是客户管理的加密密钥 (CMEK)。如需详细了解加密，请参阅数据加密选项。您可以使用 Identity and Access Management、访问权限控制列表 (ACL) 和政策文档等安全控制措施来帮助保护对 Cloud Storage 存储分区的访问。如需详细了解支持的访问权限控制，请参阅访问权限控制概览。 Pub/Sub：在去标识化之前接收和存储流式数据。Pub/Sub 通过 CMEK 使用身份验证、访问权限控制和消息级加密等功能来保护您的数据。
适用于 BigQuery 的数据性能分析器	适用于内部和外部来源。 BigQuery 数据分析器会自动扫描整个组织（包括所有文件夹和项目）中的所有 BigQuery 表和列，以查找敏感数据。
Dataflow 流水线	适用于内部和外部来源；不过，存在不同的数据流水线。 Dataflow 流水线会按如下方式导入数据：从 Google Cloud导入数据时，两个 Dataflow 流水线会对机密数据进行去标识化和重标识。第一个流水线使用假名化对机密数据进行去标识化。第二个流水线在已获授权的用户需要访问权限时重标识机密数据。从外部来源导入数据时，一个 Dataflow 流水线会将流式数据写入 BigQuery。
Dataplex Universal Catalog	适用于内部和外部来源。 Dataplex Universal Catalog 会在数据注入期间自动使用元数据（也称为政策标记）对机密数据进行分类。Dataplex Universal Catalog 还会使用元数据来管理对机密数据的访问权限。如需控制对数据仓库内数据的访问权限，请将政策标记应用于包含机密数据的列。
专用互连	仅适用于外部数据源。借助专用互连，您可以在自己的网络和 Google Cloud之间移动数据。您可以使用其他连接选项，如选择 Network Connectivity 产品中所述。
IAM 和 Resource Manager	适用于内部和外部来源。 Identity and Access Management (IAM) 和 Resource Manager 限制访问权限和细分资源。访问权限控制和资源层次结构遵循最小权限原则。
Security Command Center	适用于内部和外部来源。 Security Command Center 在一个中心位置监控和审核来自 Google Cloud环境的安全发现结果。
Sensitive Data Protection	适用于内部和外部来源；不过，扫描方式有所不同。 Sensitive Data Protection 会按如下方式扫描数据：从 Google Cloud导入数据时，敏感数据保护功能会在数据提取期间对机密数据进行去标识化处理。敏感数据保护会根据检测到的 infoType 或记录对结构化和非结构化数据进行去标识化。从外部来源导入数据时，敏感数据保护功能会扫描存储在 BigQuery 中的数据，以查找未受保护的任何敏感数据。如需了解详情，请参阅使用敏感数据保护扫描 BigQuery 数据。
VPC Service Controls	适用于内部和外部来源；不过，存在不同的边界。 VPC Service Controls 通过设置授权、访问权限控制和安全数据交换来创建隔离服务和资源的安全边界。边界如下所示：数据注入边界接受传入数据（批量或流式）并对其进行去标识化。单独的着陆可用区有助于保护其余工作负载免受传入数据的影响。从 Google Cloud导入数据时，机密数据边界可以重新识别机密数据并将其存储在受限区域。导入外部数据时，数据边界会将加密数据与其他工作负载隔离。治理边界会存储加密密钥，并定义哪些数据被视为机密数据。这些边界旨在保护传入的内容，通过设置额外的访问权限控制和监控来隔离机密数据，并将治理与仓库中的实际数据分开。治理包括密钥管理、数据目录管理和日志记录。

组织结构

您可以对组织的资源进行分组，以便对其进行管理，并将测试环境与生产环境分离。借助 Resource Manager，您可以按项目、文件夹和组织对资源进行逻辑分组。

下图展示了一个资源层次结构，其中的文件夹代表不同环境（例如引导、通用、生产、非生产 [或预演]和开发）。您可以将架构中的大多数项目部署到生产文件夹中，并将数据治理项目部署到用于治理的通用文件夹中。

从 Google Cloud导入数据时的组织结构

下图显示了使用 terraform-google-secured-data-warehouse 代码库从Google Cloud 导入数据时的组织结构。

适用于内部来源的敏感数据仓库的资源层次结构。

从外部来源导入数据时的组织结构

下图显示了使用 terraform-google-secured-data-warehouse-onprem-ingest 代码库从外部来源导入数据时的组织结构。

外部来源敏感数据仓库的资源层次结构。

文件夹

您可以使用文件夹将生产环境和治理服务与非生产环境和测试环境隔离开来。下表介绍了企业基础蓝图中此架构使用的文件夹。

文件夹	说明
引导	包含部署企业基础蓝图所需的资源。
常用	包含组织的集中式服务，例如数据治理项目。
生产	包含具有云资源的项目，此类资源已经过测试并且可供使用。在此架构中，生产环境”文件夹包含数据注入项目和与数据相关的项目。
非生产	包含其云资源正在测试并预演进行发布的项目。在此架构中，“Non-production”文件夹包含数据注入项目和数据相关项目。
开发	包含其云资源正在开发的项目。在此架构中，“Development”文件夹包含数据注入项目和与数据相关的项目。

您可以更改这些文件夹的名称，以与组织的文件夹结构一致，但我们建议您保持类似的结构。如需了解详情，请参阅企业基础蓝图。

项目

您可以使用项目隔离环境的某些部分。下表介绍了组织内所需的项目。您将在运行 Terraform 代码时创建这些项目。您可以更改这些项目的名称，但我们建议您保持类似的项目结构。

项目	说明
数据注入	适用于内部和外部来源的通用项目。包含接收数据以及对机密数据进行去标识化所需的服务。
数据治理	适用于内部和外部来源的通用项目。包含用于提供密钥管理、日志记录和数据编目功能的服务。
非机密数据	仅供内部来源使用的项目。包含存储已去标识化的数据所需的服务。
机密数据	仅供内部来源使用的项目。包含存储和重标识机密数据所需的服务。
数据	仅适用于外部来源的项目。包含存储数据所需的服务。

除了这些项目之外，您的环境还必须包含负责托管 Dataflow Flex 模板作业的项目。流式数据流水线需要使用 Flex 模板作业。

将角色和群组映射到项目

您必须为组织中的不同用户群组授予对构成机密数据仓库的项目的访问权限。以下部分介绍了针对您创建的项目中的用户群组和角色分配的架构建议。您可以自定义群组以匹配组织的现有结构，但我们建议您保持类似的职责划分和角色分配。

数据分析师群组

数据分析师负责分析仓库中的数据。在 terraform-google-secured-data-warehouse-onprem-ingest 代码库中，该群组可以在将数据加载到数据仓库中后查看这些数据，并执行与加密数据查看者群组相同的操作。

下表介绍了该群组在 terraform-google-secured-data-warehouse 代码库的不同项目中的角色（仅限内部数据源）。

项目映射角色

项目映射	角色
数据注入	Dataflow Developer (`roles/dataflow.developer`) Dataflow Viewer (`roles/dataflow.viewer`) Logs Viewer (`roles/logging.viewer`) 需要访问机密数据的数据分析师具有的其他角色：精细读取器 (`roles/datacatalog.categoryFineGrainedReader`)
机密数据	BigQuery Data Viewer (`roles/bigquery.dataViewer`) BigQuery Job User (`roles/bigquery.jobUser`) BigQuery User (`roles/bigquery.user`) Dataflow Developer (`roles/dataflow.developer`) Dataflow Viewer (`roles/dataflow.viewer`) Logs Viewer (`roles/logging.viewer`)
非机密数据	BigQuery Data Viewer (`roles/bigquery.dataViewer`) BigQuery Job User (`roles/bigquery.jobUser`) BigQuery User (`roles/bigquery.user`) Logs Viewer (`roles/logging.viewer`)

数据注入

需要访问机密数据的数据分析师具有的其他角色：

精细读取器 (roles/datacatalog.categoryFineGrainedReader)

机密数据

非机密数据

下表介绍了该群组在 terraform-google-secured-data-warehouse-onprem-ingest 代码库的不同项目中的角色（仅限外部数据源）。

分配范围	角色
数据提取项目	Dataflow Developer (`roles/dataflow.developer`) Dataflow Viewer (`roles/dataflow.viewer`) Logs Viewer (`roles/logging.viewer`)
数据项目	BigQuery Data Viewer (`roles/bigquery.dataViewer`) BigQuery Job User (`roles/bigquery.jobUser`) BigQuery User (`roles/bigquery.user`) Dataflow Developer (`roles/dataflow.developer`) Dataflow Viewer (`roles/dataflow.viewer`) DLP Administrator (`roles/dlp.admin`) Logs Viewer (`roles/logging.viewer`)
数据政策级别	Masked Reader (`roles/bigquerydatapolicy.maskedReader`)

加密的数据查看者群组（仅限外部来源）

terraform-google-secured-data-warehouse-onprem-ingest 代码库中的“加密数据查看者”群组可以通过 Looker Studio 和其他报告工具（例如 SAP Business Objects）查看 BigQuery 报告中的加密数据。加密数据查看者群组无法查看加密列中的明文数据。

此群组需要数据项目中的 BigQuery User (roles/bigquery.jobUser) 角色。此群组还需要数据政策级别的 Masked Reader (roles/bigquerydatapolicy.maskedReader) 角色。

明文读取方群组（仅限外部来源）

terraform-google-secured-data-warehouse-onprem-ingest 代码库中的明文读取器组具有调用解密用户定义的函数 (UDF) 以查看明文数据的必要权限，以及读取未脱敏数据的额外权限。

此群组需要数据项目中的以下角色：

此外，此群组还需要 Dataplex Universal Catalog 级别的 Fine-Grained Reader (roles/datacatalog.categoryFineGrainedReader) 角色。

数据工程师群组

数据工程师负责设置和维护数据流水线和仓库。

下表介绍了该群组在 terraform-google-secured-data-warehouse 代码库的不同项目中的角色。

作业得分	角色
数据提取项目	Cloud Build Editor (`roles/cloudbuild.builds.editor`) Cloud KMS Viewer (`roles/cloudkms.viewer`) Composer User (`roles/composer.user`) Compute Network User (`roles/compute.networkUser`) Dataflow Admin (`roles/dataflow.admin`) Logs Viewer (`roles/logging.viewer`)
机密数据项目	BigQuery Data Editor (`roles/bigquery.dataEditor`) BigQuery Job User (`roles/bigquery.jobUser`) Cloud Build Editor (`roles/cloudbuild.builds.editor`) Cloud KMS Viewer (`roles/cloudkms.viewer`) Compute Network User (`roles/compute.networkUser`) Dataflow Admin (`roles/dataflow.admin`) Logs Viewer (`roles/logging.viewer`)
非机密数据项目	BigQuery Data Editor (`roles/bigquery.dataEditor`) BigQuery Job User (`roles/bigquery.jobUser`) Cloud KMS Viewer (`roles/cloudkms.viewer`) Logs Viewer (`roles/logging.viewer`)

下表介绍了该群组在 terraform-google-secured-data-warehouse-onprem-ingest 代码库的不同项目中的角色。

分配范围	角色
数据提取项目	Cloud Build Editor (`roles/cloudbuild.builds.editor`) Cloud KMS Viewer (`roles/cloudkms.viewer`) Composer User (`roles/composer.user`) Compute Network User (`roles/compute.networkUser`) Dataflow Admin (`roles/dataflow.admin`) Logs Viewer (`roles/logging.viewer`)
数据项目	BigQuery Data Editor (`roles/bigquery.dataEditor`) BigQuery Job User (`roles/bigquery.jobUser`) Cloud Build Editor (`roles/cloudbuild.builds.editor`) Cloud KMS Viewer (`roles/cloudkms.viewer`) Compute Network User (`roles/compute.networkUser`) Dataflow Admin (`roles/dataflow.admin`) DLP Administrator (`roles/dlp.admin`) Logs Viewer (`roles/logging.viewer`)

网络管理员群组

网络管理员负责配置网络。通常，他们是网络团队的成员。

网络管理员需要在组织级层具有以下角色：

安全管理员群组

安全管理员负责管理安全控制，例如访问权限、密钥、防火墙规则、VPC Service Controls 和 Security Command Center。

安全管理员需要在组织级层具有以下角色：

安全分析师群组

安全分析师负责监控并响应安全突发事件和敏感数据保护发现结果。

安全分析师需要在组织级层具有以下角色：

外部来源的群组访问权限流程示例

以下部分介绍了使用 terraform-google-secured-data-warehouse-onprem-ingest 代码库从外部来源导入数据时，两个群组的访问流程。

加密数据查看者群组的访问流程

下图展示了当“加密数据查看者”群组中的用户尝试访问 BigQuery 中的加密数据时会发生的情况。

加密的数据查看者群组的流程。

如需访问 BigQuery 中的数据，请按以下步骤操作：

加密的数据查看者会在 BigQuery 上执行以下查询以访问机密数据：
```
SELECT ssn, pan FROM cc_card_table
```
BigQuery 会按如下方式验证访问权限：
- 系统使用有效且未过期的凭据对用户进行身份验证。 Google Cloud
- 发出请求的用户身份和 IP 地址属于 VPC Service Controls 边界上访问权限级别或入站流量规则的许可名单。
- IAM 会验证用户是否具有适当的角色，以及是否有权访问 BigQuery 表中的部分加密列。

BigQuery 会以加密格式返回机密数据。

明文读取方群组的访问流程

下图显示了当“纯文本读取器”群组中的用户尝试访问 BigQuery 中的加密数据时会发生的情况。

明文读取方群组的流程。

如需访问 BigQuery 中的数据，请按以下步骤操作：

纯文本读取器会在 BigQuery 上执行以下查询，以访问已解密格式的机密数据：
```
SELECT decrypt_ssn(ssn) FROM cc_card_table
```
BigQuery 会在查询中调用解密用户定义的函数 (UDF) 以访问受保护的列。
访问权限的验证方式如下：
- IAM 会验证用户是否具有适当的角色，以及是否有权访问 BigQuery 上的解密 UDF。
- UDF 会检索用于保护敏感数据列的封装数据加密密钥 (DEK)。
解密 UDF 会调用 Cloud HSM 中的密钥加密密钥 (KEK) 来解封 DEK。解密 UDF 使用 BigQuery AEAD 解密函数解密敏感数据列。
系统会向用户授予对敏感数据列中的明文数据的访问权限。

常见的安全控制措施

以下部分介绍了适用于内部和外部来源的控制措施。

数据提取控件

如需创建数据仓库，您必须从其他Google Cloud 来源（例如数据湖）、本地环境或其他云转移数据。您可以使用以下方式之一将数据转移到 BigQuery 上的数据仓库：

使用 Cloud Storage 的批量作业。
使用 Pub/Sub 的流式作业。

为了帮助在提取期间保护数据，您可以使用客户端加密功能、防火墙规则和访问权限级别政策。提取过程有时称为提取、转换和加载 (ETL) 过程。

网络和防火墙规则

Virtual Private Cloud (VPC) 防火墙规则可控制流向边界的数据流。您可以创建拒绝所有出站流量的防火墙规则，但来自 restricted.googleapis.com 特殊域名的特定 TCP 端口 443 连接除外。restricted.googleapis.com 网域具有以下优势：

在工作负载与 Google API 和服务通信时，该网域可使用专用 Google 访问通道缩小网络受攻击面。
该网络可确保您仅使用支持 VPC Service Controls 的服务。

如需了解详情，请参阅配置专用 Google 访问通道。

使用 terraform-google-secured-data-warehouse 代码库时，您必须为每个 Dataflow 作业配置单独的子网。单独的子网可确保要去标识化的数据与要重标识的数据正确分离。

数据流水线要求您在防火墙中打开 TCP 端口，如相应代码库中的 dataflow_firewall.tf 文件所定义。如需了解详情，请参阅配置互联网访问权限和防火墙规则。

如需拒绝资源使用外部 IP 地址，请将为虚拟机实例定义允许的外部 IP 地址 (compute.vmExternalIpAccess) 组织政策设置为拒绝全部。

边界控制措施

如架构图所示，您需要将数据仓库的资源放入单独的边界中。如需让不同边界中的服务共享数据，请创建边界网桥。

边界网桥允许受保护的服务请求其边界外的资源。这些桥接会为 terraform-google-secured-data-warehouse 代码库建立以下连接：

它们会将数据注入项目连接到治理项目，以便在注入期间进行去标识化。
它们会连接非机密数据项目和机密数据项目，以便在数据分析师请求时可以重标识机密数据。
它们会将机密项目连接到数据治理项目，以便在数据分析师请求时进行重标识。

这些桥接会为 terraform-google-secured-data-warehouse-onprem-ingest 代码库建立以下连接：

它们会将数据注入项目连接到数据项目，以便将数据注入到 BigQuery 中。
它们会将数据项目连接到数据治理项目，以便敏感数据保护功能可以扫描 BigQuery 以查找未受保护的机密数据。
它们会将数据注入项目连接到数据治理项目，以便访问日志记录、监控和加密密钥。

除了边界网桥之外，您还可以使用出站流量规则来允许受服务边界保护的资源访问边界外的资源。在此解决方案中，您将配置出站流量规则，以获取位于外部项目的 Cloud Storage 中的外部 Dataflow Flex 模板作业。如需了解详情，请参阅访问边界外的 Google Cloud 资源。

访问政策

为帮助确保只有特定身份（用户或服务）才能访问资源和数据，您需要启用 IAM 群组和角色。

为帮助确保只有特定来源才能访问您的项目，您需要为 Google 组织启用访问权限政策。我们建议您创建访问权限政策，以指定请求的允许 IP 地址范围，并且仅允许来自特定用户或服务账号的请求。如需了解详情，请参阅访问权限级别特性。

服务账号和访问权限控制

服务账号是 Google Cloud 可用于代表您运行 API 请求的身份。服务账号可确保用户身份无法直接访问服务。如需实现职责分离，请创建具有特定用途的不同角色的服务账号。这些服务账号在每个架构的 data-ingestion 模块和 confidential-data 模块中定义。

对于 terraform-google-secured-data-warehouse 代码库，服务账号如下所示：

用于对机密数据进行去标识化的 Dataflow 流水线的 Dataflow 控制器服务账号。
用于对机密数据进行重标识的 Dataflow 流水线的 Dataflow 控制器服务账号。
用于从批量文件注入数据的 Cloud Storage 服务账号。
用于从流式服务注入数据的 Pub/Sub 服务账号。
用于运行创建 Dataflow 流水线的 Dataflow 批量作业的 Cloud Scheduler 服务账号。

下表列出了分配给每个服务账号的角色：

服务账号	名称	项目	角色
Dataflow 控制器此账号用于去标识化。	`sa-dataflow-controller`	数据注入	BigQuery Admin `roles/bigquery.admin` Cloud KMS Admin (`roles/cloudkms.admin`) Cloud KMS CryptoKey Decrypter (`roles/cloudkms.cryptoKeyDecrypter`) Compute Viewer (`roles/compute.viewer`) Dataflow Worker (`roles/dataflow.worker`) DLP Administrator (`roles/dlp.admin`) Pub/Sub Subscriber (`roles/pubsub.subscriber`) Storage Admin (`roles/storage.admin`) Dataflow Service Agent (`roles/dataflow.serviceAgent`)
Dataflow 控制器此账号用于重标识。	`sa-dataflow-controller-reid`	机密数据	BigQuery Admin `roles/bigquery.admin` Cloud KMS Admin (`roles/cloudkms.admin`) Cloud KMS CryptoKey Decrypter (`roles/cloudkms.cryptoKeyDecrypter`) Compute Viewer (`roles/compute.viewer`) Dataflow Worker (`roles/dataflow.worker`) DLP Administrator (`roles/dlp.admin`) Pub/Sub Subscriber (`roles/pubsub.subscriber`) Storage Admin (`roles/storage.admin`) Dataflow Service Agent (`roles/dataflow.serviceAgent`)
Cloud Storage	`sa-storage-writer`	数据注入	Storage Object Creator (`roles/storage.objectCreator`) Storage Object Viewer (`roles/storage.ObjectViewer`)
Pub/Sub	`sa-pubsub-writer`	数据注入	Pub/Sub Publisher (`roles/pubsub.publisher`) Pub/Sub Subscriber (`roles/pubsub.subscriber`)
Cloud Scheduler	`sa-scheduler-controller`	数据注入	Compute Viewer (`roles/compute.viewer`) Dataflow Developer (`roles/dataflow.developer`)

对于 terraform-google-secured-data-warehouse-onprem-ingest 代码库，服务账号如下所示：

Cloud Storage 服务账号对注入存储桶运行自动批量数据上传流程。
Pub/Sub 服务账号可将数据流式传输到 Pub/Sub 服务。
Dataflow 控制器服务账号由 Dataflow 流水线用于转换数据并将数据从 Pub/Sub 写入 BigQuery。
Cloud Run functions 服务账号将从 Cloud Storage 上传的后续批量数据写入 BigQuery。
Storage Upload 服务账号允许 ETL 流水线创建对象。
Pub/Sub Write 服务账号可让 ETL 流水线将数据写入 Pub/Sub。

下表列出了分配给每个服务账号的角色：

名称	角色	分配范围
Dataflow 控制器服务账号	BigQuery Data Editor (`roles/bigquery.dataEditor`) BigQuery Job User (`roles/bigquery.jobUser`) Dataflow Developer (`roles/dataflow.developer`) Dataflow Worker (`roles/dataflow.worker`) Pub/Sub Editor (`roles/pubsub.editor`) Pub/Sub Subscriber (`roles/pubsub.subscriber`) Service Usage Consumer (`roles/serviceusage.serviceUsageConsumer`) Storage Object Viewer (`roles/storage.ObjectViewer`)	数据提取项目
	BigQuery Data Editor (`roles/bigquery.dataEditor`) BigQuery Metadata Viewer (`roles/bigquery.metadataViewer`)	数据项目
	DLP Inspect Findings Reader (`roles/dlp.deidentifyTemplatesReader`) DLP Inspect Templates Editor (`roles/dlp.inspectTemplatesReader`) DLP User (`roles/dlp.user`)	数据治理
Cloud Run functions 服务账号	BigQuery Data Editor (`roles/bigquery.dataEditor`) BigQuery Job User (`roles/bigquery.jobUser`) Cloud Run Invoker (`roles/run.invoker`) Eventarc Event Receiver (`roles/eventarc.eventReceiver`)	数据提取项目
	BigQuery Data Editor (`roles/bigquery.dataEditor`) BigQuery Metadata Viewer (`roles/bigquery.metadataViewer`)	数据项目
Storage Upload 服务账号	Storage Object Creator (`roles/storage.objectCreator`) Storage Object Viewer (`roles/storage.ObjectViewer`)	数据提取项目
Pub/Sub Write 服务账号	Pub/Sub Publisher (`roles/pubsub.publisher`) Pub/Sub Subscriber (`roles/pubsub.subscriber`)	数据提取项目

组织政策

此架构包含企业基础蓝图使用的组织政策限制条件，并添加了一些额外的限制条件。如需详细了解企业基础蓝图使用的限制条件，请参阅组织政策限制条件。

下表介绍了在 org_policies 模块中针对相应代码库定义的其他组织政策限制条件：

政策	限制条件名称	推荐值
限制资源部署到特定物理位置。如需了解其他值，请参阅值组。	`gcp.resourceLocations`	以下各项之一： `in:us-locations` `in:eu-locations` `in:asia-locations`
停用服务账号创建功能	`iam.disableServiceAccountCreation`	`true`
为在项目中创建的虚拟机启用 OS Login。	`compute.requireOsLogin`	`true`
根据 IP 地址将新转发规则仅限于内部。	`compute.restrictProtocolForwardingCreationForTypes`	`INTERNAL`
定义 Compute Engine 资源可以使用的一组共享 VPC 子网。	`compute.restrictSharedVpcSubnetworks`	`projects//regions//s ubnetworks/`。替换为您希望架构使用的专用子网的资源 ID。
停用将串行端口输出记录到 Cloud Logging 的功能。	`compute.disableSerialPortLogging`	`true`
要求 CMEK 保护（仅限 `terraform-google-secured-data-warehouse-onprem-ingest`）	`gcp.restrictNonCmekServices`	`bigquery.googleapis.com`
停用服务账号密钥创建功能 (`terraform-google-secured-data-warehouse-onprem-ingest only`)	`disableServiceAccountKeyCreation`	true
为在项目中创建的虚拟机启用 OS Login (`terraform-google-secured-data-warehouse-onprem-ingest only`)	`compute.requireOsLogin`	true
停用对默认服务账号的自动角色授予功能 (`terraform-google-secured-data-warehouse-onprem-ingest only`)	`automaticIamGrantsForDefaultServiceAccounts`	true
允许使用的入站流量设置 (Cloud Run 函数) (`terraform-google-secured-data-warehouse-onprem-ingest only`)	`cloudfunctions.allowedIngressSettings`	`ALLOW_INTERNAL_AND_GCLB`

外部数据源的安全控制措施

以下部分介绍了适用于从外部来源提取数据的控件。

与 Google Cloud建立了加密连接

从外部来源导入数据时，您可以使用 Cloud VPN 或 Cloud Interconnect 来保护在 Google Cloud和您的环境之间传输的所有数据。对于这种企业架构，建议使用专用互连，因为它可提供直接连接和高吞吐量，这对于流式传输大量数据非常重要。

如需允许从您的环境访问 Google Cloud ，您必须在访问权限级别政策规则中定义许可名单 IP 地址。

客户端加密

在将敏感数据移至 Google Cloud之前，请先在本地对数据进行加密，以帮助保护静态数据和传输中的数据。您可以使用 Tink 加密库，也可以使用其他加密库。Tink 加密库与 BigQuery AEAD 加密兼容，该架构会在数据导入后使用该加密方法解密列级加密数据。

Tink 加密库使用的是您可以在本地或 Cloud HSM 中生成的 DEK。如需封装或保护 DEK，您可以使用在 Cloud HSM 中生成的 KEK。KEK 是一个对称 CMEK 加密密钥集，安全存储在 Cloud HSM 中并使用 IAM 角色和权限进行管理。

在注入期间，封装的 DEK 和数据存储在 BigQuery 中。BigQuery 包含两个表：一个用于存储数据，另一个用于存储封装的 DEK。当分析师需要查看机密数据时，BigQuery 可以使用 AEAD 解密功能通过 KEK 解封 DEK，然后解密受保护的列。

此外，使用 Tink 的客户端加密功能可加密 BigQuery 中的敏感数据列，从而进一步保护您的数据。该架构使用以下 Cloud HSM 加密密钥：

用于提取过程的 CMEK 密钥，该密钥还供 Pub/Sub、用于流式传输的 Dataflow 流水线、Cloud Storage 批量上传以及用于后续批量上传的 Cloud Run 函数工件使用。
Cloud HSM 使用 Tink 为在您的网络上加密的数据封装的加密密钥。
数据项目中的 BigQuery 仓库的 CMEK 密钥。

您可以指定 CMEK 位置，用于确定可存储密钥并使其可供访问的地理位置。您必须确保 CMEK 与资源位于同一位置。默认情况下，CMEK 每 30 天轮替一次。

如果贵组织的合规性义务要求您从 Google Cloud外部管理自己的密钥，则您可以启用 Cloud External Key Manager。如果您使用外部密钥，则您需要自行负责密钥管理活动，包括密钥轮替。

动态数据遮盖

为了便于大规模共享和应用数据访问政策，您可以配置动态数据遮盖。借助动态数据遮盖功能，现有查询可以使用以下条件自动遮盖列数据：

在查询运行时应用于列的数据遮盖规则。
分配给运行查询的用户的角色。如需访问未脱敏的列数据，数据分析师必须具有 Fine-Grained Reader 角色。

如需在 BigQuery 中定义列的访问权限，请创建政策标记。例如，在独立示例中创建的分类会为包含无法公开的数据（例如信用额度）的列创建 1_Sensitive 政策标记。系统会对这些列应用默认的数据脱敏规则，以隐藏列的值。

任何未标记的内容都可供所有有权访问数据仓库的用户使用。这些访问权限控制可确保即使在将数据写入 BigQuery 后，仍无法读取敏感字段中的数据，除非为用户明确授予了访问权限。

列级加密和解密

借助列级加密，您可以在更精细的级别加密 BigQuery 中的数据。您可以选择在 BigQuery 中包含敏感数据的列，而不是加密整个表，并且系统只会加密这些列。BigQuery 使用 AEAD 加密和解密函数来创建包含加密和解密密钥的密钥集。然后，这些密钥会用于对表中的个别值进行加密和解密，以及轮替密钥集内的密钥。列级加密可对 BigQuery 中的加密数据提供双重访问权限控制，因为用户必须同时拥有表和加密密钥的权限，才能读取明文数据。

适用于启用了敏感数据保护功能的 BigQuery 的数据分析器

借助数据分析器，您可以确定 BigQuery 表中敏感数据和高风险数据的位置。数据分析器会自动扫描和分析整个组织（包括所有文件夹和项目）中的所有 BigQuery 表和列。然后，数据分析器会输出预测的 infoTypes、评估的数据风险和敏感度级别，以及有关表的元数据等指标。利用这些数据洞见，您可以就如何保护、共享和使用您的数据做出明智的决策。

适用于内部数据源的安全控制措施

以下部分介绍了适用于从Google Cloud 来源提取数据的控件。

用于注入的密钥管理和加密

这两种提取选项（Cloud Storage 或 Pub/Sub）都使用 Cloud HSM 来管理 CMEK。您可以使用 CMEK 密钥在提取期间帮助保护数据。Sensitive Data Protection 可使用您配置的检测器加密机密数据，从而进一步保护您的数据。

如需注入数据，请使用以下加密密钥：

用于提取过程的 CMEK 密钥，该密钥还供 Dataflow 流水线和 Pub/Sub 服务使用。
Cloud HSM 使用 Sensitive Data Protection 为数据去标识化过程封装的加密密钥。
两个 CMEK 密钥，一个用于非机密数据项目中的 BigQuery 仓库，另一个用于机密数据项目中的仓库。如需了解详情，请参阅密钥管理。

您可以指定 CMEK 位置，用于确定可存储密钥并使其可供访问的地理位置。您必须确保 CMEK 与资源位于同一位置。默认情况下，CMEK 每 30 天轮替一次。

如果贵组织的合规性义务要求您从 Google Cloud外部管理自己的密钥，则您可以启用 Cloud EKM。如果您使用外部密钥，则您需要自行负责密钥管理活动，包括密钥轮替。

数据去标识化

您可以使用敏感数据保护在注入阶段对结构化和非结构化数据进行去标识化。对于结构化数据，您可以使用基于字段的记录转换来对数据进行去标识化。如需查看此方法的示例，请参阅 /examples/de_identification_template/ 文件夹。此示例会检查结构化数据中是否包含任何信用卡号和卡 PIN 码。对于非结构化数据，您可以使用信息类型来对数据进行去标识化。

如需对标记为机密的数据进行去标识化处理，您可以使用敏感数据保护和 Dataflow 流水线对其进行标记化处理。此流水线会从 Cloud Storage 中获取数据，处理数据，然后将其发送到 BigQuery 数据仓库。

如需详细了解数据去标识化过程，请参阅数据治理。

列级访问权限控制

为了帮助保护机密数据，请对 BigQuery 仓库中的特定列使用访问权限控制。如需访问这些列中的数据，数据分析师必须具有“精细读取者”角色。

如需在 BigQuery 中定义列的访问权限，请创建政策标记。例如，bigquery-confidential-data 示例模块中的 taxonomy.tf 文件可创建以下标记：

3_Confidential 政策标记，用于包含极敏感信息（如信用卡号）的列。有权访问此标记的用户也能够访问标记有 2_Private 或 1_Sensitive 政策标记的列。
2_Private 政策标记，用于包含敏感个人身份信息 (PII)（例如某人的名字）的列。有权访问此标记的用户也有权访问标记有 1_Sensitive 政策标记的列。用户无权访问标记有 3_Confidential 政策标记的列。
1_Sensitive 政策标记，用于包含无法公开的数据（例如信用额度）的列。有权访问此标记的用户无权访问标记有 2_Private 或 3_Confidential 政策标记的列。

任何未标记的内容都可供所有有权访问数据仓库的用户使用。

这些访问权限控制可确保即使在重标识数据后，仍无法读取数据，除非为用户明确授予了访问权限。

注意：您可以使用默认定义来运行示例。如需了解更多最佳实践，请参阅在 BigQuery 中使用政策标记的最佳实践。

角色受限的服务账号

您必须限制对机密数据项目的访问权限，以便只有已获授权的用户才能查看机密数据。为此，您需要创建一个具有 Service Account User (roles/iam.serviceAccountUser) 角色的服务账号，授权用户必须模拟该角色。服务账号模拟使用户无需下载服务账号密钥便可使用服务账号，从而提高项目的整体安全性。该模拟会创建允许拥有 Service Account Token Creator (roles/iam.serviceAccountTokenCreator) 角色的授权用户下载的短期令牌。

用于存储和重标识的密钥管理和加密

您可以为机密数据管理单独的 CMEK 密钥，以便对数据进行重标识。您可以使用 Cloud HSM 来保护您的密钥。如需重标识数据，请使用以下密钥：

Dataflow 流水线用于重标识过程的 CMEK 密钥。
敏感数据保护用于对数据进行去标识化的原始加密密钥。
机密数据项目中的 BigQuery 仓库的 CMEK 密钥。

如用于注入的密钥管理和加密中所述，您可以指定 CMEK 位置和轮替周期。如果贵组织需要，您可以使用 Cloud EKM。

运维

您可以启用日志记录和 Security Command Center Premium 或 Enterprise 层级功能，例如安全性分析和事件威胁检测。这些控制措施可帮助您执行以下操作：

监控谁在访问您的数据。
确保已设置适当的审核流程。
针对配置错误的云资源生成发现结果
支持事件管理和运维团队能够应对可能发生的问题。

Access Transparency

Access Transparency 可在 Google 员工要求访问您的数据时为您提供实时通知。每当有人访问内容时，系统都会生成 Access Transparency 日志，并且只有具备正当业务理由（例如支持请求）的 Google 员工才能获取访问权限。

日志记录

为了帮助您满足审核要求并深入了解您的项目，请使用您要跟踪的服务的数据日志配置 Google Cloud Observability。代码库中的 centralized-logging 模块会配置以下最佳实践：

跨所有项目创建聚合日志接收器。
将日志存储在相应区域中。
将 CMEK 密钥添加到日志记录接收器。

对于项目中的所有服务，您的日志必须包含有关数据读取和写入的信息以及有关管理员所读取内容的信息。如需了解其他日志记录最佳实践，请参阅检测控制措施。

提醒和监控

部署架构后，您可以设置提醒，以通知您的安全运营中心 (SOC) 可能存在安全事件。例如，您可以使用提醒，让安全分析师知道 IAM 权限何时发生更改。如需详细了解如何配置 Security Command Center 提醒，请参阅设置发现结果通知。对于 Security Command Center 未发布的其他提醒，您可以使用 Cloud Monitoring 设置此类提醒。

其他安全注意事项

除了本文档中介绍的安全控制措施之外，您还应检查和管理使用此解决方案时重叠且相互作用的关键方面的安全性和风险。包括：

用于配置、部署和运行 Dataflow 作业和 Cloud Run functions 函数的代码的安全性。
与此解决方案搭配使用的“数据分类”分类。
生成和管理加密密钥。
您在数据仓库中存储和分析的数据集的内容、质量和安全性。
在其中部署解决方案的整体环境，包括：
- 连接到此解决方案的网络的设计、分段和安全性。
- 组织的 IAM 控制的安全性和治理。
- 您向其授予对此解决方案一部分的基础架构的访问权限，以及有权访问在该基础架构中存储和管理的数据的操作者的身份验证和授权设置。

综合应用

如需实现本文档中所述的架构，请执行以下操作：

确定您将使用企业基础蓝图部署此架构还是单独部署此架构。如果您选择不部署企业基础蓝图，请确保您的环境设置了类似的安全基准。
如需从外部来源导入数据，请与您的网络设置专用互连连接。
查看 terraform-google-secured-data-warehouse 自述文件或 terraform-google-secured-data-warehouse-onprem-ingest 自述文件，并确保满足所有前提条件。
按照组织结构中所述，验证您的用户身份具有贵组织“Development”文件夹的 Service Account User (roles/iam.serviceAccountUser) 和 Service Account Token Creator Service Account Token Creator (roles/iam.serviceAccountTokenCreator) 角色。如果您没有用于测试的文件夹，请创建文件夹并配置访问权限。
记录您的结算账号 ID、组织的显示名称、测试或演示文件夹的 ID，以及以下用户组的电子邮件地址：
- 数据分析师
- 加密的数据查看者
- 纯文本读取器
- 数据工程师
- 网络管理员
- 安全管理员
- 安全分析师
创建项目。如需查看必须启用的 API 列表，请参阅自述文件。
为 Terraform 创建服务账号，并为所有项目分配适当的角色。
设置访问权限控制政策。
对于 Google Cloud 使用 terraform-google-secured-data-warehouse 代码库的数据源，请在测试环境中部署演示，以查看解决方案的实际运用。在测试过程中，请考虑以下各项：
1. 将您自己的示例数据添加到 BigQuery 仓库中。
2. 与企业中的数据分析师合作，测试他们对机密数据的访问权限，以及他们是否可以按照预期的方式与 BigQuery 中的数据进行交互。
对于使用 terraform-google-secured-data-warehouse-onprem-ingest 代码库的外部数据源，请在测试环境中部署解决方案：
1. 克隆并运行 Terraform 脚本，以在Google Cloud中设置环境。
2. 在您的网络上安装 Tink 加密库。
3. 设置应用默认凭据，以便在您的网络上运行 Tink 库。
4. 使用 Cloud KMS 创建加密密钥。
5. 使用 Tinkoff 生成加密密钥集。
6. 使用以下任一方法使用 Tink 加密数据：
  - 使用确定性加密。
  - 使用包含示例数据的辅助脚本。
7. 使用流式上传或批量上传将加密的数据上传到 BigQuery。

对于外部数据源，请验证是否有权用户可以使用 BigQuery AEAD 解密函数从 BigQuery 读取未加密数据。例如，运行以下创建解密函数：

运行创建视图查询：

CREATE OR REPLACE VIEW `{project_id}.{bigquery_dataset}.decryption_view` AS

SELECT
 Card_Type_Code,
 Issuing_Bank,
 Card_Number,
 `bigquery_dataset.decrypt`(Card_Number) AS Card_Number_Decrypted
FROM `project_id.dataset.table_name`

从视图运行选择查询：

SELECT
  Card_Type_Code,
  Issuing_Bank,
  Card_Number,
  Card_Number_Decrypted
FROM
`{project_id}.{bigquery_dataset}.decrypted_view`

如需了解其他查询和用例，请参阅使用 Cloud KMS 进行列级加密。

使用 Security Command Center 根据您的合规性要求扫描新创建的项目。
将架构部署到生产环境中。

后续步骤

查看企业基础蓝图，了解基准安全环境。
如需查看架构的详细信息，请参阅适用于内部数据源 (terraform-google-secured-data-warehouse 代码库) 的 Terraform 配置自述文件，或参阅适用于外部数据源 (terraform-google-secured-data-warehouse-onprem-ingest 代码库) 的 Terraform 配置自述文件。

将数据导入安全的 BigQuery 数据仓库 使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。