适用于数据分析、AI 和联邦学习的机密计算

Last reviewed 2024-12-20 UTC

本文档简要介绍了机密计算,包括如何使用它来实现安全的数据协作、AI 模型训练和联邦学习。本文档还提供了有关Google Cloud 中的机密计算服务的信息,以及针对不同应用场景的架构参考。

本文档旨在帮助科技公司高管了解在金融服务和医疗保健等各个行业中,将机密计算与生成式 AI 和应用 AI 相结合所带来的业务潜力。

什么是机密计算?

传统的数据安全实践主要侧重于通过加密来保护静态数据和传输中的数据。机密计算通过解决数据在活跃使用期间的漏洞,增添了一层新的保护。这项技术可确保敏感信息在进行处理时保持机密性,从而有助于弥合数据安全方面的一个重大缺口。

机密计算环境通过基于硬件的可信执行环境 (TEE) 来实现对使用中的数据的保护。TEE 是处理器中的安全区域,可保护加载到其中的代码和数据的机密性和完整性。TEE 充当敏感操作的安全屋,即使系统遭到入侵,也能缓解数据面临的风险。借助机密计算,数据在处理期间可以在内存中保持加密状态。

例如,您可以将机密计算用于数据分析和机器学习,以帮助实现以下目标:

  • 增强隐私保护:对敏感数据集(例如医疗记录或财务数据)执行分析,而不会向底层基础设施或计算中所涉及的各方公开数据。
  • 实现安全协作:在多方的合并数据集上联合训练机器学习模型或执行分析,而不会向彼此透露各自的数据。机密计算有助于建立信任,并支持开发更稳健、更通用的模型,尤其是在医疗保健和金融等领域。
  • 改进数据安全:降低数据泄露和未经授权的访问风险,确保符合数据保护法规,例如《一般数据保护条例》(GDPR) 或《健康保险流通与责任法案》(HIPAA)。
  • 提高信任度和透明度:提供可验证的证据,证明计算是在安全环境中对预期数据执行的,从而提高利益相关方之间的信任度。

机密计算环境的运作方式

机密计算环境具有以下属性:

  • 运行时加密:处理器会使所有机密计算环境数据在内存中保持加密状态。任何试图直接从内存中读取机密计算环境数据的系统组件或硬件攻击者都只能看到加密数据。同样,加密可防止通过直接访问内存来修改机密计算环境数据。
  • 隔离:处理器会阻止对机密计算环境进行基于软件的访问。操作系统和其他应用只能通过特定接口与机密计算环境通信。
  • 证明:在机密计算上下文中,证明用于验证机密计算环境的可信度。借助证明,用户可以看到机密计算技术正在保护其数据的证据,因为证明可让您对 TEE 实例进行身份验证。

    在证明过程中,支持 TEE 的 CPU 芯片会生成实例衡量结果的加密签名报告(称为“证明报告”)。衡量结果随后会发送给证明服务。进程隔离证明用于对应用进行身份验证。虚拟机隔离证明用于对虚拟机、用于启动虚拟机的虚拟固件或两者进行身份验证。

  • 数据生命周期安全性:机密计算可创建安全的处理环境,为使用中的数据提供由硬件支持的保护。

机密计算技术

以下技术可实现机密计算:

  • 安全隔离区,也称为“基于应用的机密计算”
  • 机密虚拟机和 GPU,也称为“基于虚拟机的机密计算”

Google Cloud 使用机密虚拟机来实现机密计算。如需了解详情,请参阅在Google Cloud上实现机密计算

安全隔离区

安全隔离区是一种计算环境,它使用基于硬件的隔离,或是通过将 Hypervisor 置于可信计算基 (TCB) 内来隔离整个虚拟机,从而将代码和数据与操作系统隔离开来。安全隔离区旨在确保即使是对机器和操作系统拥有物理或根访问权限的用户,也无法了解安全隔离区内存的内容或篡改隔离区内代码的执行。安全隔离区的一个示例是 Intel Software Guard Extension (SGX)。

机密虚拟机和机密 GPU

机密虚拟机是一种使用基于硬件的内存加密来帮助保护数据和应用的虚拟机类型。机密虚拟机提供隔离和证明功能来提高安全性。机密虚拟机计算技术包括 AMD SEV、AMD SEV-SNP、Intel TDX、Arm CCA、IBM Z、IBM LinuxONE 和 Nvidia 机密 GPU。

机密 GPU 可帮助保护数据并加快计算速度,尤其是在云环境和共享环境中。它们使用基于硬件的加密和隔离技术来帮助保护在 GPU 上处理的数据,确保即使是云服务提供商或恶意方也无法访问敏感信息。

机密数据分析、AI 和联邦学习应用场景

以下部分提供了适用于各种行业的机密计算应用场景示例。

医疗保健和生命科学

机密计算可在组织间实现安全的数据共享和分析,同时保护患者隐私权。借助机密计算,医疗保健组织可以参与协作研究、疾病建模、药物研发和个性化治疗方案。

下表介绍了医疗保健行业中的一些机密计算示例用途。

使用场景 说明

疾病预测和早期检测

医院训练联邦学习模型,以从医学成像数据(例如,多个医院或医院区域的核磁共振成像扫描或 CT 扫描)中检测癌性病变,同时维护患者机密性。

实时患者监测

医疗保健提供方会分析来自穿戴式健康设备和移动健康类应用的数据,以便进行实时监测和提醒。例如,穿戴式设备会收集血糖水平、身体活动和饮食习惯方面的数据,以便提供个性化建议,并针对血糖波动发出预警。

协作式药物研发

制药公司利用专有数据集训练模型以加快药物研发速度,可加强协作,同时保护知识产权。

金融服务

借助机密计算,金融机构可以打造更安全、更具弹性的金融系统。

下表介绍了金融服务中的一些机密计算示例用途。

使用场景 说明

金融犯罪

金融机构可以通过共享可疑交易信息在反洗钱 (AML) 或一般欺诈模型工作方面进行协作,同时保护客户隐私权。借助机密计算,金融机构可以安全地分析这些共享数据,并训练模型以更有效地识别和破坏复杂的洗钱方案。

可保护隐私的信用风险评估

贷方可以使用更广泛的数据源(包括来自其他金融机构甚至非金融实体的数据)来评估信用风险。借助机密计算,贷方可以访问和分析这些数据,而不会向未经授权的各方公开,从而在维护数据隐私权的同时提高信用评分模型的准确率。

可保护隐私的价格发现

在金融行业,尤其是在场外交易市场或非流动性资产等领域,准确的定价至关重要。借助机密计算,多个机构可以协作计算出准确的价格,而无需相互透露敏感数据。

公共部门

借助机密计算,政府可以创建更透明、更高效且更有效的服务,同时保留对其数据的控制权和主权。

下表介绍了公共部门中的一些机密计算示例用途。

使用场景 说明

数字主权

机密计算可确保数据始终处于加密状态,即使在处理过程中也是如此。它可实现公民数据的安全云迁移,使数据可在混合云、公有云或多云环境中受到保护(即使数据托管在外部基础设施上)。机密计算可支持并促进数字主权和数字自治,为使用中的数据提供额外的数据控制和保护,从而使云服务提供商无法访问加密密钥。

多机构机密分析

机密计算可在多个政府机构(例如卫生、税务和教育机构)之间或是不同地区或国家的多个政府之间实现多方数据分析。机密计算有助于确保信任边界和数据隐私权受到保护,同时支持数据分析(使用数据泄露防护 [DLP]、大规模分析和政策引擎)以及 AI 训练和服务。

可信 AI

政府数据至关重要,可用于以可信的方式训练专用 AI 模型,以便改进内部服务以及公民互动。机密计算支持可信 AI 框架,可提供机密提示或机密检索增强生成 (RAG) 训练,以确保公民数据和模型的私密性和安全性。

供应链

借助机密计算,组织可以管理其供应链和可持续发展、开展协作并共享数据洞见,同时维护数据隐私权。

下表介绍了供应链中的一些机密计算示例用途。

使用场景 说明

需求预测和库存优化

借助机密计算,每个企业都可以根据自己的销售和库存数据训练自己的需求预测模型。这些模型随后会安全地聚合成全局模型,从而可用于更准确、更全面地了解整个供应链中的需求模式。

可保护隐私的供应商风险评估

供应商风险评估中涉及的每个组织(例如买方、金融机构和审核方)都会根据自己的数据训练自己的风险评估模型。这些模型会聚合在一起,以创建可保护隐私的全面供应商风险状况,从而有助于及早发现潜在的供应商风险、提高供应链弹性以及在供应商选择和管理方面做出更明智的决策。

碳足迹跟踪和减排

机密计算提供了一种解决方案,可应对在碳足迹跟踪和减排工作中面临的数据隐私权和透明度挑战。机密计算使组织可以共享和分析数据,而无需透露其原始形式,这可帮助组织做出明智的决策并采取有效行动,以实现更加符合可持续发展理念的未来。

数字广告

数字广告已不再使用第三方 Cookie,而是转向更注重隐私权保护的替代方案,例如 Privacy Sandbox。Privacy Sandbox 可为关键广告应用场景提供支持,同时限制跨站和应用跟踪。Privacy Sandbox 使用 TEE 来确保广告公司安全地处理用户数据。

您可以在以下数字广告应用场景中使用 TEE

  • 匹配算法:在数据集中查找对应项或关系。
  • 归因:将影响或事件与可能的原因相关联。
  • 聚合:根据原始数据计算摘要或统计信息。

在 Google Cloud上实现机密计算

Google Cloud 包含以下可实现机密计算的服务:

  • 机密虚拟机:为使用虚拟机的工作负载实现对使用中的数据的加密
  • Confidential GKE:为使用容器的工作负载实现对使用中的数据的加密
  • Dataflow 数据加密:为流式分析和机器学习实现对使用中的数据的加密
  • 机密 Dataproc:为数据处理实现对使用中的数据的加密理
  • Confidential Space:为联合数据分析和机器学习实现对使用中的数据的加密

借助这些服务,您可以缩小信任边界,从而减少有权访问机密数据的资源数量。例如,在没有机密计算的 Google Cloud环境中,信任边界包括Google Cloud 基础设施(硬件、Hypervisor 和主机操作系统)以及客户机操作系统。在包含机密计算(但不包含 Confidential Space)的 Google Cloud 环境中,信任边界仅包含客户机操作系统和应用。在具有 Confidential Space 的 Google Cloud环境中,信任边界仅为应用及其关联的内存空间。下表显示了如何通过机密计算和 Confidential Space 来缩小信任边界。

元素 不使用机密计算时的信任边界内 使用机密计算时的信任边界内 使用 Confidential Space 时的信任边界内

云堆栈和管理员

BIOS 和固件

主机操作系统和 Hypervisor

虚拟机客户机管理员

虚拟机客户机操作系统

是,已经过衡量和证明

应用

是,已经过衡量和证明

机密数据

Confidential Space 会在虚拟机内创建一个安全区域,以便为敏感数据和应用提供最高级别的隔离和保护。Confidential Space 的主要安全优势包括:

  • 纵深防御:在现有的机密计算技术之上添加了一层额外的安全保护。
  • 减少了攻击面:将应用与客户机操作系统中的潜在漏洞隔离开来。
  • 增强了控制功能:可在安全环境中对访问权限和许可进行精细控制。
  • 提高了信任度:对数据机密性和完整性提供更高级别的保证。

Confidential Space 专为处理高度敏感的工作负载而设计,尤其是在受监管的行业或涉及多方协作且数据隐私权至关重要的场景中。

适用于机密分析、AI 和联邦学习的架构参考

您可以在 Google Cloud 上实现机密计算,以应对以下应用场景:

  • 机密分析
  • 机密 AI
  • 机密联邦学习

以下部分详细介绍了适用于这些应用场景的架构,包括金融和医疗保健企业示例。

适用于医疗保健机构的机密分析架构

机密分析架构展示了多个医疗保健机构(例如提供方、生物制药和研究机构)如何协同工作来加快药物研究。此架构使用机密计算技术来创建数字净室,以用于运行机密协作分析。

此架构具有以下优势:

  • 增强型分析洞见:借助协作分析,医疗保健组织可以获得更广泛的分析洞见,并缩短增强型药物研发的上市期。
  • 数据隐私权:敏感交易数据始终处于加密状态,绝不会向其他参与者或 TEE 公开,从而确保机密性。
  • 法规遵从性:此架构可帮助医疗保健机构严格控制其数据,从而遵守数据保护法规。
  • 信任和协作:此架构可实现竞争机构之间的安全协作,从而促进药物研发方面的集体努力。

下图展示了此架构。

适用于医疗保健机构的机密分析架构图。

此架构中的关键组件包括:

  • TEE OLAP 聚合服务器:一个安全的隔离环境,用于进行机器学习模型训练和推理。TEE 中的数据和代码受到保护,免遭未经授权的访问,即使是来自底层操作系统或云服务提供商的访问也不例外。
  • 协作合作伙伴:参与的每个医疗机构都有一个本地环境,该环境充当机构的私有数据与 TEE 之间的中介。
  • 特定于提供方的加密数据:每个医疗保健机构都会存储自己的私有加密患者数据,其中包括电子健康记录。在分析过程中,这些数据始终处于加密状态,从而可确保数据隐私权。只有在验证了各个提供方的证明声明后,数据才会发布到 TEE。
  • 分析客户端:参与的医疗机构可以针对自己的数据运行机密查询,以获得即时的分析洞见。

适用于金融机构的机密 AI 架构

此架构模式展示了金融机构如何对欺诈检测模型进行协作训练,同时使用欺诈标签来保护其敏感交易数据的机密性。此架构使用机密计算技术来实现安全的多方机器学习。

此架构具有以下优势:

  • 增强型欺诈检测:协作训练使用更大、更多样化的数据集,从而生成更准确、更有效的欺诈检测模型。
  • 数据隐私权:敏感交易数据始终处于加密状态,绝不会向其他参与者或 TEE 公开,从而确保机密性。
  • 法规遵从性:此架构可帮助金融机构机构严格控制其数据,从而遵守数据保护法规。
  • 信任和协作:此架构可实现竞争机构之间的安全协作,促进打击金融欺诈的集体努力。

下图展示了此架构。

适用于金融机构的机密分析架构图。

此架构的关键组件包括:

  • TEE OLAP 聚合服务器:一个安全的隔离环境,用于进行机器学习模型训练和推理。TEE 中的数据和代码受到保护,免遭未经授权的访问,即使是来自底层操作系统或云服务提供商的访问也不例外。
  • TEE 模型训练:全局欺诈基本模型打包为容器,以运行机器学习训练。在 TEE 中,使用所有参与银行的加密数据进一步训练全局模型。训练过程采用联邦学习或安全多方计算等技术,以确保不会公开任何原始数据。
  • 协作方合作伙伴:参与的每个金融机构都有一个本地环境,该环境充当机构的私有数据与 TEE 之间的中介。
  • 特定于银行的加密数据:每个银行都持有自己的私有加密交易数据,其中包括欺诈标签。此数据在整个过程中始终保持加密状态,从而确保数据隐私权。只有在验证了各个银行的证明声明后,数据才会发布到 TEE。
  • 模型库:一种预训练的欺诈检测模型,可用作协作训练的起点。
  • 全局欺诈训练后模型和权重(以绿线表示):改进后的欺诈检测模型及其学习权重会安全地交换回参与银行。这些银行随后可以在本地部署此增强型模型,以便对自己的交易进行欺诈检测。

适用于金融机构的机密联邦学习架构

对于重视严格数据隐私权和数据主权的客户,联邦学习提供了一种高级解决方案。机密联邦学习架构为 AI 应用提供了一种安全、可扩缩且高效的数据使用方式。此架构将模型部署到数据存储位置,而不是将数据集中在单个位置,从而降低与数据泄露相关的风险。

此架构模式展示了多个金融机构如何对欺诈检测模型进行协作训练,同时使用欺诈标签来保护其敏感交易数据的机密性。它使用联邦学习和机密计算技术,无需移动训练数据即可实现安全的多方机器学习。

此架构具有以下优势:

  • 增强了数据隐私权和安全性:联邦学习可确保敏感数据保留在每个站点,从而实现数据隐私权和数据本地化。此外,金融机构还可以使用可保护隐私的技术(例如同态加密和差分隐私过滤条件)来进一步保护任何传输的数据(例如模型权重)。
  • 提高了准确率和多样性:通过使用不同客户端的各种数据源进行训练,金融机构可以开发出稳健且通用的全局模型,从而更好地表示异构数据集。
  • 可扩缩性和网络效率:借助在边缘执行训练的能力,机构可以在全球范围内扩缩联邦学习。此外,各机构只需传输模型权重,而无需传输整个数据集,这样可高效地使用网络资源。

下图展示了此架构。

机密联邦学习架构图。

此架构的关键组件包括:

  • TEE 集群中的联邦服务器:一个安全的隔离环境,联邦学习服务器在其中通过先向联邦学习客户端发送初始模型来编排多个客户端的协作。客户端在其本地数据集上执行训练,然后将模型更新发送回联邦学习服务器以进行聚合,从而形成全局模型。
  • 联邦学习模型库:一种预训练的欺诈检测模型,可用作联邦学习的起点。
  • 本地应用推理引擎:一种应用,它会执行各种任务,使用本地数据集执行本地计算和学习,并将结果提交回联邦学习服务器以进行安全聚合。
  • 本地私有数据:每个银行都持有自己的私有加密交易数据,其中包括欺诈标签。此数据在整个过程中始终保持加密状态,从而确保数据隐私权。
  • 安全聚合协议(以蓝色虚线表示):联合学习服务器无需访问任何个别银行的更新来训练模型;它只需要更新向量(从银行或站点的随机子集中获取)的按元素加权平均值。使用安全聚合协议计算这些加权平均值有助于确保服务器只能了解随机选择的子集中有一个或多个银行写入了给定字词,但无法确定具体银行,从而在联邦学习过程中保护每个参与者的隐私权。
  • 全局欺诈训练后模型和聚合权重(以绿线表示):改进后的欺诈检测模型及其学习权重会安全地发送回参与银行。这些银行随后可以在本地部署此增强型模型,以便对自己的交易进行欺诈检测。

后续步骤

贡献者