适用于生成式 AI 应用场景的 Cloud Storage 控制

本文档包含在运行使用 Google Cloud的生成式 AI 工作负载时,Cloud Storage 的最佳实践和指南。将 Cloud Storage 与 Vertex AI 搭配使用,以存储训练数据、模型制品和生产数据。

以下是将 Cloud Storage 与 Vertex AI 搭配使用的应用场景:

  • 存储训练数据:Vertex AI 可让您将训练数据集存储在 Cloud Storage 存储桶中。使用 Cloud Storage 有以下几项优势:
    • Cloud Storage 可以处理任意大小的数据集,让您能够使用海量数据训练模型,而无需担心存储空间限制。
    • 您可以对 Cloud Storage 存储桶设置精细的访问权限控制和加密,以确保敏感的训练数据受到保护。
    • Cloud Storage 可让您跟踪更改并恢复到之前的数据版本,从而提供有价值的审核轨迹并有助于重现训练实验。
    • Vertex AI 可与 Cloud Storage 无缝集成,让您能够在平台内访问训练数据。
  • 存储模型制品:您可以将训练好的模型制品(包括模型文件、超参数配置和训练日志)存储在 Cloud Storage 存储桶中。使用 Cloud Storage 可执行以下操作:
    • 将所有模型制品都保存在 Cloud Storage 中,以便集中访问和管理。
    • 跟踪和管理模型的不同版本,以便在需要时进行比较和回滚。
    • 向队友和协作者授予对特定 Cloud Storage 存储桶的访问权限,以便高效地共享模型。
  • 存储生产数据:对于生产环境中使用的模型,Cloud Storage 可以存储提供给模型用于预测的数据。例如,您可以使用 Cloud Storage 执行以下操作:
    • 存储用户数据和互动,以便实时提供个性化建议。
    • 保留图片,以便使用您的模型按需进行处理和分类。
    • 维护交易数据,以便使用模型实时识别欺诈行为。
  • 与其他服务集成:Cloud Storage 可与 Vertex AI 工作流中使用的其他 Google Cloud 服务无缝集成,例如:
    • Dataflow,用于简化数据预处理和转换流水线。
    • BigQuery:用于访问存储在 BigQuery 中的大型数据集,以进行模型训练和推理。
    • Cloud Run functions,用于根据模型预测或 Cloud Storage 存储桶中的数据变化执行操作。
  • 管理费用:Cloud Storage 采用随用随付的价格模式,这意味着您只需为实际使用的存储空间付费。这有助于提高成本效益,尤其是在处理大型数据集时。
  • 实现高可用性和高持久性:Cloud Storage 可确保您的数据具有高可用性,并能防范故障或中断,从而保证可靠性并提供对机器学习资产的稳定访问。
  • 启用多区域支持:将数据存储在地理位置上更靠近用户或应用的多个 Cloud Storage 区域中,从而提高性能并缩短数据访问和模型预测的延迟时间。

必需的 Cloud Storage 控制措施

使用 Cloud Storage 时,强烈建议您采取以下控制措施。

禁止公开访问 Cloud Storage 存储桶

Google 控制 ID GCS-CO-4.1
类别 必需
说明

storage.publicAccessPrevention 布尔值限制条件可防止通过互联网访问现有和未来的资源。它会停用并屏蔽向 allUsersallAuthenticatedUsers 授予访问权限的访问控制列表 (ACL) 和 Identity and Access Management (IAM) 权限。

适用的产品
  • 组织政策服务
  • Cloud Storage
路径 constraints/storage.publicAccessPrevention
运算符 ==
  • True
类型 布尔值
相关 NIST-800-53 控制措施
  • AC-3
  • AC-17
  • AC-20
相关 CRI 配置文件控制措施
  • PR.AC-3.1
  • PR.AC-3.2
  • PR.AC-4.1
  • PR.AC-4.2
  • PR.AC-4.3
  • PR.AC-6.1
  • PR.PT-3.1
  • PR.PT-4.1
相关信息

使用统一存储桶级访问权限

Google 控制 ID GCS-CO-4.2
类别 必需
说明

storage.uniformBucketLevelAccess 布尔值限制条件要求存储桶使用统一的存储桶级访问权限。借助统一存储桶级访问权限,您只能使用存储桶级 Identity and Access Management (IAM) 权限来授予对 Cloud Storage 资源的访问权限。

适用的产品
  • 组织政策服务
  • Cloud Storage
路径 constraints/storage.uniformBucketLevelAccess
运算符 ==
  • True
类型 布尔值
相关 NIST-800-53 控制措施
  • AC-3
  • AC-17
  • AC-20
相关 CRI 配置文件控制措施
  • PR.AC-3.1
  • PR.AC-3.2
  • PR.AC-4.1
  • PR.AC-4.2
  • PR.AC-4.3
  • PR.AC-6.1
  • PR.PT-3.1
  • PR.PT-4.1
相关信息

保护服务账号的 HMAC 密钥

Google 控制 ID GCS-CO-6.9
类别 必需
说明

HMAC 密钥是一种与 Cloud Storage 中的服务账号或用户账号相关联的长期有效的凭证。使用 HMAC 密钥创建签名,这些签名会包含在针对 Cloud Storage 的请求中。签名可证明用户或服务账号已授权某项请求。

与短期有效凭证(例如 OAuth 2.0 令牌)不同,HMAC 密钥不会自动失效,在手动撤销之前会一直有效。HMAC 密钥是高风险凭证:如果泄露,它们会提供对您资源的持久访问权限。您必须确保已采取适当的机制来帮助保护这些数据。

适用的产品
  • Cloud Storage
路径 storage.projects.hmacKeys/id
运算符 Exists
  • []
类型 字符串
相关 NIST-800-53 控制措施
  • SC-12
  • SC-13
相关 CRI 配置文件控制措施
  • PR.DS-1.1
  • PR.DS-1.2
  • PR.DS-2.1
  • PR.DS-2.2
  • PR.DS-5.1
相关信息

检测服务账号对 Cloud Storage 存储桶的枚举

Google 控制 ID GCS-CO-7.2
类别 必需
说明

服务账号是一种非人类身份,专为应用而设计,其行为可预测且自动化。通常,服务账号不需要列出各个存储桶,因为它们已经过映射。因此,如果您检测到某个服务账号尝试检索所有 Cloud Storage 存储桶的列表,请立即进行调查。侦察枚举通常被已获得服务账号访问权限的恶意方用作侦察技术。

适用的产品
  • Cloud Storage
  • Cloud Audit Logs
运算符 ==
  • storage.bucket.list
类型 字符串
相关 NIST-800-53 控制措施
  • AU-2
  • AU-3
  • AU-8
  • AU-9
相关 CRI 配置文件控制措施
  • DM.ED-7.1
  • DM.ED-7.2
  • DM.ED-7.3
  • DM.ED-7.4
  • PR.IP-1.4
相关信息

检测服务账号对 Cloud Storage 存储桶的 Identity and Access Management (IAM) 政策修改

Google 控制 ID GCS-CO-7.3
类别 必需
说明

配置一项提醒,用于检测 Cloud Storage 存储桶的 IAM 政策何时被修改为授予公开访问权限。当 allUsersallAuthenticatedUsers 主账号添加到存储桶的 IAM 政策时,系统会触发此提醒。此提醒属于严重程度为“严重”的高严重性事件,因为该事件可能会暴露存储桶中的所有数据。请立即调查此提醒,以确认相应更改是否已获得授权,或者是否表明存在配置错误或恶意行为者。

在提醒中,将 data.protoPayload.serviceData.policyData.bindingDeltas.member JSON 属性设置为 allUsersallAuthenticatedUsers,并将操作设置为 ADD

适用的产品
  • Cloud Storage
  • Cloud Audit Logs
相关 NIST-800-53 控制措施
  • AU-2
  • AU-3
  • AU-8
  • AU-9
相关 CRI 配置文件控制措施
  • DM.ED-7.1
  • DM.ED-7.2
  • DM.ED-7.3
  • DM.ED-7.4
  • PR.IP-1.4
相关信息

根据您在生成式 AI 方面的使用场景,我们建议您使用其他控制措施。这些控制措施包括数据保留控制措施,以及基于企业政策的其他政策驱动型控制措施。

确保 Cloud Storage 存储桶保留政策使用存储桶锁定

Google 控制 ID GCS-CO-6.1
类别 推荐
说明

根据您的监管要求,确保每个 Cloud Storage 存储桶保留政策都已锁定。将保留期限设置为满足您要求的时间范围。

适用的产品
  • Cloud Storage
路径 storage.buckets/retentionPolicy.isLocked
运算符 !=
  • True
类型 布尔值
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

为 SetStorageClass 操作设置生命周期规则

Google 控制 ID GCS-CO-6.11
类别 推荐
说明

将生命周期规则应用于具有 SetStorageClass 操作类型的每个 Cloud Storage 存储桶。

适用的产品
  • Cloud Storage
路径 storage.buckets/lifecycle.rule.action.type
运算符 ==
  • SetStorageClass
类型 字符串
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

为存储类别设置允许的区域

Google 控制 ID GCS-CO-6.12
类别 推荐
说明
确保生命周期配置的存储类别不在允许的区域分类范围内。
适用的产品
  • Cloud Storage
路径 storage.buckets/lifecycle.rule.action.storageClass
运算符 nin
  • MULTI_REGIONAL
  • REGIONAL
类型 字符串
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

为 Cloud Storage 存储桶启用生命周期管理

Google 控制 ID GCS-CO-6.13
类别 推荐
说明

确保已启用并配置 Cloud Storage 的生命周期管理。生命周期控制包含存储生命周期的配置。验证此设置中的政策是否符合您的要求。

适用的产品
  • Cloud Storage
路径 storage.buckets/lifecycle
运算符 Exists
  • []
类型 对象
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

为 Cloud Storage 存储桶启用生命周期管理规则

Google 控制 ID GCS-CO-6.14
类别 推荐
说明

确保已启用并配置 Cloud Storage 的生命周期管理规则。规则控制包含存储生命周期的配置。验证此设置中的政策是否符合您的要求。

适用的产品
  • Cloud Storage
路径 storage.buckets/lifecycle.rule
运算符 Empty
  • []
类型 数组
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

查看和评估活跃对象的暂时保全

Google 控制 ID GCS-CO-6.16
类别 推荐
说明

找出所有将 temporaryHold 设置为 TRUE 的对象,并开始调查和验证流程。此评估适用于以下使用情形:

  • 诉讼保全:为遵守数据存储方面的法律要求,暂时保全可用于防止删除可能与正在进行的调查或诉讼相关的敏感数据。
  • 数据泄露防护:为防止重要数据被意外删除,您可以采取临时中止措施来保护关键业务信息。
  • 内容审核:在可能敏感或不当的内容公开之前,暂时搁置上传到 Cloud Storage 的内容,以便进一步检查和做出审核决定。
适用的产品
  • Cloud Storage
路径 storage.objects/temporaryHold
运算符 ==
  • TRUE
类型 布尔值
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

对 Cloud Storage 存储桶强制执行保留政策

Google 控制 ID GCS-CO-6.17
类别 推荐
说明

确保所有 Cloud Storage 存储桶都具有保留政策。

适用的产品
  • Cloud Storage
路径 storage.buckets/retentionPolicy.retentionPeriod
运算符 agesmaller
  • [90,"DAY","AFTER","yyyy-MM-dd'T'HH:mm:ss'Z'"]
类型 int64
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

为 Cloud Storage 存储桶强制执行分类标记

Google 控制 ID GCS-CO-6.18
类别 推荐
说明

数据分类是任何数据治理和安全计划的基础组成部分。为每个存储桶应用分类标签(值可以是公开、内部、机密或受限)至关重要。

确认 google_storage_bucket.labels 是否具有分类表达式,如果没有,则创建违规。

适用的产品
  • Cloud Storage
路径 storage.buckets/labels.classification
运算符 notexists
  • []
类型 扩展
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

为 Cloud Storage 存储桶强制使用日志存储桶

Google 控制 ID GCS-CO-6.3
类别 推荐
说明

确保每个 Cloud Storage 存储桶都包含一个日志存储桶。

适用的产品
  • Cloud Storage
路径 storage.buckets/logging.logBucket
运算符 notexists
  • []
类型 字符串
相关 NIST-800-53 控制措施
  • AU-2
  • AU-3
  • AU-8
  • AU-9
相关 CRI 配置文件控制措施
  • DM.ED-7.1
  • DM.ED-7.2
  • DM.ED-7.3
  • DM.ED-7.4
  • PR.IP-1.4
相关信息

为 Cloud Storage 存储桶配置删除规则

Google 控制 ID GCS-CO-6.5
类别 推荐
说明

在 Cloud Storage 中,storage.buckets/lifecycle.rule.action.type 是指根据存储桶中的生命周期规则对特定对象采取的操作类型。此配置有助于自动管理和控制存储在云端的数据的生命周期。

配置 storage.buckets/lifecycle.rule.action.type 以确保对象从存储桶中永久删除。

适用的产品
  • Cloud Storage
路径 storage.buckets/lifecycle.rule.action.type
运算符 ==
  • Delete
类型 字符串
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

确保删除规则的 isLive 条件为 False

Google 控制 ID GCS-CO-6.6
类别 推荐
说明

对于删除规则,请确保相应规则的 isLive 条件已设置为 false

在 Cloud Storage 中,storage.buckets/lifecycle.rule.condition.isLive 是一个布尔值条件,用于在生命周期规则中确定对象是否被视为有效对象。此过滤条件有助于确保生命周期规则中的操作仅应用于所需的对象(根据其有效状态)。

应用场景:

  • 归档历史版本:仅归档对象的非当前版本,以节省存储费用,同时保持最新版本可随时访问。
  • 清理已删除的对象:自动永久删除用户已删除的对象,从而释放存储桶中的空间。
  • 保护现行数据:确保设置暂时保全等操作仅应用于现行对象,防止意外修改归档或已删除的版本
适用的产品
  • Cloud Storage
路径 storage.buckets/lifecycle.rule.condition.isLive
运算符 ==
  • False
类型 布尔值
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

为 Cloud Storage 存储桶强制启用版本控制

Google 控制 ID GCS-CO-6.7
类别 推荐
说明

确保所有 Cloud Storage 存储桶都已启用版本控制。使用情形包括:

  • 数据保护和恢复:防止覆盖数据,并支持恢复已删除或修改的数据,从而防范意外数据丢失。
  • 合规性和审核:维护所有对象编辑的历史记录,以用于监管合规性或内部审核。
  • 版本控制:跟踪文件和数据集的更改,以便进行协作,并在必要时回滚到之前的版本。
适用的产品
  • Cloud Storage
路径 storage.buckets/versioning.enabled
运算符 !=
  • True
类型 布尔值
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

强制为 Cloud Storage 存储桶设置所有者

Google 控制 ID GCS-CO-6.8
类别 推荐
说明

确保 google_storage_bucket.labels 具有所有者的表达式。

适用的产品
  • Cloud Storage
路径 storage.buckets/labels.owner
运算符 notexists
  • []
类型 扩展
相关 NIST-800-53 控制措施
  • SI-12
相关 CRI 配置文件控制措施
  • PR.IP-2.1
  • PR.IP-2.2
  • PR.IP-2.3
相关信息

启用关键 Cloud Storage 活动的日志记录

Google 控制 ID GCS-CO-7.4
类别 推荐
说明

根据用例,针对特定存储对象启用额外的日志记录。例如,记录对敏感数据桶的访问,以便您可以跟踪谁在何时获得了访问权限。启用额外的日志记录功能时,请考虑您可能会生成的日志量。

适用的产品
  • Cloud Storage
相关 NIST-800-53 控制措施
  • AU-2
  • AU-3
  • AU-8
  • AU-9
相关 CRI 配置文件控制措施
  • DM.ED-7.1
  • DM.ED-7.2
  • DM.ED-7.3
  • DM.ED-7.4
  • PR.IP-1.4
相关信息

后续步骤