本文档包含在运行使用 Google Cloud的生成式 AI 工作负载时,Cloud Storage 的最佳实践和指南。将 Cloud Storage 与 Vertex AI 搭配使用,以存储训练数据、模型制品和生产数据。
以下是将 Cloud Storage 与 Vertex AI 搭配使用的应用场景:
- 存储训练数据:Vertex AI 可让您将训练数据集存储在 Cloud Storage 存储桶中。使用 Cloud Storage 有以下几项优势:
- Cloud Storage 可以处理任意大小的数据集,让您能够使用海量数据训练模型,而无需担心存储空间限制。
- 您可以对 Cloud Storage 存储桶设置精细的访问权限控制和加密,以确保敏感的训练数据受到保护。
- Cloud Storage 可让您跟踪更改并恢复到之前的数据版本,从而提供有价值的审核轨迹并有助于重现训练实验。
- Vertex AI 可与 Cloud Storage 无缝集成,让您能够在平台内访问训练数据。
- 存储模型制品:您可以将训练好的模型制品(包括模型文件、超参数配置和训练日志)存储在 Cloud Storage 存储桶中。使用 Cloud Storage 可执行以下操作:
- 将所有模型制品都保存在 Cloud Storage 中,以便集中访问和管理。
- 跟踪和管理模型的不同版本,以便在需要时进行比较和回滚。
- 向队友和协作者授予对特定 Cloud Storage 存储桶的访问权限,以便高效地共享模型。
- 存储生产数据:对于生产环境中使用的模型,Cloud Storage 可以存储提供给模型用于预测的数据。例如,您可以使用 Cloud Storage 执行以下操作:
- 存储用户数据和互动,以便实时提供个性化建议。
- 保留图片,以便使用您的模型按需进行处理和分类。
- 维护交易数据,以便使用模型实时识别欺诈行为。
- 与其他服务集成:Cloud Storage 可与 Vertex AI 工作流中使用的其他 Google Cloud 服务无缝集成,例如:
- Dataflow,用于简化数据预处理和转换流水线。
- BigQuery:用于访问存储在 BigQuery 中的大型数据集,以进行模型训练和推理。
- Cloud Run functions,用于根据模型预测或 Cloud Storage 存储桶中的数据变化执行操作。
- 管理费用:Cloud Storage 采用随用随付的价格模式,这意味着您只需为实际使用的存储空间付费。这有助于提高成本效益,尤其是在处理大型数据集时。
- 实现高可用性和高持久性:Cloud Storage 可确保您的数据具有高可用性,并能防范故障或中断,从而保证可靠性并提供对机器学习资产的稳定访问。
- 启用多区域支持:将数据存储在地理位置上更靠近用户或应用的多个 Cloud Storage 区域中,从而提高性能并缩短数据访问和模型预测的延迟时间。
必需的 Cloud Storage 控制措施
使用 Cloud Storage 时,强烈建议您采取以下控制措施。
禁止公开访问 Cloud Storage 存储桶
| Google 控制 ID | GCS-CO-4.1 |
|---|---|
| 类别 | 必需 |
| 说明 |
|
| 适用的产品 |
|
| 路径 | constraints/storage.publicAccessPrevention |
| 运算符 | == |
| 值 |
|
| 类型 | 布尔值 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
使用统一存储桶级访问权限
| Google 控制 ID | GCS-CO-4.2 |
|---|---|
| 类别 | 必需 |
| 说明 |
|
| 适用的产品 |
|
| 路径 | constraints/storage.uniformBucketLevelAccess |
| 运算符 | == |
| 值 |
|
| 类型 | 布尔值 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
保护服务账号的 HMAC 密钥
| Google 控制 ID | GCS-CO-6.9 |
|---|---|
| 类别 | 必需 |
| 说明 | HMAC 密钥是一种与 Cloud Storage 中的服务账号或用户账号相关联的长期有效的凭证。使用 HMAC 密钥创建签名,这些签名会包含在针对 Cloud Storage 的请求中。签名可证明用户或服务账号已授权某项请求。 与短期有效凭证(例如 OAuth 2.0 令牌)不同,HMAC 密钥不会自动失效,在手动撤销之前会一直有效。HMAC 密钥是高风险凭证:如果泄露,它们会提供对您资源的持久访问权限。您必须确保已采取适当的机制来帮助保护这些数据。 |
| 适用的产品 |
|
| 路径 | storage.projects.hmacKeys/id |
| 运算符 | Exists |
| 值 |
|
| 类型 | 字符串 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
检测服务账号对 Cloud Storage 存储桶的枚举
| Google 控制 ID | GCS-CO-7.2 |
|---|---|
| 类别 | 必需 |
| 说明 | 服务账号是一种非人类身份,专为应用而设计,其行为可预测且自动化。通常,服务账号不需要列出各个存储桶,因为它们已经过映射。因此,如果您检测到某个服务账号尝试检索所有 Cloud Storage 存储桶的列表,请立即进行调查。侦察枚举通常被已获得服务账号访问权限的恶意方用作侦察技术。 |
| 适用的产品 |
|
| 运算符 | == |
| 值 |
|
| 类型 | 字符串 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
检测服务账号对 Cloud Storage 存储桶的 Identity and Access Management (IAM) 政策修改
| Google 控制 ID | GCS-CO-7.3 |
|---|---|
| 类别 | 必需 |
| 说明 | 配置一项提醒,用于检测 Cloud Storage 存储桶的 IAM 政策何时被修改为授予公开访问权限。当 在提醒中,将 |
| 适用的产品 |
|
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
基于生成式 AI 应用场景的推荐控制措施
根据您在生成式 AI 方面的使用场景,我们建议您使用其他控制措施。这些控制措施包括数据保留控制措施,以及基于企业政策的其他政策驱动型控制措施。
确保 Cloud Storage 存储桶保留政策使用存储桶锁定
| Google 控制 ID | GCS-CO-6.1 |
|---|---|
| 类别 | 推荐 |
| 说明 | 根据您的监管要求,确保每个 Cloud Storage 存储桶保留政策都已锁定。将保留期限设置为满足您要求的时间范围。 |
| 适用的产品 |
|
| 路径 | storage.buckets/retentionPolicy.isLocked |
| 运算符 | != |
| 值 |
|
| 类型 | 布尔值 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
为 SetStorageClass 操作设置生命周期规则
| Google 控制 ID | GCS-CO-6.11 |
|---|---|
| 类别 | 推荐 |
| 说明 | 将生命周期规则应用于具有 |
| 适用的产品 |
|
| 路径 | storage.buckets/lifecycle.rule.action.type |
| 运算符 | == |
| 值 |
|
| 类型 | 字符串 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
为存储类别设置允许的区域
| Google 控制 ID | GCS-CO-6.12 |
|---|---|
| 类别 | 推荐 |
| 说明 | 确保生命周期配置的存储类别不在允许的区域分类范围内。 |
| 适用的产品 |
|
| 路径 | storage.buckets/lifecycle.rule.action.storageClass |
| 运算符 | nin |
| 值 |
|
| 类型 | 字符串 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
为 Cloud Storage 存储桶启用生命周期管理
| Google 控制 ID | GCS-CO-6.13 |
|---|---|
| 类别 | 推荐 |
| 说明 | 确保已启用并配置 Cloud Storage 的生命周期管理。生命周期控制包含存储生命周期的配置。验证此设置中的政策是否符合您的要求。 |
| 适用的产品 |
|
| 路径 | storage.buckets/lifecycle |
| 运算符 | Exists |
| 值 |
|
| 类型 | 对象 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
为 Cloud Storage 存储桶启用生命周期管理规则
| Google 控制 ID | GCS-CO-6.14 |
|---|---|
| 类别 | 推荐 |
| 说明 | 确保已启用并配置 Cloud Storage 的生命周期管理规则。规则控制包含存储生命周期的配置。验证此设置中的政策是否符合您的要求。 |
| 适用的产品 |
|
| 路径 | storage.buckets/lifecycle.rule |
| 运算符 | Empty |
| 值 |
|
| 类型 | 数组 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
查看和评估活跃对象的暂时保全
| Google 控制 ID | GCS-CO-6.16 |
|---|---|
| 类别 | 推荐 |
| 说明 | 找出所有将 temporaryHold 设置为 TRUE 的对象,并开始调查和验证流程。此评估适用于以下使用情形:
|
| 适用的产品 |
|
| 路径 | storage.objects/temporaryHold |
| 运算符 | == |
| 值 |
|
| 类型 | 布尔值 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
对 Cloud Storage 存储桶强制执行保留政策
| Google 控制 ID | GCS-CO-6.17 |
|---|---|
| 类别 | 推荐 |
| 说明 | 确保所有 Cloud Storage 存储桶都具有保留政策。 |
| 适用的产品 |
|
| 路径 | storage.buckets/retentionPolicy.retentionPeriod |
| 运算符 | agesmaller |
| 值 |
|
| 类型 | int64 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
为 Cloud Storage 存储桶强制执行分类标记
| Google 控制 ID | GCS-CO-6.18 |
|---|---|
| 类别 | 推荐 |
| 说明 | 数据分类是任何数据治理和安全计划的基础组成部分。为每个存储桶应用分类标签(值可以是公开、内部、机密或受限)至关重要。 确认 |
| 适用的产品 |
|
| 路径 | storage.buckets/labels.classification |
| 运算符 | notexists |
| 值 |
|
| 类型 | 扩展 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
为 Cloud Storage 存储桶强制使用日志存储桶
| Google 控制 ID | GCS-CO-6.3 |
|---|---|
| 类别 | 推荐 |
| 说明 | 确保每个 Cloud Storage 存储桶都包含一个日志存储桶。 |
| 适用的产品 |
|
| 路径 | storage.buckets/logging.logBucket |
| 运算符 | notexists |
| 值 |
|
| 类型 | 字符串 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
为 Cloud Storage 存储桶配置删除规则
| Google 控制 ID | GCS-CO-6.5 |
|---|---|
| 类别 | 推荐 |
| 说明 | 在 Cloud Storage 中, 配置 |
| 适用的产品 |
|
| 路径 | storage.buckets/lifecycle.rule.action.type |
| 运算符 | == |
| 值 |
|
| 类型 | 字符串 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
确保删除规则的 isLive 条件为 False
| Google 控制 ID | GCS-CO-6.6 |
|---|---|
| 类别 | 推荐 |
| 说明 | 对于删除规则,请确保相应规则的 在 Cloud Storage 中, 应用场景:
|
| 适用的产品 |
|
| 路径 | storage.buckets/lifecycle.rule.condition.isLive |
| 运算符 | == |
| 值 |
|
| 类型 | 布尔值 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
为 Cloud Storage 存储桶强制启用版本控制
| Google 控制 ID | GCS-CO-6.7 |
|---|---|
| 类别 | 推荐 |
| 说明 | 确保所有 Cloud Storage 存储桶都已启用版本控制。使用情形包括:
|
| 适用的产品 |
|
| 路径 | storage.buckets/versioning.enabled |
| 运算符 | != |
| 值 |
|
| 类型 | 布尔值 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
强制为 Cloud Storage 存储桶设置所有者
| Google 控制 ID | GCS-CO-6.8 |
|---|---|
| 类别 | 推荐 |
| 说明 | 确保 |
| 适用的产品 |
|
| 路径 | storage.buckets/labels.owner |
| 运算符 | notexists |
| 值 |
|
| 类型 | 扩展 |
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |
启用关键 Cloud Storage 活动的日志记录
| Google 控制 ID | GCS-CO-7.4 |
|---|---|
| 类别 | 推荐 |
| 说明 | 根据用例,针对特定存储对象启用额外的日志记录。例如,记录对敏感数据桶的访问,以便您可以跟踪谁在何时获得了访问权限。启用额外的日志记录功能时,请考虑您可能会生成的日志量。 |
| 适用的产品 |
|
| 相关 NIST-800-53 控制措施 |
|
| 相关 CRI 配置文件控制措施 |
|
| 相关信息 |