生成式 AI 和数据治理

Google 是业界首家发布 AI/机器学习隐私权承诺的公司,该承诺概述了客户应拥有最高级别安全性并能够控制其在云中存储的数据的这一信念。该承诺会扩展到 Google Cloud 生成式 AI 产品。Google 通过健全的数据治理实践(包括审核 Google Cloud 在其产品开发中使用的数据),确保 Google 团队遵循这些承诺。如需详细了解 Google 如何处理数据,另请参阅 Google 的云端数据处理附录 (CDPA)

定义

术语 说明
基础模型 基于大量数据进行训练且可用于各项任务的大规模机器学习 (ML) 模型。
适配器模型 也称为“适配器层”或“适配器权重”。它们是与基础模型结合使用的机器学习模型,可改善专用任务的执行情况。
客户数据 如需了解定义,请参阅 Google Cloud Platform 服务条款
培训 使用数据训练机器学习模型的过程。
预测 也称为推理,是指使用机器学习模型处理输入以生成输出的过程。
安全分类器 用于在预测过程中识别特定类别的内容,例如可能含有暴力内容的资料。

基础模型训练

默认情况下,Google Cloud 不使用客户数据来训练其基础模型。客户知道他们的提示、回答和任何适配器模型训练数据都不会用于训练基础模型,因此可以使用 Google Cloud 的基础模型。

适配器模型训练

Vertex AI 提供一项让客户能够训练适配器模型的服务。适配器模型训练数据是客户数据,系统不会存储。此外,客户数据不会用于改进 Google Cloud 的基础模型。适配器模型仅供训练了适配器模型的客户使用。除非适配器模型使用已有的 Google 知识产权,否则 Google 不会声明适配器模型的所有权。默认情况下,客户数据以加密形式存储并在传输过程中加密。客户还可以使用客户管理的加密密钥 (CMEK) 来控制其适配器模型的加密,并且可以随时删除适配器模型。

预测

预测过程中由基础模型、适配器模型和安全分类器处理的输入和输出是客户数据。如果客户未通过选择允许缓存输入和输出来进行明确许可,Google 绝不会记录客户数据。

在预测期间,我们不会记录客户数据来生成客户的输出或训练基础模型。默认情况下,Google 会缓存客户的 Gemini 模型的输入和输出,以加快对客户的后续提示的回答速度。缓存的内容最多可存储 24 小时。系统会对缓存的数据强制执行项目级层隐私设置。如需了解如何使用 API 针对 Google Cloud 项目获取缓存状态、停用缓存或重新启用缓存,请参阅如何启用或停用缓存?如果您停用缓存,延迟时间可能会增加。

退出可信测试员计划

如果您之前选择允许 Google 使用您的数据来改进正式发布前的 AI/机器学习服务作为“可信测试员计划”条款的一部分,您可以使用可信测试员计划 - 选择退出请求表单选择退出。

后续步骤