Vertex AI 中的安全功能

Gemini 等生成式 AI 模型需要采取强有力的安全措施,以降低生成有害内容、泄露敏感信息或被滥用等风险。 Google Cloud的 Vertex AI 平台提供了一套工具和实践,可为您的 Gemini 模型实现全面的安全性。

潜在安全风险和缓解策略

部署 Gemini 模型时,务必要识别并缓解各种潜在风险。主动了解这些风险有助于更有效地实施安全措施。多层安全方法至关重要,因为它可以缓解或防止以下情况:

  • 内容风险:可能包括有害内容、脏话和性化内容,以及暴力和血腥内容。
  • 品牌保障风险:生成的内容可能与您品牌的基调或价值观不符,可能认可竞争对手或不当产品,或者生成可能导致声誉受损的内容。
  • 对齐风险:生成的内容可能不相关或不准确。
  • 安全和隐私风险:生成的内容可能会泄露敏感的训练数据或提示,或者恶意用户可能会尝试强制模型覆盖安全协议或以意外的方式运行。

我们部署的模型提供各种功能来解决这些潜在问题:

  • 默认模型和不可配置的过滤条件可提供一般安全保障。
  • 系统指令可直接指导模型了解首选行为和要避免的主题。
  • 借助内容过滤条件,您可以为常见有害内容类型设置特定阈值。
  • Gemini 作为过滤器,可提供高级的自定义检查点,用于处理复杂或细致的安全问题,这些问题可能被前面的层忽略,或者需要更具情境感知能力的评估。
  • DLP 专门用于解决模型有权访问敏感数据时出现的敏感数据泄露这一严重风险。它还支持创建自定义屏蔽列表。

Vertex AI for Gemini 中提供的安全工具

Vertex AI 提供了多种工具来管理 Gemini 模型的安全性。了解每种方法的运作方式、注意事项和理想的应用场景,有助于您打造量身定制的安全解决方案。

方法 工作原理 提供保护 风险 何时使用
默认设置:Gemini + 不可配置的过滤条件 Gemini 模型在设计时就考虑到了安全性和公平性,即使面对对抗性提示也是如此。Google 已投入大量资金进行全面的安全评估,包括偏见和有害性评估。默认设置包含一个独立保护层,旨在防止生成与儿童性虐待内容 (CSAM) 或受版权保护的内容(朗诵)相关的内容。 针对儿童性虐待内容和版权的基本保护(朗读) Gemini 的默认安全设置可能无法满足贵组织的需求。模型可能会产生幻觉或不遵循指令。积极的攻击者可能仍会成功进行越狱和提示注入 不应有恶意输入的 Workflows
可配置的过滤器 Gemini 的预建内容过滤器可针对各种类别的有害内容(例如色情、仇恨、骚扰或危险内容)提供额外保护。您可以为每个危害类别配置屏蔽阈值(例如,BLOCK_LOW_AND_ABOVEBLOCK_MEDIUM_AND_ABOVEBLOCK_ONLY_HIGH),具体取决于有害内容的概率和/或严重程度。这些是独立于模型的层,因此可有效防范越狱攻击。 可针对预定义类别有效防范违规行为,灵敏度可调 除了预定义类别的阈值设置之外,缺乏精细的自定义功能。 有时可能会屏蔽良性内容(假正例),或漏掉一些有害内容(假负例)。仅适用于响应过滤,不适用于提示过滤。 为面向用户的应用或代理提供基本安全级别。如果您的目标是确保内容和品牌安全,则应将内容过滤器与系统指令搭配使用。
系统指令 您可以通过系统指令或序言向模型说明您的品牌和内容安全准则。例如,您可以告知模型“不要回答与政治相关的问题”,或者遵循特定的品牌声音和语气指南。系统指令可直接引导模型的行为。 可针对内容/品牌保障进行自定义,效果可能非常显著。 模型可能会产生幻觉或不遵循指令。积极的攻击者可能仍会成功进行越狱和提示注入 需要遵守特定品牌推广指南或细致的内容政策的应用或代理。如果您的目标是确保内容和品牌安全,则应将系统指令与内容过滤器搭配使用。
DLP,用于自定义屏蔽列表和敏感数据保护 DLP API 可以检查文本,根据各种预定义和自定义 infoType 检测器来识别和分类敏感信息。 一旦识别出来,就可以应用隐去、遮盖或标记化等去标识化技术。DLP API 还可用于屏蔽关键字。输入保护:在将用户提示或数据发送给 Gemini 之前,您可以通过 DLP API 传递文本,以隐去或遮盖任何敏感信息。这样可以防止模型处理或记录敏感数据。输出保护:如果 Gemini 可能会无意中生成或泄露敏感信息(例如,如果它总结的源文档包含 PII),则可以在将模型输出发送给用户之前,先通过 DLP API 对其进行扫描。 可针对脏话或自定义字词进行强大的过滤。针对敏感数据的强大过滤功能。 增加延迟时间。可能会导致过度屏蔽。 针对有权访问敏感数据的客服人员的数据泄露防护。
将 Gemini 作为过滤条件 您可以使用 Gemini 为代理或应用过滤提示和回答。 这需要对快速且经济实惠的 Gemini 模型(例如 Gemini Flash 或 Flash Lite)进行第二次调用,以评估用户或工具的输入内容或主要 Gemini 模型的输出内容是否安全。 过滤模型会根据您定义的政策(包括内容安全、品牌安全和代理不一致)来决定内容是否安全。该功能可提供强大且高度可自定义的保护,防范内容安全违规行为、品牌保障问题、模型漂移和幻觉,并可分析文本、图片、视频和音频,以实现全面理解。 高度可靠且可自定义,可用于内容/品牌安全、漂移、幻觉; 多模态理解。 额外的费用和延迟时间。出现极少假负例的几率。 为面向用户的应用或代理提供自定义安全级别
多层方法:可配置的过滤器 + 系统指令 + DLP + Gemini 作为过滤器 高度可靠且可自定义,可用于内容/品牌安全、漂移、幻觉;多模态理解 额外的费用和延迟时间。 为面向用户的应用或代理提供强大的安全保障,尤其是在预期会发生对抗性使用和恶意使用的情况下

持续安全评估

持续安全评估对于 AI 系统至关重要,因为 AI 领域和滥用方法都在不断发展。定期评估有助于发现漏洞、评估缓解措施的有效性、适应不断变化的风险、确保与政策和价值观保持一致、建立信任并保持合规性。各种评估类型(包括开发评估、保证评估、红队测试、外部评估和基准测试)有助于实现这一目标。评估范围应涵盖内容安全、品牌保障、相关性、偏见和公平性、真实性以及针对对抗性攻击的稳健性。Vertex AI 的生成式 AI 评估服务等工具可以帮助您完成这些工作,强调基于评估结果进行迭代改进对于 Responsible AI 开发至关重要。