Vertex AI 中的安全性

Gemini 等生成式 AI 模型需要采取强有力的安全措施，以降低生成有害内容、泄露敏感信息或被滥用等风险。 Google Cloud的 Vertex AI Platform 提供了一套工具和实践，可为您的 Gemini 模型实现全面的安全性。

潜在安全风险和缓解策略

部署 Gemini 模型时，请务必识别并缓解各种潜在风险。主动了解这些风险有助于更有效地实施安全措施。多层安全方法至关重要，因为它可以缓解或防范以下风险：

内容风险：可能包括有害内容、脏话和色情内容以及暴力和血腥内容。
品牌保障风险：生成的内容可能与您品牌的基调或价值观不符，可能认可竞争对手或不当产品，或者生成可能导致声誉受损的内容。
对齐风险：生成的内容可能不相关或不准确。
安全和隐私权风险：生成的内容可能会泄露敏感的训练数据或提示，或者恶意用户可能会尝试强制模型覆盖安全协议或以意外的方式运行。

我们部署的模型可提供各种功能来解决这些潜在问题：

默认模型和不可配置的过滤器可提供一般安全保障。
系统指令可直接指导模型了解首选行为和要避免的主题。
借助内容过滤器，您可以为常见有害内容类型设置特定阈值。
Gemini 作为过滤器功能可提供高级的可自定义检查点来处理复杂或细致的安全问题，这些问题可能会被前置保护层遗漏或需要情境感知能力更强的评估。
数据泄露防护 (DLP) 专门用于解决模型有权访问敏感数据时出现的敏感数据泄露这一严重风险。它还支持创建自定义屏蔽列表。

Vertex AI for Gemini 中提供的安全工具

Vertex AI 提供了多种工具来管理 Gemini 模型的安全性。了解每种工具的运作方式、注意事项和理想的应用场景有助于您打造量身定制的安全解决方案。

方法	工作原理	提供的保护	风险	何时使用
默认设置：Gemini + 不可配置的过滤器	Gemini 模型在设计时就考虑到了安全性和公平性，即使面临对抗性提示也是如此。Google 投入了大量资金进行全面的安全评估，包括偏见和有害性评估。默认设置包含一个独立保护层，旨在防止生成与儿童性虐待内容 (CSAM) 或受版权保护的内容（复制内容）相关的内容。	针对儿童性虐待内容和版权（复制内容）的基准保护	Gemini 的默认安全设置可能无法满足您的组织的需求。模型可能会产生幻觉或不遵循指令。具有明确动机的攻击者可能仍会成功进行越狱攻击和提示注入	预计没有恶意输入的工作流
可配置的过滤器	Gemini 的预构建内容过滤器可针对各种类别的有害内容（例如色情、仇恨、骚扰或危险内容）提供额外保护。您可以根据有害内容的概率和/或严重程度，为每个危害类别配置屏蔽阈值（例如，`BLOCK_LOW_AND_ABOVE`、`BLOCK_MEDIUM_AND_ABOVE`、`BLOCK_ONLY_HIGH`）。这些是独立于模型的保护层，因此可有效防范越狱攻击。	可针对预定义类别有效防范违规行为，可调整敏感度	除了用于预定义类别的阈值设置之外，缺乏精细的自定义功能。有时可能会屏蔽良性内容（假正例），或漏掉一些有害内容（假负例）。仅适用于回答过滤，不适用于提示过滤。	为面向用户的应用或代理提供基本安全级别。如果您的目标是确保内容安全和品牌保障，则应将内容过滤器与系统指令搭配使用。
系统指令	您可以通过系统指令或预置指令向模型说明您的品牌和内容安全准则。例如，您可以告知模型“不要回答与政治相关的问题”，或者遵循特定的品牌语音和语气准则。系统指令可直接引导模型的行为。	可针对内容安全/品牌保障进行自定义，效果可能非常出色。	模型可能会产生幻觉或不遵循指令。具有明确动机的攻击者可能仍会成功进行越狱攻击和提示注入	需要遵守特定品牌规范或细致的内容政策的应用或代理。如果您的目标是确保内容安全和品牌保障，则应将系统指令与内容过滤器搭配使用。
用于实现自定义屏蔽列表和敏感数据保护的 DLP	DLP API 可以检查文本，根据各种预定义和自定义 infoType 检测器来识别和分类敏感信息。一旦识别出敏感信息，便可以应用隐去、遮盖或词元化等去标识化技术。DLP API 还可用于屏蔽关键字。输入保护：在将用户提示或数据发送给 Gemini 之前，您可以通过 DLP API 传递文本，以隐去或遮盖任何敏感信息。这样可以防止模型处理或记录敏感数据。输出保护：如果存在 Gemini 无意中生成或泄露敏感信息（例如，如果它总结的源文档包含 PII）的风险，则可以在将模型输出发送给用户之前，先通过 DLP API 对其进行扫描。	针对脏话或自定义字词的强大过滤功能。针对敏感数据的强大过滤功能。	增加延迟时间。可能会导致过度屏蔽。	针对有权访问敏感数据的代理的数据泄露防护。
Gemini 作为过滤器	您可以使用 Gemini 为代理或应用过滤提示和回答。这需要对快速且经济高效的 Gemini 模型（例如 Gemini Flash 或 Flash Lite）进行第二次调用，以评估用户或工具的输入内容或主要 Gemini 模型的输出内容是否安全。需要向过滤器模型提供指令，以便根据您定义的政策（包括内容安全、品牌保障和代理不一致）来决定内容是否安全。这样可提供强大且高度可自定义的保护，防范内容安全违规行为、品牌保障问题、模型偏移和幻觉，并可分析文本、图片、视频和音频，以实现全面理解。	高度可靠且可自定义，可用于内容安全/品牌保障、偏移、幻觉；多模态理解。	额外的费用和延迟时间。存在极低的假负例几率。	为面向用户的应用或代理提供自定义安全级别
多层方法：可配置的过滤器 + 系统指令 + DLP + Gemini 作为过滤器		高度可靠且可自定义，可用于内容安全/品牌保障、偏移、幻觉；多模态理解	额外的费用和延迟时间。	为面向用户的应用或代理提供强大的安全级别，尤其是在预期会发生对抗性使用和恶意使用的情况下

持续安全评估

持续安全评估对于 AI 系统至关重要，因为 AI 领域和滥用方法都在不断发展。定期评估有助于发现漏洞、评估缓解措施有效性、适应不断变化的风险、确保与政策和价值观保持一致、建立信任并保持合规性。各种评估类型（包括开发评估、保障评估、红队测试、外部评估和基准测试）可帮助实现这一目标。评估范围应涵盖内容安全、品牌保障、相关性、偏见和公平性、真实性以及针对对抗性攻击的稳健性。Vertex AI 的 Gen AI Evaluation Service 等工具可帮助您完成这些工作，同时强调基于评估结果进行迭代改进对于 Responsible AI 开发至关重要。