主要概念

本页介绍了模型防护的主要概念。

Model Armor 模板

借助 Model Armor 模板,您可以配置 Model Armor 如何筛查提示和回答。它们可作为一组自定义过滤器和阈值,用于不同安全和安全置信度级别,让您可以控制要被标记的内容。

阈值表示置信度。即 Model Armor 对提示或回答包含冒犯性内容的信心程度。例如,您可以创建一个模板,以 HIGH 阈值过滤包含仇恨内容的提示,这意味着 Model Armor 会报告对提示包含仇恨内容的高置信度。LOW_AND_ABOVE 阈值表示进行该断言的任何置信度级别(LOWMEDIUMHIGH)。

Model Armor 过滤条件

Model Armor 提供了各种过滤条件,可帮助您提供安全可靠的 AI 模型。以下是过滤器类别的详细说明。

Responsible AI 安全过滤器

系统可以针对以下类别的提示和回答,以上述置信度级别进行筛查:

类别 定义
仇恨言论 针对身份和/或受保护属性的负面或有害评论。
骚扰内容 针对其他人的威胁、恐吓、欺凌或辱骂性评论。
露骨色情内容 包含对性行为或其他淫秽内容的引用。
危险内容 宣传或允许访问有害商品、服务和活动。

系统会默认应用儿童性虐待内容 (CSAM) 过滤器,且无法关闭。

提示注入和越狱检测

提示注入是一种安全漏洞,攻击者会在文本输入(提示)中编写特殊命令,以欺骗 AI 模型。这可能会导致 AI 忽略其常规指令、泄露敏感信息,或执行其本不应该执行的操作。在 LLM 的上下文中,越狱是指绕过模型中内置的安全协议和伦理准则的行为。这样一来,LLM 就可能会生成它原本设计要避免的回答,例如有害、不道德和危险的内容。

启用提示注入和越狱检测后,Model Armor 会扫描提示和回答是否包含恶意内容。如果检测到此类内容,Model Armor 会屏蔽相应问题或回答。

敏感数据保护

敏感数据(例如个人姓名或地址)可能会无意中或有意中发送到模型,或在模型的响应中提供。

Sensitive Data Protection 是一项 Google Cloud 服务,可帮助您发现、分类和去标识化敏感数据。Sensitive Data Protection 可以识别敏感元素、情境和文档,帮助您降低 AI 工作负载中的数据泄露风险。您可以直接在模型保护机制中使用敏感数据保护功能,对敏感元素进行转换、令牌化和隐去处理,同时保留非敏感上下文。模型保护功能可以接受现有的检查模板,这些模板类似于蓝图,可简化扫描和识别特定于您的业务和合规性需求的敏感数据的过程。这样,您就可以在使用 Sensitive Data Protection 的其他工作负载之间实现一致性和互操作性。

Model Armor 提供两种 Sensitive Data Protection 配置模式:

  • 敏感数据保护基本配置:此模式提供了一种更简单的配置敏感数据保护的方式,即直接指定要扫描的敏感数据类型。它支持六个类别,分别是 CREDIT_CARD_NUMBERUS_SOCIAL_SECURITY_NUMBERFINANCIAL_ACCOUNT_NUMBERUS_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBERGCP_CREDENTIALSGCP_API_KEY。基本配置仅允许执行检查操作,不支持使用敏感数据保护模板。如需了解详情,请参阅敏感数据保护基本配置

  • 高级敏感数据保护配置:此模式支持使用敏感数据保护模板,从而提供更高的灵活性和自定义性。敏感数据保护模板是预定义的配置,可让您指定更精细的检测规则和去标识化技术。高级配置同时支持检查和去标识化操作。

虽然可以为敏感数据保护功能设置置信度,但其运作方式与其他过滤器的置信度略有不同。如需详细了解敏感数据保护的置信度,请参阅敏感数据保护匹配可能性。如需详细了解敏感数据保护的一般信息,请参阅敏感数据保护概览

恶意网址检测

恶意网址通常会伪装成合法网址,因此是进行钓鱼式攻击、分发恶意软件和其他在线威胁的强大工具。例如,如果 PDF 包含嵌入的恶意网址,则可用于入侵处理 LLM 输出的任何下游系统。

启用恶意网址检测后,Model Armor 会扫描网址,以确定它们是否为恶意网址。这样,您就可以采取措施,防止返回恶意网址。

Model Armor 置信度

您可以为负责任 AI 安全类别(即色情、危险、骚扰和仇恨言论)、提示注入和越狱,以及敏感数据保护(包括相关性)设置置信度级别。

对于允许使用精细阈值的置信度级别,Model Armor 会将其解读如下:

  • 高:确定短信是否包含高概率内容。
  • 中等及以上:确定邮件中是否包含可能性为中等或较高的不良内容。
  • 低及以上:确定邮件中的内容不安全的概率是低、中还是高。

PDF 筛查

PDF 中的文本可能包含恶意内容和敏感内容。Model Armor 可以筛查 PDF 文件,检查其安全性、提示注入和越狱攻击情况、敏感数据和恶意网址。

Model Armor 楼层设置

虽然 Model Armor 模板可为各个应用提供灵活性,但组织通常需要为所有 AI 应用建立基准保护级别。此处使用 Model Armor 底价设置。它们就像规则一样,对在 Google Cloud 资源层次结构(即组织、文件夹或项目级别)的特定位置创建的所有模板施加最低要求。

如需了解详情,请参阅 Model Armor 下限设置

后续步骤