Model Armor 概览

Model Armor 是一项 Google Cloud 服务,旨在增强 AI 应用的安防和安全性。它通过主动过滤 LLM 提示和回答来防范各种风险,并确保Responsible AI 实践。无论您是在云环境还是在外部云提供商中部署 AI,Model Armor 都能帮助您防止恶意输入、验证内容安全性、保护敏感数据、保持合规性,并在各种 AI 环境中始终如一地执行 AI 安全政策。

架构

Model Armor 架构 此架构图显示了一个使用 Model Armor 来保护 LLM 和用户的应用。以下步骤介绍了数据流。

  1. 用户向应用提供提示。
  2. Model Armor 会检查传入的提示中是否存在潜在的敏感内容。
  3. 提示(或经过清理的提示)会发送到 LLM。
  4. LLM 会生成响应。
  5. Model Armor 会检查生成的响应是否存在潜在的敏感内容。
  6. 响应(或经过清理的响应)会发送给用户。Model Armor 会在响应中发送已触发的和未触发的过滤条件的详细说明。

Model Armor 会过滤输入(提示)和输出(回答),以防止 LLM 接触或生成恶意或敏感内容。

使用场景

Model Armor 在多个行业中都有多种应用场景:

  • 安全性

    • 降低敏感知识产权 (IP) 和个人身份信息 (PII) 泄露的风险,避免将其包含在 LLM 提示或响应中。
    • 防范提示注入和越狱攻击,防止恶意方操纵 AI 系统执行意外操作。
    • 扫描 PDF 中的文本,以查找敏感内容或恶意内容。
  • 安全和 Responsible AI

    • 阻止聊天机器人推荐竞争对手的解决方案,从而维护品牌声誉和客户忠诚度。
    • 组织可以过滤 AI 生成的包含有害信息(例如危险内容或仇恨内容)的社交媒体帖子。

Model Armor 模板

借助 Model Armor 模板,您可以配置 Model Armor 过滤提示和回答的方式。它们作为一套定制化过滤条件及阈值机制运作,专用于检测不同安全与防护置信度级别,可用于控制标记哪些内容。

相应阈值表示置信度,即 Model Armor 对提示或回答中包含冒犯性内容的把握程度。例如,您可以创建一个模板,用于过滤包含仇恨内容的提示,并设置 HIGH 阈值,这意味着 Model Armor 会报告提示包含仇恨内容的高置信度。LOW_AND_ABOVE 阈值表示在做出相应声明时具有任何程度的置信度(LOWMEDIUMHIGH)。

如需了解详情,请参阅 Model Armor 模板

Model Armor 置信度

您可以为 Responsible AI 安全类别(露骨色情、危险、骚扰和仇恨言论)、提示注入和越狱检测以及敏感数据保护(包括主题性)设置置信度水平。

对于允许使用精细阈值的置信度,Model Armor 会按如下方式进行解读:

  • :识别消息是否包含高概率的内容。
  • 中等及以上:识别消息是否包含中或高概率的内容。
  • 低及以上:识别消息是否包含低、中或高概率的内容。

Model Armor 过滤条件

Model Armor 提供各种过滤条件,可帮助您提供安全可靠的 AI 模型。以下过滤条件类别可供使用。

Responsible AI 安全过滤条件

您可以按上述置信度级别过滤以下类别的提示和回答:

类别 定义
仇恨言论 针对身份和/或受保护属性的负面或有害评论。
骚扰 针对其他人的威胁、恐吓、欺凌或辱骂性评论。
露骨色情内容 包含对性行为或其他淫秽内容的引用。
危险内容 宣传或允许访问有害商品、服务和活动。

系统会默认应用儿童性虐待内容 (CSAM) 过滤条件,且无法关闭。

提示注入和越狱检测

提示注入是一种安全漏洞,攻击者会在文本输入(提示)中编写特殊命令,以欺骗 AI 模型。这可能会导致 AI 忽略其常规指令、泄露敏感信息,或执行其本不应该执行的操作。在 LLM 的背景下,越狱是指绕过模型内置的安全协议和道德准则的行为。这会导致 LLM 生成其最初设计时要避免的回答,例如有害、不道德和危险的内容。

启用提示注入和越狱检测后,Model Armor 会扫描提示和回答中的恶意内容。如果检测到,Model Armor 会屏蔽相应提示或回答。

敏感数据保护

Sensitive Data Protection 是一项 Google Cloud 服务,可帮助您发现敏感数据并对其进行分类和去标识化处理。Sensitive Data Protection 可以识别敏感元素、上下文和文档,帮助您降低 AI 工作负载中数据泄露的风险。您可以直接在 Model Armor 中使用敏感数据保护来转换、词元化和隐去敏感元素,同时保留非敏感上下文。 Model Armor 可以接受现有的检查模板,这些模板是充当蓝图的配置,可简化扫描和识别敏感数据的流程,以满足您的业务和合规性需求。这样一来,您就可以在其他使用 Sensitive Data Protection 的工作负载之间实现一致性和互操作性。

Model Armor 提供两种Sensitive Data Protection配置模式:

  • 基本配置:在此模式下,您可以通过指定要扫描的敏感数据类型来配置 Sensitive Data Protection。此模式支持以下类别:

    • 信用卡号
    • 美国社会保障号 (SSN)
    • 金融账号
    • 美国个人纳税人识别号 (ITIN)
    • Google Cloud 凭证
    • Google Cloud API 密钥

    基本配置仅允许执行检查操作,不支持使用 Sensitive Data Protection 模板。如需了解详情,请参阅基本 Sensitive Data Protection 配置

  • 高级配置:此模式通过 Sensitive Data Protection 模板提供更高的灵活性和自定义程度。Sensitive Data Protection 模板是预定义的配置,可让您指定更精细的检测规则和去标识化技术。高级配置支持检查和去标识化操作。

Sensitive Data Protection的置信度水平与其他过滤条件的置信度水平略有不同。如需详细了解 Sensitive Data Protection 的置信度,请参阅 Sensitive Data Protection 匹配可能性。 如需详细了解 Sensitive Data Protection,请参阅 Sensitive Data Protection 概览

恶意网址检测

恶意网址通常伪装成看似合法的网址,因此成为钓鱼式攻击、恶意软件分发和其他在线威胁的有力工具。例如,如果某个 PDF 包含嵌入式恶意网址,则可用于入侵处理 LLM 输出的任何下游系统。

启用恶意网址检测后,Model Armor 会扫描网址以识别它们是否为恶意网址。这样,您就可以采取措施,防止返回恶意网址。

定义强制执行类型

强制执行定义了检测到违规行为后会发生什么情况。如需配置 Model Armor 处理检测结果的方式,请设置强制执行类型。Model Armor 提供以下强制执行类型:

  • 仅检查:检查违反配置设置的请求,但不屏蔽这些请求。
  • 检查并屏蔽:屏蔽违反配置设置的请求。

如需有效使用 Inspect only 并获得有价值的分析洞见,请启用 Cloud Logging。 如果未启用 Cloud Logging,Inspect only 将不会产生任何有用信息。

通过 Cloud Logging 访问日志。按服务名称 modelarmor.googleapis.com 过滤。查找与您在模板中启用的操作相关的条目。如需了解详情,请参阅使用日志浏览器查看日志

Model Armor 下限设置

虽然 Model Armor 模板可为各个应用提供灵活性,但组织通常需要在所有 AI 应用中建立基准保护级别。这正是 Model Armor 下限设置的用途所在。它们充当规则,用于定义在 Google Cloud 资源层次结构的特定点(即在组织、文件夹或项目级)创建的所有模板的最低要求。

如需了解详情,请参阅 Model Armor 下限设置

语言支持

Model Armor 过滤条件支持对多种语言的提示和响应进行清理。

您可以通过以下两种方式启用多语言检测:

文档过滤

文档中的文本可能包含恶意内容和敏感内容。Model Armor 可以过滤以下类型的文档,以防范安全风险、提示注入和越狱攻击、敏感数据泄露以及恶意网址:

  • PDF
  • CSV
  • 文本文件:TXT
  • Microsoft Word 文档:DOCX、DOCM、DOTX、DOTM
  • Microsoft PowerPoint 幻灯片:PPTX、PPTM、POTX、POTM、POT
  • Microsoft Excel 工作表:XLSX、XLSM、XLTX、XLTM

Model Armor 会拒绝扫描大小为 50 字节或更小的富文本格式文件,因为此类文件很可能无效。

价格

Model Armor 可作为 Security Command Center 的集成部分购买,也可作为独立服务购买。如需了解价格信息,请参阅 Security Command Center 价格

令牌

生成式 AI 模型会将文本和其他数据分解为多个单元,这些单元称为 token。Model Armor 会使用 AI 提示和响应中的总 token 数来确定价格。Model Armor 会限制每个提示和回答中处理的 token 数量。

Model Armor 具有不同的 token 限制,具体取决于特定的过滤条件。 如果提示或回答超出 token 限制,Sensitive Data Protection 过滤条件会返回 EXECUTION_SKIPPED。如果提示或回答超出 token 限制,所有其他过滤条件在发现恶意内容时返回 MATCH_FOUND,在未发现恶意内容时返回 EXECUTION_SKIPPED

过滤 token 限制
提示注入和越狱检测 10,000
Responsible AI 10,000
儿童性虐待内容 10,000
Sensitive Data Protection 高达 130,000

后续步骤