主要概念

本页介绍了 Model Armor 的关键概念。

Model Armor 模板

借助 Model Armor 模板，您可以配置 Model Armor 过滤提示和回答的方式。它们充当一组自定义过滤器和阈值，用于设置不同的安全性和安全性置信度，从而控制标记哪些内容。

阈值表示置信度。也就是说，Model Armor 对提示或回答包含冒犯性内容的置信度。例如，您可以创建一个模板，用于过滤包含仇恨内容的提示，并设置 HIGH 阈值，这意味着 Model Armor 会报告提示包含仇恨内容的高置信度。LOW_AND_ABOVE 阈值表示在做出相应声明时具有任何程度的置信度（LOW、MEDIUM 和 HIGH）。

Model Armor 过滤条件

Model Armor 提供各种过滤条件，可帮助您提供安全可靠的 AI 模型。以下是过滤条件类别。

Responsible AI 安全过滤条件

系统可以按照上述置信度级别，针对以下类别过滤提示和回答：

类别	定义
仇恨言论	针对身份和/或受保护属性的负面或有害评论。
骚扰	针对其他人的威胁、恐吓、欺凌或辱骂性评论。
露骨色情内容	包含对性行为或其他淫秽内容的引用。
危险内容	宣传或允许访问有害商品、服务和活动。

系统会默认应用儿童性虐待内容 (CSAM) 过滤条件，且无法关闭。

提示注入和越狱检测

提示注入是一种安全漏洞，攻击者会在文本输入（提示）中编写特殊命令，以欺骗 AI 模型。这可能会导致 AI 忽略其常规指令、泄露敏感信息，或执行其本不应该执行的操作。在 LLM 的背景下，越狱是指绕过模型内置的安全协议和道德准则的行为。这会导致 LLM 生成其最初设计时要避免的回答，例如有害、不道德和危险的内容。

启用提示注入和越狱检测后，Model Armor 会扫描提示和回答中的恶意内容。如果检测到，Model Armor 会屏蔽相应提示或回答。

敏感数据保护

敏感数据（例如个人姓名或地址）可能会无意中或有意地发送给模型，也可能会出现在模型的回答中。

Sensitive Data Protection 是一项 Google Cloud 服务，可帮助您发现、分类和去标识化敏感数据。Sensitive Data Protection 可以识别敏感元素、上下文和文档，帮助您降低 AI 工作负载中数据泄露的风险。您可以直接在 Model Armor 中使用敏感数据保护来转换、词元化和隐去敏感元素，同时保留非敏感上下文。 Model Armor 可以接受现有的检查模板，这些模板是充当蓝图的配置，可简化扫描和识别敏感数据的流程，以满足您的业务和合规性需求。这样一来，您就可以在其他使用 Sensitive Data Protection 的工作负载之间实现一致性和互操作性。

Model Armor 提供两种敏感数据保护配置模式：

基本 Sensitive Data Protection 配置：此模式提供了一种更简单的方式来配置 Sensitive Data Protection，即直接指定要扫描的敏感数据类型。它支持六个类别，分别是 CREDIT_CARD_NUMBER、US_SOCIAL_SECURITY_NUMBER、FINANCIAL_ACCOUNT_NUMBER、US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER、GCP_CREDENTIALS、GCP_API_KEY。基本配置仅允许执行检查操作，不支持使用 Sensitive Data Protection 模板。如需了解详情，请参阅基本 Sensitive Data Protection 配置。
高级 Sensitive Data Protection 配置：此模式支持使用 Sensitive Data Protection 模板，从而提供更高的灵活性和自定义程度。Sensitive Data Protection 模板是预定义的配置，可让您指定更精细的检测规则和去标识化技术。高级配置支持检查和去标识化操作。

虽然可以为 Sensitive Data Protection 设置置信度，但其运作方式与其他过滤条件的置信度略有不同。如需详细了解 Sensitive Data Protection 的置信度，请参阅 Sensitive Data Protection 匹配可能性。如需详细了解 Sensitive Data Protection，请参阅 Sensitive Data Protection 概览。

恶意网址检测

恶意网址通常伪装成看似合法的网址，因此成为钓鱼式攻击、恶意软件分发和其他在线威胁的有力工具。例如，如果某个 PDF 包含嵌入式恶意网址，则可用于入侵处理 LLM 输出的任何下游系统。

启用恶意网址检测后，Model Armor 会扫描网址以确定其是否为恶意网址。这样，您就可以采取措施，防止返回恶意网址。

Model Armor 置信度级别

您可以为 Responsible AI 安全类别（即露骨色情、危险、骚扰和仇恨言论）、提示注入和越狱以及敏感数据保护（包括主题性）设置置信度。

对于允许精细阈值的置信度，Model Armor 会按如下方式解读：

高：识别消息是否包含高概率的有害内容。
中等及以上：识别消息是否包含中等或高概率的内容。
低及以上：识别消息是否包含低、中或高概率的内容。

定义强制执行类型

强制执行定义了检测到违规行为后会发生什么情况。如需配置 Model Armor 处理检测结果的方式，请设置强制执行类型。Model Armor 提供以下强制执行类型：

仅检查：检查违反配置设置的请求，但不阻止这些请求。
检查并阻止：它会阻止违反配置设置的请求。

如需有效使用 Inspect only 并获得有价值的分析洞见，请启用 Cloud Logging。如果未启用 Cloud Logging，Inspect only 将不会产生任何有用信息。

通过 Cloud Logging 访问日志。按服务名称 modelarmor.googleapis.com 过滤。查找与您在模板中启用的操作相关的条目。如需了解详情，请参阅使用日志浏览器查看日志。

PDF 筛查

PDF 中的文本可能包含恶意内容和敏感内容。Model Armor 可以扫描 PDF，检查其中是否存在安全问题、提示注入和越狱尝试、敏感数据以及恶意网址。

Model Armor 下限设置

虽然 Model Armor 模板可为各个应用提供灵活性，但组织通常需要在所有 AI 应用中建立基准保护级别。这是使用 Model Armor 下限设置的位置。它们充当规则，规定在 Google Cloud 资源层次结构的特定点（即在组织、文件夹或项目级别）创建的所有模板的最低要求。

如需了解详情，请参阅 Model Armor 下限设置。