本术语表定义了 AML AI 的专用术语。如需了解常见的机器学习术语,请参阅机器学习术语表。
A
- ADC
每个 API 客户端库都提供了使用本地应用默认凭据 (ADC) 的方法
有关本地 ADC 凭据和 gcloud CLI 凭据,请参阅 gcloud CLI 凭据和 ADC 凭据
B
- 回归测试
- 回溯测试会使用历史数据来评估模型的性能(观察到的召回率),方法是将模型生成的风险得分与历史调查的实际结果进行比较。
- 回测结果
- 创建 AML AI BacktestResult 资源(也称为“回溯结果”),用于测试模型在数据集上的表现。
- 如需了解详情,请参阅评估模型。
C
- 核心银行数据
- 核心银行数据包括有关相关方、交易和账户余额的数据。这有助于反洗钱 AI 了解您的客户及其银行活动,以便检测风险特征和行为。
- 核心时间范围
核心时间范围是指 AML AI 操作(引擎配置、训练、回测和预测)中用于生成训练、评估示例或模型输出的时段。此时间范围 必须被数据集中的所有表覆盖。
不同的 API 操作对生成特征和标签的核心时间范围有不同的要求。如需了解详情,请参阅了解数据范围和时长。
另请参阅回溯期。
D
- 数据验证
- AML AI 会在创建数据集、引擎配置、模型、回测结果或预测结果时进行数据验证检查。如果指定的数据集未通过数据验证,则系统不会创建资源,并会生成数据验证错误(指明问题的性质)。
- 如需了解详情,请参阅数据验证错误。
- dataset
AML AI Dataset 资源(或简称“Dataset”)用于指定符合 AML 输入数据模型的数据,这些数据可用于生成模型、评估模型的性能,以及生成每个相关方的风险评分和可解释性。
如需了解详情,请参阅 了解 AML 数据模型和要求。
E
- 结束时间
使用数据集的 AML AI 操作需要您指定结束时间。此字段用于控制使用数据集中的哪些月份 用于生成训练或评估示例和模型输出。
操作的结束时间和所有月份都必须在关联数据集的日期范围内。
例如,训练操作需要 15 个月的核心时间范围。如果您使用的数据集的日期范围为 2021 年 10 月 15 日至 2023 年 5 月 21 日,结束时间为 2023 年 4 月 12 日,则在训练过程中,系统会使用 2022 年 1 月至 2023 年 3 月的示例(这些日期在数据集的日期范围内)。
- 引擎配置
AML AI EngineConfig 资源 (也称为“引擎配置”)指定在生成和 评估 AML AI 模型,以及生成风险评分 可解释性。
其中一些参数是在创建引擎的 API 调用中指定 例如引擎版本和预期的调查量。其他 由 AML AI 使用 例如经过调整的超参数。
如需了解详情,请参阅配置引擎。
- 引擎版本
AML AI EngineVersion 资源(也称为“引擎版本”)用于定义 AML AI 检测风险的方式,包括模型调优、训练和评估,以及整体 AML 数据模型和特征族。
配置 AML AI 引擎需要您指定要使用的引擎版本。然后,系统会 用于使用该引擎配置训练和评估模型,并生成风险 得分和可解释性。
引擎版本命名结构如下,引擎类型表示支持的业务线,引擎子类型、调整、主要版本和次要版本会随着实现新行为而更新。
示例版本包括:
aml-retail.default.v004.000.202312-000
aml-commercial.default.v004.000.202312-000
如需详细了解如何管理引擎版本,请参阅管理引擎版本。
- 评估
另请参阅回测。
- 可解释性
AML AI 模型用于确定 洗钱风险较高的行为或特征。 可解释性表示哪些行为或特征对给定方获得高风险得分贡献最大。
如需了解详情,请参阅 了解预测输出。
另请参阅预测。
- 导出元数据
一些 AML AI 资源存储了 性能和数据质量 - 可以使用导出数据 元数据操作。
如需了解详情,请参阅 AML 输出数据模型。
F
- 特征系列
- 特征系列是相关机器学习特征的集合, 提供直观易懂的分类, 调查人员和内部审核团队。
I
- 不可变实体
AML AI 需要能够在不同时间点重新创建数据视图,以进行调整、训练和回溯测试。为此,AML AI 会区分可变实体(值可能会随时间而变化)和不可变实体(值不会变化)。
例如,可变实体可能是您的支票账户余额, 可能会随时间变化但是不可变实体可能是一个事件 在 2024 年 7 月 2 日 12:00:00,从您的支票账户中提取 50 美元 因为它是当时快照,所以不会发生变化。
在 AML 输入数据模型中,表示不可变实体的表 不含
validity_start_time
和is_entity_deleted
这两个字段这包括 RiskCaseEvent 表。如需了解详情,请参阅了解数据随时间的变化情况。
另请参阅可变实体。
- instance
AML AI 实例资源 (也称为“实例”)位于所有其他 AML AI 的根上 您必须先创建这些资源,然后才能使用其他 AML AI 资源。您可以在项目中同一区域内创建多个实例。
如需了解详情,请参阅创建 AML AI 实例。
- 调查流程
调查流程涵盖由提醒触发的整个调查或一系列调查。当第一部分完成时 在预计没有进一步结果时开始并结束调查 。
如需了解详情,请参阅 风险案例的生命周期。
L
- 回溯期
除了核心时间范围之外,AML AI 操作还要求数据集包含回溯期,以便生成可跟踪行为随时间推移变化的特征。
如需了解详情,请参阅了解数据范围和时长。
- LRO
多项 AML AI 操作(包括引擎配置、训练、回溯测试和预测)都会发起长时间运行的操作 (LRO)。
如需了解详情,请参阅 管理长时间运行的操作。
M
- 缺失
在创建 以下 AML AI 资源:引擎配置、模型、回测 和预测结果。
该指标显示某个时间段内所有特征的缺失值所占的份额 特征系列。如果任何特征族在调优、训练、评估和预测阶段的缺失率发生显著变化,则可能表明所用数据集不一致。
- model
AML AI 模型资源 (也称为“模型”)表示一种经过训练的模型, 生成风险评分和可解释性。
- 可变实体
AML AI 需要能够在不同时间点重新创建数据视图,以进行调整、训练和回溯测试。为了实现 AML AI 能够区分 值)和不可变实体(不会发生变化)。
例如,可变实体可能是您的支票账户余额,它可能会随时间而变化;但不可变实体可能是某个事件,例如 2024 年 7 月 2 日 12:00:00 从您的支票账户中提取 50 美元,这是一个时间点的快照,因此不会发生变化。
在 AML 输入数据模型中,表示可变实体的表具有
validity_start_time
和is_entity_deleted
字段。这包括 第三方、AccountPartyLink、 Transaction 和 PartySupplementaryData 表。如需了解详情,请参阅了解数据随时间的变化情况。
另请参阅不可变实体。
O
- 观测到的召回率
AML AI 使用 观测到的召回率指标。
此指标显示在所选时间段内被标记为正例(例如,客户流失)的相关方所占的比例。如果在可疑活动期内,被评估的模型将这些相关方识别为高风险,则此比例会更高。
P
- 方
在 AML 输入数据模型中,相关方代表银行的客户。当事人可以是自然人,也可以是法律实体。
如需了解详情,请参阅派对表。
另请参阅已注册方。
- 预测
- 预测结果
AML AI PredictionResult 资源 (也称为“预测结果”)是使用模型 预测。
如需详细了解如何生成风险得分和可解释性,以及 如何在调查过程中使用这些功能,请参阅本节中的页面 生成风险得分和可解释性。
R
- 已注册的相关方
- 在方可用于生成预测结果(例如方级风险评分和可解释性)之前,该方必须已注册相应的业务领域。
- 风险案例
风险案例涵盖一个调查过程或一组相关 调查流程。
请参阅 RiskCaseEvent 表。
- 风险调查数据
AML AI 会使用风险调查数据来了解您的风险调查流程和结果,并生成训练标签。
- 风险评分
AML AI 模型用于确定 洗钱风险较高的行为或特征。这通过风险评分来实现。
风险评分介于 0 到 1 之间。分数越高,表示风险越高。不过,风险信号不应直接解读为洗钱活动的概率。
如需了解详情,请参阅了解预测输出。
- 风险类型
AML AI 可在与交易监控相关的五种核心反洗钱风险类型中识别洗钱风险。
有了充足的调查数据和补充方数据(请参阅补充数据表格),AML AI 可以涵盖更多类型。
S
- 补充数据
例如,您可以识别并添加风险指标来帮助 更好地预测原本没有很好涵盖的风险类型。
您可以使用 PartySupplementaryData 表中显示。
- 可疑活动期间
“可疑活动期”是指您认为被调查方在此时间段内表现出可疑行为的时间段。它用于模型 评估(例如,回测结果的召回率指标)以确认 发现高风险客户是在客户流失 可疑活动
如需了解详情,请参阅风险信号的生命周期。
T
- 训练
- AML AI 使用 超参数(请参阅调优)。
- 调音
- 调优是指优化模型超参数。AML AI 会在创建引擎配置的过程中进行调优。
V
- 有效期开始时间
AML AI 会使用可变实体的有效性开始时间来构建一个视图,以了解银行在给定时间点知道了什么。这样一来,AML AI 便可准确训练可在最新数据(即银行已知的数据)上重复使用的模型,从而生成高保真度风险评分。
给定行的有效开始时间表示银行知道此行中数据且数据正确的最早时间。
如需了解详情,请参阅了解数据随时间的变化情况。