AML AI 术语表

本术语表定义了 AML AI 专用术语。如需了解常见的机器学习术语,请参阅机器学习术语表

B

回测

回测使用历史数据来评估模型的性能(观测到的召回率),方法是将模型生成的风险得分与历史调查的实际结果进行比较。

回测结果

系统会创建一个 AML AI BacktestResult 资源(也称为“回测结果”),用于测试model数据集上的性能。如需了解详情,请参阅评估模型

C

核心银行数据

核心银行数据包括有关各方、交易和账号持有的数据。它可帮助 AML AI 了解您的客户及其银行活动,以检测风险特征和行为。

核心时段

核心时间范围是指 AML AI 操作(引擎配置、训练、回测和预测)中用于生成训练、评估示例或模型输出的时间范围。数据集中的所有表都必须涵盖此时间范围。

不同的 API 操作对生成特征和标签的核心时间窗口有不同的要求。如需了解详情,请参阅了解数据范围和时长

D

数据集

AML AI 数据集资源(或简称“数据集”)用于指定数据,这些数据遵循 AML 输入数据模型,可用于生成模型、评估模型的性能,以及生成风险得分和各方可解释性。如需了解详情,请参阅了解 AML 数据模型和要求

数据验证

AML AI 会在创建数据集、引擎配置、模型、回测结果或预测结果时执行数据验证检查。如果指定的数据集未通过数据验证,则不会创建相应资源,并且会生成数据验证错误(表明问题的性质)。如需了解详情,请参阅数据验证错误

E

结束时间

使用数据集的 AML AI 操作需要您指定结束时间。此字段用于控制数据集中的哪些月份用于生成训练或评估示例和模型输出。

操作的结束时间和所有月份应在关联数据集的日期范围之内。例如,一项训练操作需要 15 个月的核心时间窗口。如果使用日期范围为 2021 年 10 月 15 日至 2023 年 5 月 21 日的数据集,结束时间为 2023 年 4 月 12 日,则训练会使用 2022 年 1 月到 2023 年 3 月这一日历月中的样本,即数据集的日期范围。

引擎配置

AML AI EngineConfig 资源(也称为“引擎配置”)指定了生成和评估 AML AI 模型以及生成风险评分和可解释性的参数。

其中一些参数是在 API 调用中指定的,用于创建引擎配置,例如引擎版本和预期的调查量。其他参数则由 AML AI 使用指定数据集(例如经调整的超参数)自动生成。如需了解详情,请参阅配置引擎

引擎版本

AML AI EngineVersion 资源(也称为“引擎版本”)定义了 AML AI 检测风险的各个方面,其中包括模型调整、训练和评估,以及整个 AML 数据模型和特征系列。

配置 AML AI 引擎时,您需要指定要使用的引擎版本。然后,引擎版本会用于训练和评估具有该引擎配置的模型,以及生成风险评分和可解释性。

引擎版本命名的结构如下:引擎类型表示支持的业务线,引擎子类型、调优、主要版本和次要版本会随着新行为的实现而更新。示例版本包括 aml-retail.default.v004.000.202312-000 和 aml-Commercial.default.v004.000.202312-000。

引擎版本控制

如需详细了解如何管理引擎版本,请参阅管理引擎版本

评估版

请参阅回测

可解释性

AML AI 模型用于识别存在高洗钱风险的行为或特征的各方。可解释性表示对于指定一方,哪些行为或特征对高风险得分贡献最大。如需了解详情,请参阅了解预测输出

导出元数据

多项 AML AI 资源会存储与性能和数据质量相关的额外信息,这些信息可通过导出元数据操作访问。如需了解详情,请参阅 AML 输出数据模型

F

功能系列

特征系列是相关机器学习特征的集合,提供简单易懂的分类,可为调查人员和内部审核团队提供信息。

I

不可变实体

AML AI 需要能够在不同时间点重新创建数据视图,以进行调优、训练和回测。为了实现这一点,AML AI 会区分可变实体(即可以随时间改变值的实体)和不可变实体(例如,在出现或发生后不会合理地更改的事件)。

AML 输入数据模型中,表示不可变实体的表没有 validity_start_timeis_entity_deleted 字段。其中包括 RiskCaseEvent 表。如需了解详情,请参阅了解数据随时间变化的情况

另请参阅可变实体

实例

AML AI 实例资源(也称为“实例”)位于所有其他 AML AI 资源的根位置,必须先创建,然后才能使用其他 AML AI 资源。您可以在项目的同一区域中创建多个实例。如需了解详情,请参阅创建 AML AI 实例

调查流程

调查流程涵盖整个调查或由提醒触发的调查序列。调查流程从调查的第一部分开始,当调查不会产生后续结果时,便会结束调查。如需了解详情,请参阅风险案例的生命周期

L

业务线 (LOB)

业务线用于区分 AML AI 中的零售和商业银行客户。数据集、引擎版本和各方注册均与特定业务线(零售或商业领域)相关联。

长时间运行的操作 (LRO)

多个 AML AI 操作(包括引擎配置、训练、回测和预测)会启动长时间运行的操作 (LRO)。如需了解详情,请参阅管理长时间运行的操作

回溯期

除了核心时间窗口之外,AML AI 操作还要求数据集包含回溯期,以便生成可跟踪行为随时间变化的功能。如需了解详情,请参阅了解数据范围和时长

M

缺失

创建以下 AML AI 资源时,系统会为所有特征系列计算缺失性指标:引擎配置、模型、回测结果和预测结果。

该指标显示特征系列中所有特征的缺失值所占的比例。在调整、训练、评估和预测之间,任何特征系列的缺失性发生显著变化可能表明所用数据集存在不一致。

model

AML AI 模型资源(也称为“模型”)表示经过训练的模型,可用于生成风险得分和可解释性。

可变实体

AML AI 需要能够在不同时间点重新创建数据视图,以进行调优、训练和回测。为了实现这一点,AML AI 会对可能会随时间改变值的实体和不可变实体(例如,当存在或发生时不会合理地更改的事件)进行区分。

AML 输入数据模型中,表示可变实体的表具有 validity_start_timeis_entity_deleted 字段。包括 PartyAccountPartyLinkTransactionPartySupplementaryData 表。如需了解详情,请参阅了解数据随时间变化的情况

另请参阅不可变实体

O

观察到的召回率

AML AI 使用“观察到的召回率”指标来衡量模型在历史数据方面的性能。

该指标显示在所选时间段内,被评估的模型在可疑活动期被识别为高风险的已加标签的正向相关方(例如客户退出)的比例。

P

团体

AML 输入数据模型中,一方代表银行的客户。一方可以是自然人,也可以是法律实体。如需了解详情,请参阅 Party 表。另请参阅注册方

预测

预测功能使用模型来生成风险评分可解释性,供您在 AML 调查流程中使用。

预测结果

AML AI PredictionResult 资源(也称为“预测结果”)是使用模型创建预测的结果。如需详细了解如何生成风险评分和可解释性,以及如何在调查过程中使用这些内容,请参阅生成风险评分和可解释性部分中的页面。

R

注册方

在使用某一来创建预测结果(例如,方级风险得分和可解释性)之前,该方必须已注册相应业务线

风险案例

风险案例涵盖不同各方的调查流程或一组相关调查流程。

请参阅 RiskCaseEvent 表。

风险调查数据

AML AI 使用风险调查数据来了解您的风险调查流程和结果,并生成训练标签。

风险评分

AML AI 模型用于识别存在高洗钱风险的行为或特征的各方。这是通过风险评分实现的。

风险评分从 0 到 1 不等。分数越高,表示风险越高。但是,风险得分不应直接解释为洗钱活动的概率。如需了解详情,请参阅了解预测输出

风险类型学

AML AI 可根据与交易监控相关的五大核心 AML 风险类型识别洗钱风险。

有了足够的调查和补充性数据(请参阅补充数据表),AML AI 可以涵盖更多类型。

S

补充数据

补充数据是除 AML AI 架构的核心银行数据风险调查数据部分包含的数据之外的其他数据,这些数据与预测洗钱风险有关。例如,您可以识别并添加一个风险指标,帮助模型更好地预测原本未准确涵盖的风险类型。

您可以使用 PartySupplementaryData 表向数据集添加补充数据。

可疑活动期间

可疑活动期是指您认为被调查方存在可疑行为的时间段。这用于模型评估(例如,回测结果的召回率指标),用于确认在高风险客户存在可疑活动的月份中识别出了这些客户。如需了解详情,请参阅风险案例的生命周期

T

训练

AML AI 会在使用指定引擎配置的超参数(请参阅调整)创建模型时进行训练。

调参

调优是指优化模型超参数。AML AI 会在创建引擎配置的过程中进行调优。

V

有效期开始时间

AML AI 使用可变实体的有效性开始时间来构建银行在给定时间点已知的信息的视图。这使 AML AI 能够准确地训练可基于最新数据(即银行当前已知的数据)重复使用的模型,以生成高保真风险得分。指定行的有效开始时间表示银行知道该行数据的最早时间。如需了解详情,请参阅了解数据随时间变化的情况