流程概览

概览

本页面简要介绍了反洗钱 AI 流程,并介绍了供客户了解的关键概念。该课程主要面向将使用 AML AI 来训练、测试和部署模型的团队。

借助 AML AI,银行可以自动训练、测试和部署用于检测洗钱行为的模型。AML AI 指南分为五个左侧导航部分,分别对应于以下五个步骤。

步骤说明
1. 设置 AML AI 确保您的 Google Cloud 项目已准备好使用 AML AI。 启用所需的 Google Cloud 服务,并设置日志记录和配额。 创建一个或多个 AML AI 实例。
2. 为 AML AI 准备数据 查看数据模型和架构。确定要包含哪些数据的优先级。 收集和转换必要的核心银行数据、风险调查数据以及您需要的任何其他数据。创建并验证数据集。
3. 生成模型并评估性能 了解反洗钱 AI 引擎、模型和回测。
  1. 配置引擎
  2. 训练模型
  3. 评估模型的性能
4. 生成风险得分和可解释性 注册您的零售银行和商业银行客户。使用模型为以下各项生成各方风险得分和可解释性:
  • 风险治理分析和测试
  • 预生产和正式版使用
5. 为模型和风险治理做好准备 将来自微调、训练、评估和预测的 AML AI 输出与 AML 概念和产品文档相结合,以满足模型风险治理流程的要求。

用于创建、测试和部署模型的核心 AML AI 技术操作如下所示。这些支持上表中的第 2-4 步。

  1. 创建 AML AI 数据集 - 为 AML AI 创建一组结构化 BigQuery 输入数据表
  2. 引擎配置 - 将 AML AI 引擎调整为 AML AI 数据集,包括超参数调节
  3. 模型训练 - 使用引擎配置和数据集训练 AML AI 模型
  4. 回测 - 针对数据集中的历史数据测试 AML AI 模型,并汇总性能
  5. 注册相关方 - 注册相关方(银行客户,拥有银行产品并发送或接收交易),以便在预测中为其评分
  6. 预测 - 生成派别得分和可解释性,以供在生产环境中使用

引擎配置、模型训练、模型回测和模型预测都需要 AML AI 数据集作为输入,并返回在其他操作中使用的相应工件。例如,模型训练会返回对经过训练的 AML AI 模型的引用,该模型可用于回测或预测。如需了解这些操作的技术详情,请参阅 REST 参考概览

AML AI 流程的依赖项树

AML AI 流程的依赖项树

使用 AML AI 时的重要注意事项

本部分旨在向客户介绍反洗钱 AI 的关键概念,并提供一些最佳实践建议。专门的指南中会更详细地介绍本文中的主题,并提供了一些链接以供进一步阅读。

日期一致性

AML AI 会针对不同的操作使用不同的时间段。请谨慎选择每项操作的日期,以确保获得可靠的结果。特别要指出的是,为避免结果出现偏差,请务必确保用于训练反洗钱 AI 模型的月份与用于回溯测试的月份不重叠。

由于 AML AI 数据集包含数月的数据,因此数据集可用于多项操作,前提是选择正确的日期。下图展示了使用 AML AI 的开发周期,其中单个数据集(跨 42 个月)中的不同时间段用于配置引擎(超参数调优)、训练和回测。所有这些过程都使用回溯期,回溯期可为模型提供背景信息,并且可以安全地与用于其他操作的数据重叠。

如需详细了解 AML AI 数据集和不同操作的时间范围,请参阅了解数据范围和时长

为确保您正确记录数据在一段时间内的变化,请参阅数据在一段时间内的变化

创建 AML AI 数据集 - 第 1-4 步

生产环境批处理频率

在预测时,AML AI 会按日历月生成 AML 风险得分。客户通常会在每月批量处理流程中使用 AML AI,建议他们尽可能针对包含完整交易数据的月份运行预测。

字段一致性

与任何机器学习流程一样,训练数据和测试数据中的数据应尽可能保持一致。如果字段未以一致的方式填充,更改可能会导致结果不可靠。强烈建议您采取措施,确保在开发周期中的每项操作中以一致的方式填充字段,如果为每项操作使用不同的数据集,这一点尤为重要。如需了解详情,请参阅数据集一致性

引擎配置

创建引擎配置后,通常不需要为每个新数据集或在每个开发周期中重新创建该配置。在引擎配置中为一个数据集选择的超参数通常在类似的数据集上也能取得良好的效果。

迭代开发周期如以下图所示,而上图使用单个数据集同时进行模型训练和回测操作。

如需了解详情,请参阅何时调整或继承

创建 AML AI 数据集 - 第 3-4 步

数据沿袭

大多数模型治理政策都要求跟踪从引擎配置、训练、评估和预测等所有机器学习操作中使用的数据谱系。客户负责跟踪此数据谱系。

我们建议您在所有输入数据、AML AI 资源和输出数据的名称中使用唯一标识符,以便跟踪各个阶段的谱系。这有助于确保在特定运行中资源之间建立强关联。客户还可以为所有 AML AI 资源添加标签,以满足谱系要求。

此外,我们建议在 API 请求中使用 BigQuery 快照,以确保数据沿袭准确无误。

此配置有助于回答“此引擎配置来自何处?”和“此模型来自何处?”等问题,同时有助于调查和解决突发事件。

如需详细了解如何创建和管理 AML AI 资源,请参阅 REST API 页面。

创建 AML AI 数据集 - 第 3-4 步