概览
本页面简要介绍了 AML AI 流程,并介绍了关键概念 便于客户理解该策略主要面向需要使用 AML AI,用于训练、测试和部署模型。
AML AI 使银行能够自动训练、测试和部署 来检测洗钱活动。AML AI 指南分为五个左侧导航部分,分别对应于以下五个步骤。
步骤 | 说明 |
---|---|
1. 设置 AML AI | 确保您的 Google Cloud 项目已准备好使用 AML AI。 启用所需的 Google Cloud 服务并设置日志记录和配额。 创建一个或多个 AML AI 实例。 |
2. 为 AML AI 准备数据 | 查看数据模型和架构。确定要包含哪些数据的优先级。 收集和转换必要的核心银行数据、风险调查数据以及您需要的任何其他数据。创建并验证数据集。 |
3. 生成模型并评估性能 | 了解反洗钱 AI 引擎、模型和回测。
|
4. 生成风险得分和可解释性 | 注册您的零售和商业银行客户。使用模型为以下各项生成各方风险得分和可解释性:
|
5. 为模型和风险治理做好准备 | 整合 AML AI 通过调优、训练、 评估和预测,并参考 AML 概念和产品文档, 满足模型风险治理流程的要求。 |
核心 AML AI 技术操作,用于创建、测试和部署 如下所示。这些支持上表中的第 2-4 步。
- 创建 AML AI 数据集 - 为 AML AI 创建一组结构化 BigQuery 输入数据表
- 引擎配置 - 针对 AML AI 数据集调整 AML AI 引擎,包括超参数调节
- 模型训练 - 使用引擎训练 AML AI 模型 配置和数据集
- 回测 - 根据历史数据测试 AML AI 模型 数据集上的数据,并总结性能
- 注册方 - 注册方(已 银行产品以及汇款或收款交易)进行评分, 预测
- 预测 - 生成派对分数和可解释性,以用于 正式版
引擎配置、模型训练、模型回测和模型预测全部 需要将 AML AI 数据集作为输入,并返回相应的制品 也会在其他操作中使用例如,模型训练会返回对经过训练的 AML AI 模型的引用,该模型可用于回测或预测。如需了解这些操作的技术详情,请参阅 REST 参考概览。
AML AI 流程的依赖关系树
使用 AML AI 时的重要注意事项
本部分旨在向客户介绍反洗钱 AI 的关键概念,并提供一些最佳实践建议。此处的主题包括 会在专门的指南中详细介绍,并提供相应链接, 阅读。
日期一致性
AML AI 针对不同的操作使用不同的时间段。 请务必谨慎选择每项操作的日期 获得可靠的结果。具体来说,为了避免结果产生偏差,请务必 用于训练 AML AI 模型的月份和 用于回测的月份。
由于 AML AI 数据集包含数月的数据, 可用于执行多项操作,需确保所选日期正确无误。 下图展示了使用 AML AI 的开发周期, 在单个数据集中使用跨越 42 个月的不同时间段 来配置引擎(超参数调节)、训练和回测。全部 这些过程使用回溯窗口为模型提供背景信息, 与用于其他操作的数据安全地重叠。
如需详细了解 AML AI 数据集和 操作,请参阅了解数据范围和时长。
为确保正确记录一段时间内的数据更改,请参阅数据随时间变化的情况。
生产批处理频率
在预测时,AML AI 会按日历月生成 AML 风险得分。客户通常在每月批处理过程中使用 AML AI,他们 建议对具有完整交易数据的月份运行预测,
字段一致性
与任何机器学习流程一样,训练数据和测试数据中的数据应尽可能保持一致。如果字段未以一致的方式填充,则更改可能会导致结果不可靠。我们强烈建议您 以确保为系统中的每个操作 特别是在使用不同的数据集时,更是如此。 。如需了解详情,请参阅数据集一致性。
引擎配置
创建引擎配置后,通常不需要为每个新数据集或在每个开发周期中重新创建该配置。在引擎配置中为一个数据集选择的超参数通常在类似的数据集上也能取得良好的效果。
迭代开发周期如以下图所示,而上图使用单个数据集同时进行模型训练和回测操作。
如需了解详情,请参阅何时调整或继承。
数据沿袭
大多数模型治理政策都要求跟踪从引擎配置、训练、评估和预测等所有机器学习操作中使用的数据谱系。客户负责跟踪此数据谱系。
我们建议您在所有输入数据、AML AI 资源和输出数据的名称中使用唯一标识符,以便跟踪各个阶段的谱系。这有助于确保特定运行期间资源之间的强关联。 客户还可以为所有 AML AI 资源添加标签,以满足谱系要求。
此外,我们建议在 API 请求中使用 BigQuery 快照 确保准确的数据沿袭
此配置有助于回答“此引擎在哪里”这样的问题 配置来源?”以及“这个模型从何而来?”同时帮助 调查和解决突发事件。
如需详细了解如何创建和管理 AML AI 资源,请参阅 REST API 页面。