En esta página, se te guiará a través de los pasos para preparar un modelo de IA de AML, siempre que ya hayas configurado una instancia y preparado los conjuntos de datos necesarios.
Descripción general de las etapas
El proceso para preparar un modelo se describe en las siguientes tres etapas:
Etapa 1: Configura un motor, lo que incluye seleccionar la fuente de los hiperparámetros:
- Ajuste: Ajuste automático de hiperparámetros
- Heredar: Hereda los hiperparámetros de una configuración de motor anterior que se creó con una versión anterior del motor dentro de la misma versión de ajuste. Este parámetro de configuración te permite evitar volver a ajustar cada vez que adoptas una nueva versión del motor de modelos.
Crear una configuración del motor almacena los resultados de la sintonización o la herencia en un recurso EngineConfig.
Etapa 2: Genera un modelo
Crear un modelo activa el entrenamiento y almacena los resultados como un recurso de modelo.
Etapa 3: Evalúa un modelo
Crear resultados de la prueba retrospectiva evalúa el rendimiento del modelo en un conjunto especificado de meses y almacena los resultados del resumen en un recurso BacktestResult. De manera opcional, la creación de resultados de predicción te permite evaluar los resultados por partido del modelo.
Una vez que hayas completado las etapas anteriores y el rendimiento del modelo cubra tus necesidades, consulta las instrucciones en las secciones Generar puntuaciones de riesgo y explicabilidad y Prepárate para la gobernanza de modelos y riesgos.
Antes de comenzar
Antes de comenzar, necesitarás lo siguiente:
- Uno o más conjuntos de datos
- Una versión del motor que se usará
Requisitos del conjunto de datos
Para obtener orientación detallada sobre el modelo de datos y el esquema, consulta las páginas de Cómo preparar datos para la IA contra el lavado de dinero. En esta sección, se explica cómo asegurarse de que los conjuntos de datos que se usan en el ajuste, el entrenamiento y la evaluación del motor funcionen bien en conjunto.
Intervalos de tiempo de los conjuntos de datos
Cada conjunto de datos que se use para las operaciones de ajuste, entrenamiento, pruebas retrospectivas y predicción debe contener datos válidos para un período que finalice al final del último mes calendario completo anterior a la hora de finalización especificada en la llamada a la API. La duración de este período depende de la tabla, la versión de Engine y la operación. El intervalo de tiempo mínimo se explica en detalle en Comprende el alcance y la duración de los datos.
Por ejemplo, para el ajuste del motor con las versiones del motor v004.004, la tabla de transacciones debe abarcar al menos 30 meses.
La configuración de un motor, el entrenamiento y la evaluación (simulación retrospectiva) se pueden completar con un solo conjunto de datos. Consulta la siguiente imagen. Para garantizar un buen rendimiento en producción evitando el sobreajuste, debes asegurarte de que el período utilizado para la evaluación (es decir, la creación de resultados de la prueba retrospectiva) sea posterior al período utilizado para el entrenamiento (es decir, la creación de un modelo).
Por ejemplo, si usas 3 períodos para la simulación y usas períodos hasta fines de febrero de 2024 para el entrenamiento (es decir, la hora de finalización a principios de marzo de 2024), puedes usar períodos hasta fines de mayo de 2024 para la simulación (es decir, la hora de finalización a principios de junio de 2024).
Coherencia del conjunto de datos
Cuando uses diferentes conjuntos de datos para las etapas de ajuste, entrenamiento y evaluación del motor, haz que los conjuntos de datos sean coherentes en qué campos se propagan y cómo se propagan. Esto es importante para la estabilidad y el rendimiento del modelo de la AML.
Del mismo modo, para obtener una puntuación de riesgo de alta calidad, el conjunto de datos que se usa para crear resultados de predicción con un modelo debe ser coherente con el conjunto de datos que se usa para entrenar ese modelo.
En particular, asegúrate de lo siguiente:
- Se usa la misma lógica para propagar cada campo. Cambiar la lógica que se usa para propagar un campo puede introducir sesgos de atributos entre el entrenamiento de modelos y la predicción o evaluación.
- Se propaga la misma selección de campos RECOMENDADOS. Por ejemplo, quitar un campo que se propagó durante el entrenamiento de modelos puede hacer que los atributos en los que se basa el modelo se distorsionen o no estén disponibles durante la evaluación o predicción.
Se usa la misma lógica para proporcionar valores. En la tabla PartySupplementaryData, se usa la misma lógica para proporcionar valores para cada campo
party_supplementary_data_id
.- El uso de los mismos datos, pero con diferentes valores de
party_supplementary_data_id
, hace que el modelo use los datos de forma incorrecta. Por ejemplo, un campo particular usa el ID5
en la tabla PartySupplementaryData para un conjunto de datos, pero luego usa el ID7
en otro conjunto de datos. - Quitar un valor
party_supplementary_data_id
del que depende un modelo puede tener efectos impredecibles. Por ejemplo, el ID3
se usa en la tabla PartySupplementaryData de un conjunto de datos, pero se omite de otro.
- El uso de los mismos datos, pero con diferentes valores de
Ahora tienes un conjunto de datos listo para el ajuste, el entrenamiento y la evaluación del motor. Ten en cuenta que las operaciones de modelos pueden tardar decenas de horas. Para obtener información sobre cómo verificar si una operación aún se está ejecutando o se completó (falló o se realizó correctamente), consulta Administra operaciones de larga duración.