Se usó la API de Cloud Translation para traducir esta página.

Descripción general de la preparación del modelo

En esta página, se te guiará a través de los pasos para preparar un modelo de IA de AML, siempre que ya hayas configurado una instancia y preparado los conjuntos de datos necesarios.

Descripción general de las etapas

El proceso para preparar un modelo se describe en las siguientes tres etapas:

Etapa 1: Configura un motor, lo que incluye seleccionar la fuente de los hiperparámetros:
- Ajuste: Ajuste automático de hiperparámetros
- Heredar: Hereda los hiperparámetros de una configuración de motor anterior que se creó con una versión anterior del motor dentro de la misma versión de ajuste. Este parámetro de configuración te permite evitar volver a ajustar cada vez que adoptas una nueva versión del motor de modelos.
Crear una configuración del motor almacena los resultados de la sintonización o la herencia en un recurso EngineConfig.
Etapa 2: Genera un modelo

Crear un modelo activa el entrenamiento y almacena los resultados como un recurso de modelo.
Etapa 3: Evalúa un modelo

Crear resultados de la prueba retrospectiva evalúa el rendimiento del modelo en un conjunto especificado de meses y almacena los resultados del resumen en un recurso BacktestResult. De manera opcional, la creación de resultados de la predicción te permite evaluar los resultados por partido del modelo.

Una vez que hayas completado las etapas anteriores y el rendimiento del modelo satisfaga tus necesidades, consulta las instrucciones en las secciones Generar puntuaciones de riesgo y explicabilidad y Prepárate para la gobernanza de modelos y riesgos.

Antes de comenzar

Antes de comenzar, necesitarás lo siguiente:

Uno o más conjuntos de datos
Una versión del motor que se usará

Requisitos del conjunto de datos

Para obtener orientación detallada sobre el modelo de datos y el esquema, consulta las páginas de Cómo preparar datos para la IA contra el lavado de dinero. En esta sección, se explica cómo asegurarse de que los conjuntos de datos que se usan en el ajuste, el entrenamiento y la evaluación del motor funcionen bien en conjunto.

Nota: La mayoría de las políticas de gobernanza de modelos definen un requisito para hacer un seguimiento del linaje de datos que se usa en todas las operaciones de AA, desde la configuración del motor, el entrenamiento y la evaluación. Para garantizar que los datos no se modifiquen, te recomendamos que creas un instantáneo de la tabla de BigQuery de tus tablas de BigQuery después de que pasen la validación de datos y hagas referencia al instantánea en el conjunto de datos de IA de AML. Si haces referencia a tablas actualizadas con frecuencia, las operaciones de la AI de AML leen las tablas de BigQuery cada vez que una operación usa el conjunto de datos de la AI de AML, por lo que los cambios en las tablas subyacentes de BigQuery podrían afectar la optimización, el entrenamiento, la simulación de pruebas y las predicciones.

Intervalos de tiempo de los conjuntos de datos

Cada conjunto de datos que se use para las operaciones de ajuste, entrenamiento, pruebas retrospectivas y predicción debe contener datos válidos para un período que finalice al final del último mes calendario completo anterior a la hora de finalización especificada en la llamada a la API. La duración de este período depende de la tabla, la versión de Engine y la operación. El intervalo de tiempo mínimo se explica en detalle en Comprende el alcance y la duración de los datos.

Por ejemplo, para el ajuste del motor con las versiones del motor v004.004, la tabla de transacciones debe abarcar al menos 30 meses.

La configuración de un motor, el entrenamiento y la evaluación (simulación retrospectiva) se pueden completar con un solo conjunto de datos. Consulta la siguiente imagen. Para garantizar un buen rendimiento en producción evitando el sobreajuste, debes asegurarte de que el período utilizado para la evaluación (es decir, la creación de resultados de la prueba retrospectiva) sea posterior al período utilizado para el entrenamiento (es decir, la creación de un modelo).

Por ejemplo, si usas 3 períodos para la simulación y usas períodos hasta fines de febrero de 2024 para el entrenamiento (es decir, la hora de finalización a principios de marzo de 2024), puedes usar períodos hasta fines de mayo de 2024 para la simulación (es decir, la hora de finalización a principios de junio de 2024).

Intervalos de tiempo de los conjuntos de datos para el ajuste, el entrenamiento y la simulación de pruebas

Coherencia del conjunto de datos

Cuando uses diferentes conjuntos de datos para las etapas de ajuste, entrenamiento y evaluación del motor, haz que los conjuntos de datos sean coherentes en qué campos se propagan y cómo se propagan. Esto es importante para la estabilidad y el rendimiento del modelo de la AML.

Del mismo modo, para obtener una puntuación de riesgo de alta calidad, el conjunto de datos que se usa para crear resultados de predicción con un modelo debe ser coherente con el conjunto de datos que se usa para entrenar ese modelo.

En particular, asegúrate de lo siguiente:

Se usa la misma lógica para propagar cada campo. Cambiar la lógica que se usa para propagar un campo puede introducir sesgos de atributos entre el entrenamiento de modelos y la predicción o evaluación.
Se propaga la misma selección de campos RECOMENDADOS. Por ejemplo, quitar un campo que se propagó durante el entrenamiento de modelos puede hacer que los atributos en los que se basa el modelo se distorsionen o no estén disponibles durante la evaluación o predicción.
Se usa la misma lógica para proporcionar valores. En la tabla PartySupplementaryData, se usa la misma lógica para proporcionar valores para cada campo party_supplementary_data_id.
- El uso de los mismos datos, pero con diferentes valores de party_supplementary_data_id, hace que el modelo use los datos de forma incorrecta. Por ejemplo, un campo particular usa el ID 5 en la tabla PartySupplementaryData para un conjunto de datos, pero luego usa el ID 7 en otro conjunto de datos.
- Quitar un valor party_supplementary_data_id del que depende un modelo puede tener efectos impredecibles. Por ejemplo, el ID 3 se usa en la tabla PartySupplementaryData de un conjunto de datos, pero se omite de otro.

Ahora tienes un conjunto de datos listo para el ajuste, el entrenamiento y la evaluación del motor. Ten en cuenta que las operaciones de modelos pueden tardar decenas de horas. Para obtener información sobre cómo verificar si una operación aún se está ejecutando o se completó (falló o se realizó correctamente), consulta Administra operaciones de larga duración.