Esta página explica os passos para preparar um modelo de IA de AML, partindo do princípio de que já configurou uma instância e preparou os conjuntos de dados necessários.
Vista geral das fases
O processo de preparação de um modelo é abordado nas três fases seguintes:
Fase 1: Configure um motor, incluindo a seleção da origem dos hiperparâmetros:
- Aperfeiçoamento: aperfeiçoamento automático de hiperparâmetros
- Herdar: herde hiperparâmetros de uma configuração do motor anterior que foi criada com uma versão do motor anterior na mesma versão de otimização. Esta definição permite-lhe evitar a reajustar cada vez que adota uma nova versão do motor do modelo.
A criação de uma configuração do motor armazena os resultados da otimização ou da herança num recurso EngineConfig.
Fase 2: Gerar um modelo
A criação de um modelo aciona a preparação, armazenando os resultados como um recurso de modelo.
Fase 3: Avalie um modelo
A criação de resultados de testes retroativos avalia o desempenho do modelo num conjunto especificado de meses, armazenando os resultados do resumo num recurso BacktestResult. Opcionalmente, criar resultados de previsão permite-lhe avaliar os resultados por parte do modelo.
Depois de concluir as fases anteriores e o desempenho do modelo satisfazer as suas necessidades, consulte as orientações nas secções Gerar classificações de risco e explicabilidade e Preparar-se para a governação de modelos e riscos.
Antes de começar
Antes de começar, precisa do seguinte:
- Um ou mais conjuntos de dados
- Uma versão do motor selecionada para usar
Requisitos do conjunto de dados
Para orientações detalhadas sobre o modelo de dados e o esquema, consulte as páginas em Prepare os dados para a IA de AML. Esta secção aborda como garantir que os conjuntos de dados usados no ajuste, na preparação e na avaliação do motor funcionam bem em conjunto.
Intervalos de tempo do conjunto de dados
Cada conjunto de dados usado para operações de ajuste, preparação, testes retroativos e previsão deve conter dados válidos para um intervalo de tempo que termine no final do último mês civil completo antes do end_time especificado na chamada da API. A duração deste intervalo de tempo depende da tabela, da versão do motor e da operação. O intervalo de tempo mínimo é abordado detalhadamente no artigo Compreenda o âmbito e a duração dos dados.
Por exemplo, para a otimização do motor com versões do motor v004.004, a tabela de transações deve abranger, pelo menos, 30 meses.
A configuração de um motor, a formação e a avaliação (testes retroativos) podem ser concluídas com um único conjunto de dados. Consulte a imagem seguinte. Para garantir um bom desempenho de produção, evitando o sobreajuste, deve certificar-se de que o período usado para a avaliação (ou seja, a criação de resultados de testes retroativos) é posterior ao período usado para a preparação (ou seja, a criação de um modelo).
Por exemplo, se usar 3 períodos para testes retroativos e usar períodos até ao final de fevereiro de 2024 para formação (ou seja, hora de fim no início de março de 2024), pode usar períodos até ao final de maio de 2024 para testes retroativos (ou seja, hora de fim no início de junho de 2024).
Consistência do conjunto de dados
Quando usar diferentes conjuntos de dados para as fases de ajuste, preparação e avaliação do motor, certifique-se de que os conjuntos de dados são consistentes quanto aos campos preenchidos e à forma como são preenchidos. Isto é importante para a estabilidade e o desempenho do modelo de AML.
Da mesma forma, para uma pontuação de risco de alta qualidade, o conjunto de dados usado para criar resultados de previsão com um modelo deve ser consistente com o conjunto de dados usado para preparar esse modelo.
Em particular, certifique-se do seguinte:
- É usada a mesma lógica para preencher cada campo. Alterar a lógica usada para preencher um campo pode introduzir uma distorção de caraterísticas entre a preparação do modelo e a previsão ou a avaliação.
- É preenchida a mesma seleção de campos RECOMENDADOS. Por exemplo, a remoção de um campo preenchido durante a preparação do modelo pode fazer com que as funcionalidades das quais o modelo depende fiquem distorcidas ou em falta durante a avaliação ou a previsão.
É usada a mesma lógica para fornecer valores. Na tabela PartySupplementaryData, é usada a mesma lógica para fornecer valores para cada campo
party_supplementary_data_id
.- A utilização dos mesmos dados, mas com valores
party_supplementary_data_id
diferentes, faz com que o modelo utilize os dados incorretamente. Por exemplo, um campo específico usa o ID5
na tabela PartySupplementaryData para um conjunto de dados, mas usa o ID7
noutro conjunto de dados. - A remoção de um valor
party_supplementary_data_id
do qual um modelo depende pode ter efeitos imprevisíveis. Por exemplo, o ID3
é usado na tabela PartySupplementaryData num conjunto de dados, mas é omitido noutro conjunto de dados.
- A utilização dos mesmos dados, mas com valores
Agora, tem um conjunto de dados pronto para a otimização, a preparação e a avaliação do motor. Tenha em atenção que as operações do modelo podem demorar dezenas de horas. Para obter informações sobre como verificar se uma operação ainda está em execução ou foi concluída (falhou ou foi bem-sucedida), consulte Faça a gestão de operações de longa duração.