Visão geral da preparação de modelos

Nesta página, mostramos as etapas para preparar um modelo de IA antilavagem de dinheiro, supondo que você já configurou uma instância e preparou os conjuntos de dados necessários.

Visão geral das etapas

O processo de preparação de um modelo é abordado nas três etapas a seguir:

Depois de concluir os estágios acima e o desempenho do modelo atender às suas necessidades, consulte as orientações nas seções Gerar pontuações de risco e explicabilidade e Preparar-se para a governança de modelo e risco.

Antes de começar

Antes de começar, você precisará do seguinte:

Requisitos do conjunto de dados

Para orientações detalhadas sobre o modelo e o esquema de dados, consulte as páginas em Preparar dados para IA antilavagem de dinheiro. Nesta seção, mostramos como garantir que os conjuntos de dados usados no ajuste, treinamento e avaliação do mecanismo funcionem bem juntos.

Intervalos de tempo do conjunto de dados

O intervalo de tempo mínimo dos conjuntos de dados para cada operação é abordado em Entender o escopo e a duração dos dados. Em resumo, uma janela de lookback de 0 a 24 meses é necessária, dependendo da tabela, sobre uma janela de tempo principal de pelo menos 18 meses.

Por exemplo, para o ajuste do mecanismo, a tabela Transação precisa cobrir pelo menos 42 meses (a janela de tempo principal de 18 meses e a janela de 24 meses para a janela de lookback).

A configuração de um mecanismo, treinamento e avaliação (backtesting) pode ser concluída com um único conjunto de dados. Veja a imagem a seguir. Para garantir um bom desempenho de produção evitando o overfitting, use uma janela de tempo principal para avaliação (ou seja, criar resultados de backtest) que seja independente e mais recente do que a janela de tempo principal para treinamento (ou seja, para criar um modelo).

Intervalos de tempo do conjunto de dados para ajuste, treinamento e backtesting

Consistência do conjunto de dados

Ao usar conjuntos de dados diferentes para os estágios de ajuste, treinamento e avaliação do mecanismo, torne os conjuntos de dados consistentes com quais campos são preenchidos e como eles são preenchidos. Isso é importante para a estabilidade e o desempenho do modelo antilavagem de dinheiro.

Da mesma forma, para uma pontuação de risco de alta qualidade, o conjunto de dados usado para criar os resultados de previsão com um modelo precisa ser consistente com o conjunto de dados usado para treinar esse modelo.

Especificamente, verifique o seguinte:

  • A mesma lógica é usada para preencher cada campo. Alterar a lógica usada para preencher um campo pode introduzir desvio de atributos entre o treinamento e a previsão ou avaliação do modelo.
  • A mesma seleção de campos RECOMENDADOS é preenchida. Por exemplo, remover um campo preenchido durante treinamento de modelo pode fazer com que os recursos de que o modelo depende sejam distorcidos ou ausentes durante a avaliação ou previsão.
  • A mesma lógica é usada para fornecer valores. Na tabela PartySupplementaryData, a mesma lógica é usada para fornecer valores para cada campo party_supplementary_data_id.

    • Usar os mesmos dados, mas com valores party_supplementary_data_id diferentes, faz com que o modelo use dados incorretamente. Por exemplo, um campo específico usa o ID 5 na tabela PartySupplementaryData para um conjunto de dados, mas depois usa o ID 7 em outro conjunto de dados.
    • A remoção de um valor party_supplementary_data_id, de que um modelo depende, pode ter efeitos imprevisíveis. Por exemplo, o ID 3 é usado na tabela PartySupplementaryData em um conjunto de dados, mas é omitido de outro.

Agora você tem um conjunto de dados pronto para ajuste, treinamento e avaliação do mecanismo. Observe que as operações do modelo podem levar dezenas de horas. Para informações sobre como verificar se uma operação ainda está em execução ou foi concluída (com falha ou com êxito), consulte Gerenciar operações de longa duração.