Visão geral da preparação de modelos

Nesta página, você verá as etapas para preparar um modelo de IA do AML, supondo que você já tenha configurado uma instância e preparado os conjuntos de dados necessários.

Visão geral das etapas

O processo de preparação de um modelo é abordado nos três estágios a seguir:

Depois de concluir os estágios acima e o desempenho do modelo atender às suas necessidades, consulte as orientações nas seções Gerar pontuações de risco e explicabilidade e Preparar para a governança de modelo e risco.

Antes de começar

Antes de começar, você precisa do seguinte:

Requisitos do conjunto de dados

Para orientações detalhadas sobre o esquema e o modelo de dados, consulte as páginas em Preparar dados para a IA de AML. Nesta seção, você verá como garantir que os conjuntos de dados usados no ajuste, treinamento e avaliação do mecanismo funcionem bem juntos.

Períodos do conjunto de dados

O intervalo mínimo de conjuntos de dados para cada operação é abordado em Entender o escopo e a duração dos dados. Em resumo, é necessário ter uma janela de lookback de 0 a 24 meses, dependendo da tabela, sobre uma janela de tempo principal de pelo menos 18 meses.

Por exemplo, para o ajuste do mecanismo, a tabela Transação precisa cobrir pelo menos 42 meses, ou seja, 18 meses da janela de tempo principal e 24 meses da janela de lookback.

A configuração de um mecanismo, treinamento e avaliação (backtesting) pode ser concluída com um único conjunto de dados. Veja a imagem a seguir. Para garantir um bom desempenho de produção evitando o overfitting, use uma janela de tempo principal de avaliação (ou seja, criando resultados de backtest) que seja separada e mais recente do que a janela de tempo principal de treinamento (ou seja, criação de um modelo).

Intervalos de tempo do conjunto de dados para ajuste, treinamento e backtesting

Consistência do conjunto de dados

Ao usar conjuntos de dados diferentes para os estágios de ajuste, treinamento e avaliação do mecanismo, torne os conjuntos de dados consistentes em quais campos são preenchidos e como são preenchidos. Isso é importante para a estabilidade e o desempenho do modelo de AML.

Da mesma forma, para uma pontuação de risco de alta qualidade, o conjunto de dados usado para criar os resultados da previsão com um modelo precisa ser consistente com o conjunto de dados usado para treinar esse modelo.

Especificamente, verifique o seguinte:

  • A mesma lógica é usada para preencher cada campo. Alterar a lógica usada para preencher um campo pode introduzir um desvio de atributos entre o treinamento e a previsão ou avaliação do modelo.
  • A mesma seleção de campos RECOMENDADOS é preenchida. Por exemplo, remover um campo preenchido durante o treinamento de modelo pode fazer com que os recursos de que o modelo depende sejam distorcidos ou ausentes durante a avaliação ou previsão.
  • A mesma lógica é usada para fornecer valores. Na tabela PartySupplementaryData, a mesma lógica é usada para fornecer valores a cada campo party_supplementary_data_id.

    • Usar os mesmos dados, mas com valores party_supplementary_data_id diferentes, faz com que o modelo utilize dados incorretamente. Por exemplo, um campo específico usa o ID 5 na tabela PartySupplementaryData para um conjunto de dados, mas depois usa o ID 7 em outro conjunto de dados.
    • A remoção de um valor party_supplementary_data_id de que um modelo depende pode ter efeitos imprevisíveis. Por exemplo, o ID 3 é usado na tabela PartySupplementaryData em um conjunto de dados, mas é omitido em outro.

Agora você tem um conjunto de dados pronto para ajuste, treinamento e avaliação do mecanismo. Observe que as operações do modelo podem levar dezenas de horas. Para informações sobre como verificar se uma operação ainda está em execução ou foi concluída (falha ou bem-sucedida), consulte Gerenciar operações de longa duração.