Vista geral da preparação do modelo

Esta página explica os passos para preparar um modelo de IA de AML, partindo do princípio de que já configurou uma instância e preparou os conjuntos de dados necessários.

Vista geral das fases

O processo de preparação de um modelo é abordado nas três fases seguintes:

Depois de concluir as fases anteriores e o desempenho do modelo satisfazer as suas necessidades, consulte as orientações nas secções Gerar classificações de risco e explicabilidade e Preparar-se para a governação de modelos e riscos.

Antes de começar

Antes de começar, precisa do seguinte:

Requisitos do conjunto de dados

Para orientações detalhadas sobre o modelo de dados e o esquema, consulte as páginas em Prepare os dados para a IA de AML. Esta secção aborda como garantir que os conjuntos de dados usados no ajuste, na preparação e na avaliação do motor funcionam bem em conjunto.

Intervalos de tempo do conjunto de dados

Cada conjunto de dados usado para operações de ajuste, preparação, testes retroativos e previsão deve conter dados válidos para um intervalo de tempo que termine no final do último mês civil completo antes do end_time especificado na chamada da API. A duração deste intervalo de tempo depende da tabela, da versão do motor e da operação. O intervalo de tempo mínimo é abordado detalhadamente no artigo Compreenda o âmbito e a duração dos dados.

Por exemplo, para a otimização do motor com versões do motor v004.004, a tabela de transações deve abranger, pelo menos, 30 meses.

A configuração de um motor, a formação e a avaliação (testes retroativos) podem ser concluídas com um único conjunto de dados. Consulte a imagem seguinte. Para garantir um bom desempenho de produção, evitando o sobreajuste, deve certificar-se de que o período usado para a avaliação (ou seja, a criação de resultados de testes retroativos) é posterior ao período usado para a preparação (ou seja, a criação de um modelo).

Por exemplo, se usar 3 períodos para testes retroativos e usar períodos até ao final de fevereiro de 2024 para formação (ou seja, hora de fim no início de março de 2024), pode usar períodos até ao final de maio de 2024 para testes retroativos (ou seja, hora de fim no início de junho de 2024).

Intervalos de tempo do conjunto de dados para ajuste, preparação e testes retroativos

Consistência do conjunto de dados

Quando usar diferentes conjuntos de dados para as fases de ajuste, preparação e avaliação do motor, certifique-se de que os conjuntos de dados são consistentes quanto aos campos preenchidos e à forma como são preenchidos. Isto é importante para a estabilidade e o desempenho do modelo de AML.

Da mesma forma, para uma pontuação de risco de alta qualidade, o conjunto de dados usado para criar resultados de previsão com um modelo deve ser consistente com o conjunto de dados usado para preparar esse modelo.

Em particular, certifique-se do seguinte:

  • É usada a mesma lógica para preencher cada campo. Alterar a lógica usada para preencher um campo pode introduzir uma distorção de caraterísticas entre a preparação do modelo e a previsão ou a avaliação.
  • É preenchida a mesma seleção de campos RECOMENDADOS. Por exemplo, a remoção de um campo preenchido durante a preparação do modelo pode fazer com que as funcionalidades das quais o modelo depende fiquem distorcidas ou em falta durante a avaliação ou a previsão.
  • É usada a mesma lógica para fornecer valores. Na tabela PartySupplementaryData, é usada a mesma lógica para fornecer valores para cada campo party_supplementary_data_id.

    • A utilização dos mesmos dados, mas com valores party_supplementary_data_id diferentes, faz com que o modelo utilize os dados incorretamente. Por exemplo, um campo específico usa o ID 5 na tabela PartySupplementaryData para um conjunto de dados, mas usa o ID 7 noutro conjunto de dados.
    • A remoção de um valor party_supplementary_data_id do qual um modelo depende pode ter efeitos imprevisíveis. Por exemplo, o ID 3 é usado na tabela PartySupplementaryData num conjunto de dados, mas é omitido noutro conjunto de dados.

Agora, tem um conjunto de dados pronto para a otimização, a preparação e a avaliação do motor. Tenha em atenção que as operações do modelo podem demorar dezenas de horas. Para obter informações sobre como verificar se uma operação ainda está em execução ou foi concluída (falhou ou foi bem-sucedida), consulte Faça a gestão de operações de longa duração.