프로세스 개요

개요

이 페이지에서는 AML AI 프로세스를 간략하게 설명하고 고객이 이해해야 하는 주요 개념을 다룹니다. 이 튜토리얼은 주로 AML AI를 사용하여 모델을 학습, 테스트, 배포하는 팀을 대상으로 합니다.

AML AI를 사용하면 은행이 자금 세탁을 감지하기 위한 모델을 자동으로 학습, 테스트, 배포할 수 있습니다. AML AI 가이드는 다음 다섯 단계에 해당하는 다섯 개의 왼쪽 탐색 섹션으로 나뉩니다.

단계설명
1. AML AI 설정 Google Cloud 프로젝트에서 AML AI를 사용할 준비가 되었는지 확인합니다. 필요한 Google Cloud 서비스를 사용 설정하고 로깅 및 할당량을 설정합니다. AML AI 인스턴스를 하나 이상 만듭니다.
2. AML AI를 위한 데이터 준비 데이터 모델 및 스키마를 검토합니다. 포함할 데이터의 우선순위를 지정합니다. 핵심 뱅킹 데이터, 위험 조사 데이터, 필요한 기타 데이터를 수집하고 변환합니다. 데이터 세트를 만들고 검증합니다.
3. 모델 생성 및 성능 평가 AML AI 엔진, 모델, 백테스트를 이해합니다.
  1. 엔진 구성
  2. 모델 학습
  3. 모델의 성능 평가
4. 위험도 점수 생성 및 설명 기능 소매 및 상업 은행 고객을 등록합니다. 모델을 사용하여 다음에 대한 당사자별 위험 점수 및 설명 기능을 생성합니다.
  • 위험 거버넌스 분석 및 테스트
  • 사전 프로덕션 및 프로덕션 사용
5. 모델 및 위험 거버넌스 준비 모델 위험 거버넌스 프로세스의 요구사항을 충족하기 위해 조정, 학습, 평가, 예측의 AML AI 출력을 AML 개념 및 제품 문서와 결합합니다.

모델을 생성, 테스트, 배포하는 핵심 AML AI 기술 작업은 다음과 같습니다. 이는 위 표의 2~4단계를 지원합니다.

  1. AML AI 데이터 세트 만들기 - AML AI를 위해 구조화된 BigQuery 입력 데이터 테이블 집합을 만듭니다.
  2. 엔진 구성 - 하이퍼파라미터 조정을 포함하여 AML AI 엔진을 AML AI 데이터 세트에 맞게 조정합니다.
  3. 모델 학습 - 엔진 구성과 데이터 세트를 사용하여 AML AI 모델을 학습시킵니다.
  4. 백테스트 - 데이터 세트의 이전 데이터에 대해 AML AI 모델을 테스트하고 성능을 요약합니다.
  5. 당사자 등록 - 예측에서 점수를 매길 수 있도록 당사자(뱅킹 제품을 보유하고 있고 트랜잭션을 보내거나 받는 은행 고객)를 등록합니다.
  6. 예측 - 프로덕션에 사용할 당사자 점수와 설명 기능을 생성합니다.

엔진 구성, 모델 학습, 모델 백테스트, 모델 예측은 모두 AML AI 데이터 세트를 입력으로 필요로 하며 다른 작업에서 사용되는 해당 아티팩트를 반환합니다. 예를 들어 모델 학습은 백테스트 또는 예측에 사용할 수 있는 학습된 AML AI 모델에 대한 참조를 반환합니다. 작업에 대한 기술적 세부정보는 REST 참조 개요를 참조하세요.

AML AI 프로세스의 종속 항목 트리

AML AI 프로세스의 종속 항목 트리

AML AI를 사용할 때 중요한 고려사항

이 섹션에서는 고객에게 AML AI의 주요 개념을 소개하고 몇 가지 권장사항을 조언합니다. 여기에 포함된 주제는 전용 가이드에서 더 자세히 다루고 있으며 추가 읽기를 위해 링크가 제공됩니다.

날짜 일관성

AML AI는 작업마다 다른 기간을 사용합니다. 신뢰할 수 있는 결과를 얻으려면 각 작업에 대해 선택한 날짜에 주의해야 합니다. 특히 결과 편향을 방지하기 위해서는 AML AI 모델 학습에 사용되는 월이 백테스트에 사용된 월과 겹치지 않는 것이 중요합니다.

AML AI 데이터 세트에는 수개월의 데이터가 포함되어 있으므로 이러한 올바른 날짜를 선택하면 데이터 세트를 여러 작업에 사용할 수 있습니다. 다음 다이어그램은 AML AI를 사용한 개발 주기를 보여줍니다. 여기서 42개월에 걸쳐 단일 데이터 세트 내의 여러 기간이 엔진(하이퍼파라미터 조정), 학습, 백테스트를 구성합니다. 이러한 모든 프로세스는 모델에 컨텍스트를 제공하는 전환 확인 기간을 사용하며 다른 작업에 사용되는 데이터와 안전하게 겹칠 수 있습니다.

AML AI 데이터 세트와 다양한 작업의 기간에 대한 자세한 내용은 데이터 범위 및 기간 이해를 참조하세요.

시간 경과에 따른 데이터 변경사항을 올바르게 기록하려면 시간 경과에 따른 데이터 변경사항을 참조하세요.

AML AI 데이터 세트 만들기 - 1~4단계

프로덕션 배치 빈도

예측에서 AML AI는 월 단위로 AML 위험 점수를 생성합니다. 고객은 일반적으로 월별 일괄 프로세스의 일부로 AML AI를 사용하며 가능한 한 완전한 트랜잭션 데이터가 포함된 월에 예측을 실행하는 것이 좋습니다.

필드 일관성

다른 머신러닝 프로세스와 마찬가지로 학습 데이터와 테스트 데이터 간에 데이터는 최대한 일관적이어야 합니다. 필드가 일관되게 채워지지 않으면 변경사항으로 인해 신뢰할 수 없는 결과가 발생할 수 있습니다. 개발 주기의 각 작업에 대해 필드가 일관적으로 채워지도록 단계를 수행하는 것이 좋습니다. 이는 특히 각 작업에 다른 데이터 세트가 사용되는 경우에 그렇습니다. 자세한 내용은 데이터 세트 일관성을 참조하세요.

엔진 구성

엔진 구성이 생성되면 일반적으로 새 데이터 세트 또는 모든 개발 주기의 엔진 구성을 다시 만들 필요가 없습니다. 한 데이터 세트의 엔진 구성에서 선택한 하이퍼파라미터는 일반적으로 비슷한 데이터 세트에서 잘 작동합니다.

다음 다이어그램에서는 반복 개발 주기를 볼 수 있으며, 앞의 다이어그램은 모델 학습 및 백테스트 작업에 대해 단일 데이터 세트를 사용합니다.

자세한 내용은 조정 또는 상속 시기를 참조하세요.

AML AI 데이터 세트 만들기 - 3~4단계

데이터 계보

대부분의 모델 거버넌스 정책은 엔진 구성, 학습, 평가, 예측에서 모든 ML 작업에 걸쳐 사용되는 데이터 계보를 추적하는 요구사항을 정의합니다. 고객은 이 데이터 계보를 추적해야 합니다.

모든 입력 데이터, AML AI 리소스, 출력 데이터의 이름에 고유 식별자를 사용하여 단계 간 계보를 추적하는 것이 좋습니다. 이렇게 하면 특정 실행에서 리소스 간에 강력한 연결을 보장하는 데 도움이 됩니다. 고객은 계보 요구사항을 충족하기 위해 모든 AML AI 리소스에 라벨을 지정할 수도 있습니다.

또한 정확한 데이터 계보를 보장하기 위해 API 요청에서 BigQuery 스냅샷을 사용하는 것이 좋습니다.

이 구성은 '이 엔진 구성의 출처는 무엇인가요?' 또는 '이 모델의 출처는 무엇인가요?'와 같은 질문에 답하는 데 도움이 되며 이슈를 조사하고 해결할 수 있습니다.

AML AI 리소스를 만들고 관리하는 방법에 대한 자세한 내용은 REST API 페이지를 참조하세요.

AML AI 데이터 세트 만들기 - 3~4단계