지속적 평가는 AI Platform 예측에 배포한 학습된 머신러닝 모델의 예측 입력 및 출력을 정기적으로 샘플링합니다. 그러면 AI Platform 데이터 라벨링 서비스가 예측 입력에 대한 정답 라벨을 제공할 검토자를 할당합니다. 또는 자체 정답 라벨을 제공할 수도 있습니다. 데이터 라벨링 서비스에서 모델의 예측과 정답 라벨을 비교하여 시간에 따른 모델 성능에 대한 의견을 지속적으로 제공합니다.
작동 방식
지속적 평가를 사용하려면 AI Platform 예측에 학습된 머신러닝 모델이 이미 모델 버전으로 배포되어 있어야 합니다. 그러면 모델 버전에 대한 평가 작업을 만들 수 있습니다.
모델 버전에 대한 평가 작업을 만들면 다음 두 가지 상황이 발생합니다.
- 모델 버전이 온라인 예측을 제공하면 이러한 예측 일부의 입력과 출력이 BigQuery 테이블에 저장됩니다. 이 샘플링은 모델에서 예측을 제공할 때마다 발생하므로 자주 발생합니다. 샘플링되는 데이터의 양을 맞춤설정할 수 있습니다.
- 간헐적으로 평가 작업이 실행되고 평가 측정항목이 생성됩니다.
Google Cloud Console에서 생성된 평가 측정항목을 볼 수 있습니다.
정답
정답 라벨은 사용자가 머신러닝 작업의 올바른 라벨로 판단하는 라벨입니다. 지속적 평가는 이를 답안으로 사용하고 모델 버전의 예측을 정답 라벨과 비교하여 측정항목을 계산합니다. 평가 작업을 만들 때 예측 데이터에 대한 정답 라벨을 생성할 방법을 결정해야 합니다. 다음과 같은 두 가지 옵션이 있습니다.
- 데이터 라벨링 서비스는 예측 데이터에 대한 정답 라벨을 제공할 검토자를 할당할 수 있습니다.
- 정답 라벨을 직접 제공할 수도 있습니다.
평가 작업 실행
기본적으로 평가 작업은 매일 오전 10시(UTC)에 실행됩니다. 실행 시 수행되는 작업은 정답 라벨 생성 방식에 따라 달라집니다.
데이터 라벨링 서비스가 정답 라벨을 제공하는 경우
평가 작업이 실행되면 데이터 라벨링 서비스가 마지막 실행 이후 BigQuery에 추가된 모든 새 행으로 데이터세트를 만듭니다. 여기에는 모델 버전에서 샘플링된 예측 입력 및 출력이 포함됩니다.
그런 다음 데이터 라벨링 서비스가 이 데이터세트를 기반으로 라벨링 요청을 제출하여 검토자가 정답 라벨을 제공하도록 합니다.
라벨 지정 요청이 완료되면 데이터 라벨링 서비스가 새 정답 라벨과 모델 버전의 예측 출력을 사용하여 평가 측정항목을 계산합니다.
특히 BigQuery 테이블에 많은 예측 데이터를 샘플링하는 경우 라벨 지정자가 라벨 지정 요청을 완료하는 데 하루 이상이 걸릴 수 있습니다. 이 경우 평가 작업은 일정에 따라 다음날에도 다시 계속 실행됩니다. 즉, 작업이 동시에 여러 번 실행됩니다. 각 실행은 예측 데이터의 개별 샘플(실행 전날의 모델 버전 예측)에 적용됩니다. 실행에 걸리는 시간과 상관없이 특정 예측일에 대한 평가 측정항목이 생성됩니다.
정답 라벨을 직접 제공하는 경우
이전 섹션과 같이 평가 작업이 실행되면 데이터 라벨링 서비스가 마지막 실행 이후 BigQuery에 추가된 모든 새 행으로 데이터세트를 만듭니다. 하지만 이 경우에는 실행 전에 테이블의 groundtruth
열에 이미 정답 라벨이 추가되어 있어야 합니다. 평가 작업은 정답 라벨이 없는 행을 건너뛰므로 이러한 행은 향후 평가 작업 실행 시 포함될 수 없습니다.
데이터세트를 만들면 데이터 라벨링 서비스가 평가 측정항목을 즉시 계산합니다.
이 방법을 사용할 경우 매일 평가 작업이 실행되기 전에 새 예측에 대한 정답 라벨을 추가해야 합니다.
가격 책정
데이터 라벨링 서비스가 정답 라벨을 제공할 검토자를 할당하는 경우 데이터 라벨링 서비스 가격 책정이 적용됩니다. 이 외에 지속적 평가에 적용되는 별도의 비용은 없습니다.
지속적 평가를 사용하려면 AI Platform Prediction, BigQuery, Cloud Storage도 사용해야 합니다. 이러한 제품에는 요금이 부과될 수 있습니다.
다음 단계
평가 작업을 만들기 전에 수행해야 하는 작업을 알아보세요.