Vertex AI에서 모델 평가

추론 AI 평가 서비스를 사용하면 특정 사용 사례 전반에서 모델 성능을 평가할 수 있습니다. 평가를 모델 성능의 관측 가능성이라고 할 수도 있습니다. Vertex AI에서 제공하는 모델 평가는 다음과 같은 여러 가지 방법으로 일반적인 머신러닝 워크플로에 적합할 수 있습니다.

모델을 학습시킨 후 모델을 배포하기 전에 모델 평가 측정항목을 검토하세요. 여러 모델 간에 평가 측정항목을 비교하여 배포할 모델을 결정할 수 있습니다.
모델을 프로덕션에 배포한 후에는 새로운 수신 데이터로 모델을 주기적으로 평가합니다. 평가 측정항목에 모델 성능이 저하된 것으로 표시되면 모델을 다시 학습시키는 것이 좋습니다. 이 프로세스를 지속적 평가라고 합니다.

이러한 측정항목을 해석하고 사용하는 방법은 비즈니스 니즈와 모델이 해결하도록 학습한 문제에 따라 달라집니다. 예를 들어 거짓음성보다 거짓양성의 톨러레이션(toleration)이 더 낮을 수도 있고 그 반대일 수도 있습니다. 이러한 유형의 질문은 모델을 반복할 때 집중할 측정항목에 영향을 줍니다.

예측 AI 모델 평가 서비스에서 제공하는 몇 가지 주요 측정항목은 다음과 같습니다.

특성

Vertex AI로 모델을 평가하려면 학습된 모델, 일괄 추론 출력, 정답 데이터 세트가 있어야 합니다. 다음은 Vertex AI를 사용하는 일반적인 모델 평가 워크플로입니다.

모델 학습 이 작업은 AutoML 또는 커스텀 학습을 사용하여 Vertex AI에서 수행할 수 있습니다.
모델에서 일괄 추론 작업을 실행하여 추론 결과를 생성합니다.
사람들의 판단에 따라 "정확하게 분류된" 데이터에 해당하는 정답 데이터를 준비합니다. 정답은 일반적으로 모델 학습 과정 중에 사용한 테스트 데이터 세트입니다.
모델에서 평가 작업을 실행합니다. 이 작업은 정답 데이터와 비교해서 일괄 추론 결과의 정확도를 계산합니다.
평가 작업으로부터 발생하는 측정항목을 분석합니다.
모델을 반복하여 모델 정확도를 높일 수 있는지 확인합니다. 여러 평가 작업을 실행하고 모델 또는 모델 버전 간에 여러 작업의 결과를 비교할 수 있습니다.

Vertex AI에서 모델 평가를 여러 방식으로 실행할 수 있습니다.

Google Cloud 콘솔에서 Vertex AI Model Registry를 통해 평가를 만듭니다.
Vertex AI의 모델 평가를 Vertex AI Pipelines에서 파이프라인 구성요소로 사용합니다. 자동화된 MLOps 워크플로의 일부로 모델 평가를 포함하는 파이프라인 실행 및 템플릿을 만들 수 있습니다.

모델 평가 구성요소를 자체 또는 일괄 추론 구성요소와 같은 다른 파이프라인 구성요소를 사용하여 실행할 수 있습니다.

Vertex AI는 다음 모델 유형의 평가를 지원합니다.

이미지

테이블 형식

회귀

다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: 평균 절대 오차(MAE)는 타겟 값과 예측 값의 절대차 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
RMSE: 평균 제곱근 오차는 타겟 값과 예측 값 간의 평균 제곱 차이에 대한 제곱근입니다. RMSE는 MAE보다 이상점에 더 민감합니다. 따라서 큰 오차가 염려된다면 RMSE이 더 유용한 평가 측정항목입니다. MAE에서처럼, 값이 작을수록 모델 품질이 높음을 의미합니다(0은 완벽한 예측자를 나타냅니다).
RMSLE: 평균 제곱근 대수 오차 측정항목은 RMSE와 유사합니다. 단, RMSLE는 예측 값과 실제 값+1의 자연 로그를 사용합니다. RMSLE는 과대 추론보다 과소 추론에 더 높은 페널티를 적용합니다. 작은 추론값 차이보다 큰 추론값 차이에 더 높은 페널티를 적용하고 싶지 않은 경우에 적합한 측정항목입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다. RMSLE 평가 측정항목은 모든 라벨 및 예측 값이 음수가 아닌 경우에만 반환됩니다.
r^2: r 제곱(r^2)은 라벨과 예측 값 사이의 피어슨 상관 계수 제곱입니다. 이 측정항목의 범위는 0부터 1까지입니다. 값이 클수록 회귀선에 더 가깝게 있음을 나타냅니다.
MAPE: 평균 절대 백분율 오차(MAPE)는 라벨과 예측 값의 절대오차 백분율 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
타겟 열에 0 값이 포함된 경우 MAPE가 표시되지 않습니다. 이 경우 MAPE는 정의되지 않습니다.
모델 특성 기여 분석: Vertex AI는 각 특성이 모델에 미치는 영향을 보여줍니다. 이 값은 각 특성의 백분율로 제공됩니다. 백분율이 높을수록 특성이 모델 학습에 더 큰 영향을 미칩니다. 이 정보를 검토하여 가장 중요한 모든 특성이 데이터 및 비즈니스 문제에 적합한지 확인해야 합니다.

예측

다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/

MAE: 평균 절대 오차(MAE)는 타겟 값과 예측 값의 절대차 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
RMSE: 평균 제곱근 오차는 타겟 값과 예측 값 간의 평균 제곱 차이에 대한 제곱근입니다. RMSE는 MAE보다 이상점에 더 민감합니다. 따라서 큰 오차가 염려된다면 RMSE이 더 유용한 평가 측정항목입니다. MAE에서처럼, 값이 작을수록 모델 품질이 높음을 의미합니다(0은 완벽한 예측자를 나타냅니다).
RMSLE: 평균 제곱근 대수 오차 측정항목은 RMSE와 유사합니다. 단, RMSLE는 예측 값과 실제 값+1의 자연 로그를 사용합니다. RMSLE는 과대 추론보다 과소 추론에 더 높은 페널티를 적용합니다. 작은 추론값 차이보다 큰 추론값 차이에 더 높은 페널티를 적용하고 싶지 않은 경우에 적합한 측정항목입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다. RMSLE 평가 측정항목은 모든 라벨 및 예측 값이 음수가 아닌 경우에만 반환됩니다.
r^2: r 제곱(r^2)은 라벨과 예측 값 사이의 피어슨 상관 계수 제곱입니다. 이 측정항목의 범위는 0부터 1까지입니다. 값이 클수록 회귀선에 더 가깝게 있음을 나타냅니다.
MAPE: 평균 절대 백분율 오차(MAPE)는 라벨과 예측 값의 절대오차 백분율 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
타겟 열에 0 값이 포함된 경우 MAPE가 표시되지 않습니다. 이 경우 MAPE는 정의되지 않습니다.
WAPE: 가중치가 적용된 절대 백분율 오차(WAPE)는 모델에서 예측한 값과 관찰한 값 간에 관찰된 값의 전반적인 차이입니다. RMSE와 달리 WAPE는 개별 차이보다는 전체 차이에 가중치가 적용되며 낮은 값 또는 간헐적 값의 영향을 크게 받을 수 있습니다. 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
RMSPE: 평균 제곱근 오차(RMPSE)는 절댓값이 아닌 실제 값의 RMSE로 표시됩니다. 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
분위수: 관찰된 값이 예측 값보다 낮을 확률을 나타내는 분위수의 백분율입니다. 예를 들어 0.5 분위수에서 관측된 값은 전체 시간의 50%만큼 예측값보다 낮을 것으로 예상됩니다.
관찰된 분위수: 지정된 분위수의 예측 값보다 작은 실제 값의 비율을 표시합니다.
확장 핀볼 손실: 특정 분위수에서의 확장 핀볼 손실입니다. 값이 작을수록 특정 분위수에서 모델의 품질이 높다는 것을 나타냅니다.