Vertex AI에서 모델 평가

예측 AI 평가 서비스를 사용하면 특정 사용 사례에서 모델 성능을 평가할 수 있습니다. 또한 평가를 모델 성능에 대한 관측 가능성이라고 부르기도 합니다. Vertex AI에서 제공하는 모델 평가는 다음과 같은 여러 가지 방법으로 일반적인 머신러닝 워크플로에 적합할 수 있습니다.

  • 모델을 학습시킨 후 모델을 배포하기 전에 모델 평가 측정항목을 검토하세요. 여러 모델 간에 평가 측정항목을 비교하여 배포할 모델을 결정하는 데 도움을 줄 수 있습니다.

  • 모델을 프로덕션에 배포한 후에는 새로운 수신 데이터로 모델을 주기적으로 평가합니다. 평가 측정항목에 모델 성능이 저하된 것으로 표시되면 모델을 다시 학습시키는 것이 좋습니다. 이 프로세스를 지속적 평가라고 합니다.

이러한 측정항목을 해석하고 사용하는 방법은 비즈니스 니즈와 모델이 해결하도록 학습한 문제에 따라 달라집니다. 예를 들어 거짓음성보다 거짓양성의 톨러레이션(toleration)이 더 낮을 수도 있고 그 반대일 수도 있습니다. 이러한 유형의 질문은 모델을 반복할 때 집중할 측정항목에 영향을 줍니다.

예측 AI 모델 평가 서비스에서 제공하는 몇 가지 주요 측정항목은 다음과 같습니다.

기능

Vertex AI로 모델을 평가하려면 학습된 모델, 일괄 예측 출력, 정답 데이터 세트가 있어야 합니다. 다음은 Vertex AI를 사용하는 일반적인 모델 평가 워크플로입니다.

  1. 모델 학습 이 작업은 AutoML 또는 커스텀 학습을 사용하여 Vertex AI에서 수행할 수 있습니다.

  2. 모델에서 일괄 예측 작업을 실행하여 예측 결과를 생성합니다.

  3. 사람들의 판단에 따라 "정확하게 분류된" 데이터에 해당하는 정답 데이터를 준비합니다. 정답은 일반적으로 모델 학습 과정 중에 사용한 테스트 데이터 세트의 형식입니다.

  4. 모델에서 평가 작업을 실행합니다. 이 작업은 정답 데이터와 비교해서 일괄 예측 결과의 정확도를 계산합니다.

  5. 평가 작업으로부터 발생하는 측정항목을 분석합니다.

  6. 모델을 반복하여 모델 정확도를 높일 수 있는지 확인합니다. 여러 평가 작업을 실행하고 모델 또는 모델 버전 간에 여러 작업의 결과를 비교할 수 있습니다.

Vertex AI에서 모델 평가를 여러 방식으로 실행할 수 있습니다.

  • Google Cloud 콘솔에서 Vertex AI Model Registry를 통해 평가를 만듭니다.

  • Vertex AI의 모델 평가를 Vertex AI Pipelines에서 파이프라인 구성요소로 사용합니다. 자동화된 MLOps 워크플로의 일부로 모델 평가가 포함된 파이프라인 실행 및 템플릿을 만들 수 있습니다.

    모델 평가 구성요소를 자체 또는 일괄 예측 구성요소와 같은 다른 파이프라인 구성요소를 사용하여 실행할 수 있습니다.

Vertex AI는 다음 모델 유형의 평가를 지원합니다.

이미지

분류

다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: 평균 정밀도라고도 하는 정밀도-재현율(PR) 곡선 아래의 면적입니다. 이 값의 범위는 0부터 1까지이며 값이 클수록 모델의 품질이 높습니다.
  • 로그 손실: 모델 예측과 타겟 값 사이의 교차 엔트로피입니다. 이 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
  • 신뢰도 임곗값: 반환할 예측을 결정하는 신뢰도 점수입니다. 모델이 이 값 이상인 예측을 반환합니다. 신뢰도 기준점이 높을수록 정밀도는 높아지지만 재현율이 낮아집니다. Vertex AI는 다양한 기준점으로 신뢰도 측정항목을 반환하여 기준점이 정밀도재현율에 미치는 영향을 보여줍니다.
  • 재현율: 모델이 올바르게 예측한 이 클래스의 예측 비율입니다. 참양성률이라고도 합니다.
  • 정밀도: 모델이 생성한 올바른 분류 예측의 비율입니다.
  • 혼동 행렬: 혼동 행렬은 모델이 결과를 올바르게 예측한 빈도를 보여줍니다. 잘못 예측된 결과의 경우 행렬에는 모델이 대신 예측한 항목이 표시됩니다. 혼동 행렬을 통해 모델의 두 결과가 '혼동'되는 위치를 파악할 수 있습니다.

테이블 형식

분류

다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: 평균 정밀도라고도 하는 정밀도-재현율(PR) 곡선 아래의 면적입니다. 이 값의 범위는 0부터 1까지이며 값이 클수록 모델의 품질이 높습니다.
  • AuROC: 수신자 조작 특성 곡선 아래의 면적입니다. 이 범위는 0부터 1까지이며 값이 클수록 모델의 품질이 높다는 것을 나타냅니다.
  • 로그 손실: 모델 예측과 타겟 값 사이의 교차 엔트로피입니다. 이 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
  • 신뢰도 임곗값: 반환할 예측을 결정하는 신뢰도 점수입니다. 모델이 이 값 이상인 예측을 반환합니다. 신뢰도 기준점이 높을수록 정밀도는 높아지지만 재현율이 낮아집니다. Vertex AI는 다양한 기준점으로 신뢰도 측정항목을 반환하여 기준점이 정밀도재현율에 미치는 영향을 보여줍니다.
  • 재현율: 모델이 올바르게 예측한 이 클래스의 예측 비율입니다. 참양성률이라고도 합니다.
  • 재현율 1: 각 예시의 예측 점수가 가장 높고 신뢰도 임곗값을 상회하는 라벨만 고려한 재현율(참양성률)입니다.
  • 정밀도: 모델이 생성한 올바른 분류 예측의 비율입니다.
  • 정밀도 1: 예측 점수가 가장 높고 각 예시의 신뢰도 임곗값을 상회하는 라벨만 고려한 정밀도입니다.
  • F1 점수: 정밀도와 재현율의 조화 평균입니다. F1은 정밀도와 재현율 사이의 균형을 찾고 있고 클래스 분포가 균등하지 않을 때 유용한 측정항목입니다.
  • F1 점수 1점: 정밀도 1과 재현율 1의 조화 평균입니다.
  • 혼동 행렬: 혼동 행렬은 모델이 결과를 올바르게 예측한 빈도를 보여줍니다. 잘못 예측된 결과의 경우 행렬에는 모델이 대신 예측한 항목이 표시됩니다. 혼동 행렬을 통해 모델의 두 결과가 '혼동'되는 위치를 파악할 수 있습니다.
  • 참음성 개수: 모델이 네거티브 클래스를 올바르게 예측한 횟수입니다.
  • 참양성 개수: 모델이 포지티브 클래스를 올바르게 예측한 횟수입니다.
  • 거짓음성 개수: 모델이 네거티브 클래스를 실수로 예측한 횟수입니다.
  • 거짓양성 개수: 모델이 포지티브 클래스를 실수로 예측한 횟수입니다.
  • 거짓양성률: 예측된 모든 결과 중에서 잘못 예측된 결과의 비율입니다.
  • 거짓양성률 1: 각 예시의 예측 점수가 가장 높고 신뢰도 임곗값을 상회하는 라벨만 고려한 거짓양성률입니다.
  • 모델 특성 기여 분석: Vertex AI는 각 특성이 모델에 미치는 영향을 보여줍니다. 이 값은 각 특성의 백분율로 제공됩니다. 백분율이 높을수록 특성이 모델 학습에 더 큰 영향을 미칩니다. 이 정보를 검토하여 가장 중요한 모든 특성이 데이터 및 비즈니스 문제에 적합한지 확인해야 합니다.

회귀

다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: 평균 절대 오차(MAE)는 타겟 값과 예측 값의 절대차 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
  • RMSE: 평균 제곱근 오차는 타겟 값과 예측 값 간의 평균 제곱 차이에 대한 제곱근입니다. RMSE는 MAE보다 이상점에 더 민감합니다. 따라서 큰 오차가 염려된다면 RMSE이 더 유용한 평가 측정항목입니다. MAE에서처럼, 값이 작을수록 모델 품질이 높음을 의미합니다(0은 완벽한 예측자를 나타냅니다).
  • RMSLE: 평균 제곱근 대수 오차 측정항목은 RMSE와 유사합니다. 단, RMSLE는 예측 값과 실제 값+1의 자연 로그를 사용합니다. RMSLE는 과대 예측이 아닌 과소 예측에 더 높은 페널티를 적용합니다. 또한 작은 예측 값보다 큰 예측 값의 초과 값에 더 높은 페널티를 적용하지 않을 때 유용한 측정항목이 될 수 있습니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다. RMSLE 평가 측정항목은 모든 라벨 및 예측 값이 음수가 아닌 경우에만 반환됩니다.
  • r^2: r 제곱(r^2)은 라벨과 예측 값 사이의 피어슨 상관 계수 제곱입니다. 이 측정항목의 범위는 0부터 1까지입니다. 값이 클수록 회귀선에 더 가깝게 있음을 나타냅니다.
  • MAPE: 평균 절대 백분율 오차(MAPE)는 라벨과 예측 값의 절대오차 백분율 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
    타겟 열에 0 값이 포함된 경우 MAPE가 표시되지 않습니다. 이 경우 MAPE는 정의되지 않습니다.
  • 모델 특성 기여 분석: Vertex AI는 각 특성이 모델에 미치는 영향을 보여줍니다. 이 값은 각 특성의 백분율로 제공됩니다. 백분율이 높을수록 특성이 모델 학습에 더 큰 영향을 미칩니다. 이 정보를 검토하여 가장 중요한 모든 특성이 데이터 및 비즈니스 문제에 적합한지 확인해야 합니다.

예측

다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: 평균 절대 오차(MAE)는 타겟 값과 예측 값의 절대차 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
  • RMSE: 평균 제곱근 오차는 타겟 값과 예측 값 간의 평균 제곱 차이에 대한 제곱근입니다. RMSE는 MAE보다 이상점에 더 민감합니다. 따라서 큰 오차가 염려된다면 RMSE이 더 유용한 평가 측정항목입니다. MAE에서처럼, 값이 작을수록 모델 품질이 높음을 의미합니다(0은 완벽한 예측자를 나타냅니다).
  • RMSLE: 평균 제곱근 대수 오차 측정항목은 RMSE와 유사합니다. 단, RMSLE는 예측 값과 실제 값+1의 자연 로그를 사용합니다. RMSLE는 과대 예측이 아닌 과소 예측에 더 높은 페널티를 적용합니다. 또한 작은 예측 값보다 큰 예측 값의 초과 값에 더 높은 페널티를 적용하지 않을 때 유용한 측정항목이 될 수 있습니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다. RMSLE 평가 측정항목은 모든 라벨 및 예측 값이 음수가 아닌 경우에만 반환됩니다.
  • r^2: r 제곱(r^2)은 라벨과 예측 값 사이의 피어슨 상관 계수 제곱입니다. 이 측정항목의 범위는 0부터 1까지입니다. 값이 클수록 회귀선에 더 가깝게 있음을 나타냅니다.
  • MAPE: 평균 절대 백분율 오차(MAPE)는 라벨과 예측 값의 절대오차 백분율 평균입니다. 이 측정항목의 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
    타겟 열에 0 값이 포함된 경우 MAPE가 표시되지 않습니다. 이 경우 MAPE는 정의되지 않습니다.
  • WAPE: 가중치가 적용된 절대 백분율 오차(WAPE)는 모델에서 예측한 값과 관찰한 값 간에 관찰된 값의 전반적인 차이입니다. RMSE와 달리 WAPE는 개별 차이보다는 전체 차이에 가중치가 적용되며 낮은 값 또는 간헐적 값의 영향을 크게 받을 수 있습니다. 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
  • RMSPE: 평균 제곱근 오차(RMPSE)는 절댓값이 아닌 실제 값의 RMSE로 표시됩니다. 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
  • 분위수: 관찰된 값이 예측 값보다 낮을 확률을 나타내는 분위수의 백분율입니다. 예를 들어 0.5 분위수에서 관측된 값은 전체 시간의 50%만큼 예측값보다 낮을 것으로 예상됩니다.
  • 관찰된 분위수: 지정된 분위수의 예측 값보다 작은 실제 값의 비율을 표시합니다.
  • 확장 핀볼 손실: 특정 분위수에서의 확장 핀볼 손실입니다. 값이 작을수록 특정 분위수에서 모델의 품질이 높다는 것을 나타냅니다.

텍스트

분류

다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: 평균 정밀도라고도 하는 정밀도-재현율(PR) 곡선 아래의 면적입니다. 이 값의 범위는 0부터 1까지이며 값이 클수록 모델의 품질이 높습니다.
  • 로그 손실: 모델 예측과 타겟 값 사이의 교차 엔트로피입니다. 이 범위는 0부터 무한대이며 값이 작을수록 모델의 품질이 높다는 것을 나타냅니다.
  • 신뢰도 임곗값: 반환할 예측을 결정하는 신뢰도 점수입니다. 모델이 이 값 이상인 예측을 반환합니다. 신뢰도 기준점이 높을수록 정밀도는 높아지지만 재현율이 낮아집니다. Vertex AI는 다양한 기준점으로 신뢰도 측정항목을 반환하여 기준점이 정밀도재현율에 미치는 영향을 보여줍니다.
  • 재현율: 모델이 올바르게 예측한 이 클래스의 예측 비율입니다. 참양성률이라고도 합니다.
  • 재현율 1: 각 예시의 예측 점수가 가장 높고 신뢰도 임곗값을 상회하는 라벨만 고려한 재현율(참양성률)입니다.
  • 정밀도: 모델이 생성한 올바른 분류 예측의 비율입니다.
  • 정밀도 1: 예측 점수가 가장 높고 각 예시의 신뢰도 임곗값을 상회하는 라벨만 고려한 정밀도입니다.
  • 혼동 행렬: 혼동 행렬은 모델이 결과를 올바르게 예측한 빈도를 보여줍니다. 잘못 예측된 결과의 경우 행렬에는 모델이 대신 예측한 항목이 표시됩니다. 혼동 행렬을 통해 모델의 두 결과가 '혼동'되는 위치를 파악할 수 있습니다.
  • F1 점수: 정밀도와 재현율의 조화 평균입니다. F1은 정밀도와 재현율 사이의 균형을 찾고 있고 클래스 분포가 균등하지 않을 때 유용한 측정항목입니다.
  • F1 점수 1점: 정밀도 1과 재현율 1의 조화 평균입니다.

동영상

분류

다음 Cloud Storage 위치에서 스키마 파일을 보고 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: 평균 정밀도라고도 하는 정밀도-재현율(PR) 곡선 아래의 면적입니다. 이 값의 범위는 0부터 1까지이며 값이 클수록 모델의 품질이 높습니다.
  • 신뢰도 기준점: 반환할 예측을 결정하는 신뢰도 점수입니다. 모델이 이 값 이상인 예측을 반환합니다. 신뢰도 기준점이 높을수록 정밀도는 높아지지만 재현율이 낮아집니다. Vertex AI는 다양한 기준점으로 신뢰도 측정항목을 반환하여 기준점이 정밀도재현율에 미치는 영향을 보여줍니다.
  • 재현율: 모델이 올바르게 예측한 이 클래스의 예측 비율입니다. 참양성률이라고도 합니다.
  • 정밀도: 모델이 생성한 올바른 분류 예측의 비율입니다.
  • 혼동 행렬: 혼동 행렬은 모델이 결과를 올바르게 예측한 빈도를 보여줍니다. 잘못 예측된 결과의 경우 행렬에는 모델이 대신 예측한 항목이 표시됩니다. 혼동 행렬을 통해 모델의 두 결과가 '혼동'되는 위치를 파악할 수 있습니다.
  • F1 점수: 정밀도와 재현율의 조화 평균입니다. F1은 정밀도와 재현율 사이의 균형을 찾고 있고 클래스 분포가 균등하지 않을 때 유용한 측정항목입니다.

노트북 튜토리얼

AutoML: 테이블 형식

AutoML: 텍스트

AutoML: 동영상

커스텀 학습: 테이블 형식

Vertex AI Model Registry

다음 단계