이 기존 AI Platform Prediction 버전은 지원 중단되었으며 2025년 1월 31일 이후에는 Google Cloud에서 더 이상 사용할 수 없습니다. 모든 모델, 관련 메타데이터, 배포는 2025년 1월 31일 이후에 삭제됩니다. 리소스를 Vertex AI로 마이그레이션하여 AI Platform에서 사용할 수 없는 새로운 머신러닝 기능을 사용하세요.
모델의 성능을 이해하는 것은 머신러닝 모델 관리에서 중요한 부분입니다. 모델의 트래픽 패턴, 오류율, 지연 시간, 리소스 사용률을 모니터링하여 모델 문제를 파악하고 지연 시간과 비용을 최적화하기 위한 적절한 머신 유형을 찾을 수 있습니다.
Cloud Monitoring을 사용하여 측정항목을 기반으로 알림을 구성할 수도 있습니다. 예를 들어 모델 예측 지연 시간이 너무 길 때 알림을 받을 수 있습니다. AI Platform Prediction은 측정항목을 Cloud Monitoring으로 내보냅니다.
각 AI Platform Prediction 측정항목 유형의 이름에는 'prediction'이 포함됩니다. 예를 들어 ml.googleapis.com/prediction/online/replicas 또는 ml.googleapis.com/prediction/online/accelerator/duty_cycle입니다.
성능 측정항목 모니터링
Google Cloud Console에서 모델의 트래픽 패턴, 오류, 지연 시간에 대한 정보를 확인할 수 있습니다. 버전 세부정보 페이지의 성능 탭에서 다음 차트를 사용할 수 있습니다.
예측: 온라인 및 일괄 예측 전반의 초당 예측 수. 요청당 인스턴스가 2개 이상인 경우 이 차트에서 각 인스턴스가 계산됩니다.
오류: 모델이 생성하는 오류율. 높은 오류율은 일반적으로 모델 또는 모델 요청에 문제가 있음을 나타냅니다. 응답 코드를 사용하여 어떤 오류가 발생 중인지 확인할 수 있습니다.
모델 지연 시간 및 총 지연 시간: 모델의 지연 시간. 총 지연 시간은 요청이 서비스에 소비한 총 시간입니다. 모델 지연 시간은 계산을 수행하는 데 소요된 시간입니다.
성능 차트를 보려면 다음 단계를 따르세요.
Google Cloud 콘솔의 AI Platform Prediction 모델 페이지로 이동합니다.
Compute Engine(N1) 머신 유형을 사용하는 모델 버전의 리소스 사용률 차트를 Google Cloud 콘솔에서 사용할 수 있습니다. 리소스 사용량 탭의 버전 세부정보 페이지에서 다음 차트를 사용할 수 있습니다.
복제본: 버전의 복제본 수. 수동 확장을 사용하는 경우 이 차트에는 버전을 배포하거나 마지막으로 업데이트할 때 선택한 노드 수가 표시됩니다. 자동 확장을 사용 설정한 경우 차트는 트래픽 변경에 대응하여 시간 경과에 따라 모델의 복제본 수가 어떻게 변경되는지를 보여줍니다.
CPU 사용량, 메모리 사용량, 가속기 평균 가동 주기, 가속기 메모리 사용량: 복제본당 버전의 CPU, GPU, 메모리 사용량
전송된 네트워크 바이트 및 수신된 네트워크 바이트: 작업의 네트워크 사용량(초당 바이트 수로 측정).
리소스 사용량 차트를 보려면 다음 단계를 따르세요.
Google Cloud 콘솔의 AI Platform Prediction 모델 페이지로 이동합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[[["\u003cp\u003eMonitoring model performance involves tracking traffic patterns, error rates, latency, and resource utilization to identify issues and optimize machine type selection.\u003c/p\u003e\n"],["\u003cp\u003eThe Google Cloud console provides performance charts on the "Version Details" page, under the "Performance" tab, displaying metrics such as predictions per second, error rates, and model/total latency.\u003c/p\u003e\n"],["\u003cp\u003eResource utilization charts, available under the "Resource Usage" tab on the "Version Details" page, display metrics including replica count, CPU/memory/accelerator usage, and network activity for models using Compute Engine (N1) machine types.\u003c/p\u003e\n"],["\u003cp\u003eCloud Monitoring can be used to set up alerts based on the metrics, such as receiving a notification if the model prediction latency increases beyond an acceptable level.\u003c/p\u003e\n"]]],[],null,[]]