예측은 학습된 머신러닝 모델 출력입니다. 이 페이지에서는 Vertex AI의 모델에서 예측을 수행할 수 있는 워크플로를 간략하게 설명합니다.
Vertex AI에서는 두 가지 예측 수행 방법을 제공합니다.
온라인 예측은
endpoint
에 배포된 모델로 전송된 동기식 요청입니다. 따라서 요청을 전송하기 전에Model
리소스를 엔드포인트에 배포해야 합니다. 이렇게 하면 컴퓨팅 리소스가 모델과 연결되므로 지연 시간이 짧은 온라인 예측을 제공할 수 있습니다. 애플리케이션 입력에 대한 응답으로 요청하거나 적시의 추론이 필요한 상황에서 요청하는 경우에 온라인 예측을 사용하세요.일괄 예측은 엔드포인트에 배포되지 않은 모델에 전송된 비동기식 요청입니다.
BatchPredictionsJob
리소스로 요청을Model
리소스에 직접 보냅니다. 즉각적인 응답이 필요하지 않고 단일 요청을 사용하여 누적된 데이터를 처리하고 싶은 경우에 일괄 예측을 사용하세요.
로컬에서 모델 테스트
예측을 수행하기 전에 모델을 개발 및 테스트 단계 중에 로컬 엔드포인트에 배포하는 것이 좋습니다. 이렇게 하면 모델을 더 빠르게 반복하고 모델을 온라인 엔드포인트에 배포하지 않거나 예측 비용 없이 모델을 테스트할 수 있습니다. 로컬 배포는 프로덕션 배포가 아닌 로컬 개발 및 테스트를 대상으로 합니다.
모델을 로컬로 배포하려면 Python용 Vertex AI SDK를 사용하여 LocalEndpoint
에 LocalModel
을 배포하세요.
데모는 이 노트북을 참조하세요.
클라이언트가 Python으로 작성되지 않았더라도 Python용 Vertex AI SDK를 사용하여 컨테이너와 서버를 실행할 수 있으므로 클라이언트의 요청을 테스트할 수 있습니다.
커스텀 학습 모델에서 예측 수행
예측을 수행하려면 먼저 모델을 가져와야 합니다. 가져오면 Vertex AI Model Registry에 Model
리소스가 표시됩니다.
그런 다음 예측 수행 방법을 알아보려면 다음 문서를 참조하세요.
다음 단계
- 예측용 Compute 리소스 알아보기