AI Platform Prediction이 학습된 모델에서 예측을 수행하는 두 가지 방법은 온라인 예측(HTTP 예측이라고도 함)과 일괄 예측입니다. 두 방법 모두 클라우드 호스트 머신러닝 모델에 입력 데이터를 전달하고 각 데이터 인스턴스에 대한 추론을 얻습니다. 차이는 다음 표에서 확인하실 수 있습니다.
온라인 예측 | 일괄 예측 |
---|---|
예측 서비스 지연을 최소화하도록 최적화되었습니다. | 한 작업에서 대량의 인스턴스를 처리하고 더욱 복잡한 모델을 실행할 수 있도록 최적화되었습니다. |
요청당 하나 이상의 인스턴스를 처리할 수 있습니다. | 요청당 하나 이상의 인스턴스를 처리할 수 있습니다. |
응답 메시지에 예측이 반환됩니다. | 지정한 Cloud Storage 위치의 출력 파일에 예측이 작성됩니다. |
입력 데이터가 JSON 문자열로 직접 전달됩니다. | 입력 데이터는 Cloud Storage 위치에 있는 하나 이상의 파일 URI로 간접 전달됩니다. |
최대한 빨리 반환됩니다. | 비동기 요청입니다. |
다음 IAM 역할이 있는 계정은 온라인 예측을 요청할 수 있습니다. |
다음 IAM 역할이 있는 계정은 일괄 예측을 요청할 수 있습니다. |
모델을 배포할 때 선택했던 리전에서 해당 런타임 버전으로 실행됩니다. | 런타임 버전 2.1 이하를 사용하여 사용 가능한 모든 리전에서 실행할 수 있습니다. 단, 배포된 모델 버전의 기본값으로 실행해야 합니다. |
AI Platform Prediction에 배포된 모델을 실행합니다. | AI Platform Prediction에 배포된 모델 또는 액세스 가능한 Google Cloud Storage 위치에 저장된 모델을 실행합니다. |
다양한 유형의 가상 머신을 예측 노드에 사용하도록 구성할 수 있습니다. | AI Platform Prediction에 배포된 모델을 실행하는 경우 mls1-c1-m2 머신 유형을 사용해야 합니다. |
scikit-learn 및 XGBoost 모델뿐만 아니라 TensorFlow 저장된 모델 또는 커스텀 예측 루틴(베타)에서 예측을 제공할 수 있습니다. | TensorFlow 저장된 모델에서 예측을 제공할 수 있습니다. |
노드 시간당 $0.045147~$0.151962(미주). 가격은 선택한 머신 유형에 따라 달라집니다. | 노드 시간당 $0.0791205(미주). |
애플리케이션의 요구사항에 따라 사용해야 하는 예측 유형이 결정됩니다.
애플리케이션 입력에 대한 응답으로 요청하거나 적시의 추론이 필요한 다른 상황에서 요청할 경우에는 일반적으로 온라인 예측을 사용해야 합니다.
일괄 예측은 즉각적인 결과가 필요하지 않는 경우 축적된 데이터를 처리하는 데 이상적입니다. 마지막 작업 이후 수집된 모든 데이터에 대한 예측을 가져오는 주기적 작업을 예로 들 수 있습니다.
또한 예측 비용의 잠재적 차이를 고려하여 결정을 내려야 합니다.
일괄 예측 지연
간단한 모델과 소량의 입력 인스턴스 집합을 이용할 경우 온라인 예측과 일괄 예측의 예측 요청 완료 시간에 상당한 차이가 있음을 알 수 있습니다. 온라인 예측 요청 결과는 거의 즉각적으로 반환되지만, 일괄 예측 요청 결과는 몇 분 후 반환될 수 있습니다. 두 예측 방법에 사용되는 인프라가 다르기 때문입니다. AI Platform Prediction은 요청을 보낼 때 일괄 예측 작업용 리소스를 할당하고 초기화합니다. 온라인 예측은 일반적으로 요청 시점에 처리 준비가 완료됩니다.
다음 단계
예측에 관한 자세한 내용은 예측 개요를 참조하세요.
또는 온라인 예측 수행 또는 일괄 예측 수행으로 건너뛰세요.