이 기존 AI Platform Prediction 버전은 지원 중단되었으며 2025년 1월 31일 이후에는 Google Cloud에서 더 이상 사용할 수 없습니다. 모든 모델, 관련 메타데이터, 배포는 2025년 1월 31일 이후에 삭제됩니다. 리소스를 Vertex AI로 마이그레이션하여 AI Platform에서 사용할 수 없는 새로운 머신러닝 기능을 사용하세요.

할당량 정책

AI Platform Prediction에는 리소스 할당 및 사용에 대한 제한이 있으며 프로젝트 단위로 적절한 할당량을 적용합니다. 구체적인 정책은 리소스 가용성, 사용자 프로필, 서비스 사용 기록, 기타 요인에 따라 다르며 사전 통보 없이 변경될 수 있습니다.

아래 섹션에서는 시스템의 현재 할당량 한도를 간략히 설명합니다.

서비스 요청 한도

60초 간격으로 제한된 수의 개별 API 요청만 생성할 수 있습니다. 각 한도는 다음 섹션의 설명대로 특정 API 또는 API 그룹에 적용됩니다.

Google Cloud Console의 AI Platform Prediction용 API 관리자에서 프로젝트의 요청 할당량을 확인할 수 있습니다. 할당량 한도 옆에 있는 수정 아이콘을 클릭한 후 할당량 상향 신청을 클릭하면 할당량을 상향 요청할 수 있습니다.

작업 요청

다음 한도는 projects.jobs.create 요청(학습 및 일괄 예측 작업 합산)에 적용됩니다.

기간	한도
60초	60

온라인 예측 요청

다음 한도는 projects.predict 요청에 적용됩니다.

기간	한도
60초	600,000

리소스 관리 요청

다음 한도는 이 목록에 있는 지원되는 모든 요청을 합한 전체에 적용됩니다.

list 요청: projects.jobs, projects.models, projects.models.versions, projects.operations
get 요청: projects.jobs, projects.models, projects.models.versions, projects.operations
delete 요청: projects.models, projects.models.versions
create 요청: projects.models, projects.models.versions
cancel 요청: projects.jobs, projects.operations
projects.models.versions.setDefault 요청

기간	한도
60초	300

또한 위에 나온 모든 delete 요청 및 모든 버전 create 요청은 동시 결합 총 요청 수가 10개로 제한됩니다.

리소스 할당량

시간에 따른 요청 한도 외에 다음 표와 같이 리소스 사용에도 제한이 적용됩니다.

최대 모델 수: 100개
최대 버전 수: 200개. 프로젝트의 총 버전 수에 대한 버전 한도로서 활성 상태의 모델에 원하는 만큼 분산해서 사용할 수 있습니다.

모델 크기 한도

모델 버전을 생성할 때 모델 디렉터리의 총 파일 크기는 기존(MLS1) 머신 유형을 사용하는 경우에는 500MB 이하여야 하고, Compute Engine(N1) 머신 유형을 사용하는 경우에는 10GB 이하여야 합니다. 온라인 예측용 머신 유형에 대해 자세히 알아보세요.

이러한 모델 크기 한도의 상향 조정은 요청할 수 없습니다.

가상 머신의 동시 사용 한도

프로젝트의 Google Cloud 처리 리소스 사용량은 학습에 사용되는 가상 머신 수로 측정됩니다. 이 섹션에서는 프로젝트 전체에서 이러한 리소스의 동시 사용 한도에 대해 설명합니다.

일괄 예측 시 동시 노드 한도

AI Platform Prediction을 처음 사용할 때 일반적인 프로젝트는 일괄 예측에 사용되는 동시 노드 수가 제한됩니다.

동시 예측 노드 수: 72개

온라인 예측 시 노드 사용

AI Platform Prediction은 온라인 예측 시 노드 사용량에 할당량을 적용하지 않습니다. 자세한 내용은 예측 노드 및 리소스 할당을 참조하세요.

온라인 예측 시 동시 vCPU 사용량 한도

AI Platform Prediction을 처음 사용하는 일반적인 프로젝트의 경우 Compute Engine(N1) 머신 유형을 사용할 때 각 리전 엔드포인트에서 동시 vCPU 수가 다음과 같이 제한됩니다. 리전 엔드포인트에 따라 할당량이 다를 수 있으며 프로젝트 할당량은 시간이 지남에 따라 변경될 수 있습니다.

각 리전 엔드포인트의 총 동시 vCPU 수:

us-central1: 450
us-east1: 450
us-east4: 20
us-west1: 450
northamerica-northeast1: 20
europe-west1: 450
europe-west2: 20
europe-west3: 20
europe-west4: 450
asia-east1: 450
asia-northeast1: 20
asia-southeast1: 450
australia-southeast1: 20

이는 기본 할당량이며, 할당량 상향을 요청할 수 있습니다.

온라인 예측 시 동시 GPU 사용량 한도

AI Platform Prediction을 처음 사용하는 일반적인 프로젝트의 경우 각 리전 엔드포인트의 동시 GPU 수는 다음과 같이 제한됩니다. 리전 엔드포인트에 따라 할당량이 다를 수 있으며 프로젝트 할당량은 시간이 지남에 따라 변경될 수 있습니다.

총 동시 GPU 수: 동시에 사용할 수 있는 최대 GPU 수이며 유형과 리전 엔드포인트에 따라 다음과 같이 나뉩니다.

동시 Tesla P4 GPU 수:
- us-central1: 2
- us-east4: 2
- northamerica-northeast1: 2
- europe-west4: 2
- asia-southeast1: 2
- australia-southeast1: 2
동시 Tesla P100 GPU 수:
- us-central1: 30
- us-east1: 30
- us-west1: 30
- europe-west1: 30
- asia-southeast1: 30
동시 Tesla T4 GPU 수:
- us-central1: 6
- us-east1: 6
- us-west1: 6
- europe-west2: 2
- europe-west4: 6
- asia-northeast1: 2
- asia-southeast1: 6
동시 Tesla V100 GPU 수:
- us-central1: 2
- us-west1: 2
- europe-west4: 2