할당량 정책

AI Platform Prediction에는 리소스 할당 및 사용에 대한 제한이 있으며 프로젝트 단위로 적절한 할당량을 적용합니다. 구체적인 정책은 리소스 가용성, 사용자 프로필, 서비스 사용 기록, 기타 요인에 따라 다르며 사전 통보 없이 변경될 수 있습니다.

아래 섹션에서는 시스템의 현재 할당량 한도를 간략히 설명합니다.

서비스 요청 한도

60초 간격으로 제한된 수의 개별 API 요청만 생성할 수 있습니다. 각 한도는 다음 섹션의 설명대로 특정 API 또는 API 그룹에 적용됩니다.

Google Cloud Console의 AI Platform Prediction용 API 관리자에서 프로젝트의 요청 할당량을 확인할 수 있습니다. 할당량 한도 옆에 있는 수정 아이콘을 클릭한 후 할당량 상향 신청을 클릭하면 할당량을 상향 요청할 수 있습니다.

작업 요청

다음 한도는 projects.jobs.create 요청(학습 및 일괄 예측 작업 합산)에 적용됩니다.

기간 한도
60초 60

온라인 예측 요청

다음 한도는 projects.predict 요청에 적용됩니다.

기간 한도
60초 600,000

리소스 관리 요청

다음 한도는 이 목록에 있는 지원되는 모든 요청을 합한 전체에 적용됩니다.

기간 한도
60초 300

또한 위에 나온 모든 delete 요청 및 모든 버전 create 요청은 동시 결합 총 요청 수가 10개로 제한됩니다.

리소스 할당량

시간에 따른 요청 한도 외에 다음 표와 같이 리소스 사용에도 제한이 적용됩니다.

  • 최대 모델 수: 100개
  • 최대 버전 수: 200개. 프로젝트의 총 버전 수에 대한 버전 한도로서 활성 상태의 모델에 원하는 만큼 분산해서 사용할 수 있습니다.

모델 크기 한도

모델 버전을 생성할 때 모델 디렉터리의 총 파일 크기는 기존(MLS1) 머신 유형을 사용하는 경우에는 500MB 이하여야 하고, Compute Engine(N1) 머신 유형을 사용하는 경우에는 10GB 이하여야 합니다. 온라인 예측용 머신 유형에 대해 자세히 알아보세요.

이러한 모델 크기 한도의 상향 조정은 요청할 수 없습니다.

가상 머신의 동시 사용 한도

프로젝트의 Google Cloud 처리 리소스 사용량은 학습에 사용되는 가상 머신 수로 측정됩니다. 이 섹션에서는 프로젝트 전체에서 이러한 리소스의 동시 사용 한도에 대해 설명합니다.

일괄 예측 시 동시 노드 한도

AI Platform Prediction을 처음 사용할 때 일반적인 프로젝트는 일괄 예측에 사용되는 동시 노드 수가 제한됩니다.

  • 동시 예측 노드 수: 72개

온라인 예측 시 노드 사용

AI Platform Prediction은 온라인 예측 시 노드 사용량에 할당량을 적용하지 않습니다. 자세한 내용은 예측 노드 및 리소스 할당을 참조하세요.

온라인 예측 시 동시 vCPU 사용량 한도

AI Platform Prediction을 처음 사용하는 일반적인 프로젝트의 경우 Compute Engine(N1) 머신 유형을 사용할 때 각 리전 엔드포인트에서 동시 vCPU 수가 다음과 같이 제한됩니다. 리전 엔드포인트에 따라 할당량이 다를 수 있으며 프로젝트 할당량은 시간이 지남에 따라 변경될 수 있습니다.

각 리전 엔드포인트의 총 동시 vCPU 수:

  • us-central1: 450
  • us-east1: 450
  • us-east4: 20
  • us-west1: 450
  • northamerica-northeast1: 20
  • europe-west1: 450
  • europe-west2: 20
  • europe-west3: 20
  • europe-west4: 450
  • asia-east1: 450
  • asia-northeast1: 20
  • asia-southeast1: 450
  • australia-southeast1: 20

이는 기본 할당량이며, 할당량 상향을 요청할 수 있습니다.

온라인 예측 시 동시 GPU 사용량 한도

AI Platform Prediction을 처음 사용하는 일반적인 프로젝트의 경우 각 리전 엔드포인트의 동시 GPU 수는 다음과 같이 제한됩니다. 리전 엔드포인트에 따라 할당량이 다를 수 있으며 프로젝트 할당량은 시간이 지남에 따라 변경될 수 있습니다.

총 동시 GPU 수: 동시에 사용할 수 있는 최대 GPU 수이며 유형과 리전 엔드포인트에 따라 다음과 같이 나뉩니다.

  • 동시 Tesla K80 GPU 수:
    • us-central1: 30
    • us-east1: 30
    • europe-west1: 30
    • asia-east1: 30
  • 동시 Tesla P4 GPU 수:
    • us-central1: 2
    • us-east4: 2
    • northamerica-northeast1: 2
    • europe-west4: 2
    • asia-southeast1: 2
    • australia-southeast1: 2
  • 동시 Tesla P100 GPU 수:
    • us-central1: 30
    • us-east1: 30
    • us-west1: 30
    • europe-west1: 30
    • asia-southeast1: 30
  • 동시 Tesla T4 GPU 수:
    • us-central1: 6
    • us-east1: 6
    • us-west1: 6
    • europe-west2: 2
    • europe-west4: 6
    • asia-northeast1: 2
    • asia-southeast1: 6
  • 동시 Tesla V100 GPU 수:
    • us-central1: 2
    • us-west1: 2
    • europe-west4: 2

이는 기본 할당량이며, 할당량 상향을 요청할 수 있습니다.

예측에 사용하는 GPU는 Compute Engine의 GPU로 집계되지 않으며, AI Platform Prediction의 할당량으로는 GPU를 사용하는 Compute Engine VM에 액세스할 수 없습니다. GPU를 사용하는 Compute Engine VM을 실행하려면 Compute Engine 문서의 설명에 따라 Compute Engine GPU 할당량을 요청해야 합니다.

자세한 내용은 온라인 예측 관련 GPU 사용 방법을 참조하세요.

할당량 상향 요청

이 페이지에 나온 할당량은 프로젝트 단위로 할당되며 사용할수록 상향될 수 있습니다. 처리 용량이 더 필요하면 다음 방법 중 하나를 이용해 할당량 상향을 요청할 수 있습니다.

  • Google Cloud Console을 사용하여 AI Platform Prediction용 API 관리자에 나열된 할당량 상향을 요청하세요.

    1. 상향 조정할 할당량 섹션을 찾습니다.

    2. 해당 할당량의 사용량 차트 아래에서 할당량 값 옆에 있는 연필 아이콘을 클릭합니다.

    3. 요청할 상향분을 입력합니다.

      • 원하는 할당량 값이 할당량 한도 대화상자에 표시된 범위 안에 속한다면 새 값을 입력하고 저장을 클릭합니다.

      • 표시된 최댓값 이상으로 할당량을 상향하려면 할당량 상향 신청을 클릭하고 다른 상향 요청 안내를 따릅니다.

  • GPU 할당량과 같이 Google Cloud 콘솔에 나열되지 않은 할당량을 늘려야 할 경우 AI Platform 할당량 요청 양식을 사용하여 할당량 증가를 요청합니다. 이러한 요청은 최선의 노력에 따라 처리됩니다. 이러한 요청 검토와 관련해서는 서비스수준계약(SLA) 또는 서비스 수준 목표(SLO)가 지원되지 않습니다.

다음 단계