이 페이지에서는 레거시 모델의 할당량 및 한도에 대한 정보를 제공합니다. 레거시 모델 계열의 모델은 더 이상 새로운 안정화 버전으로 업데이트되지 않습니다. 자세한 내용은 레거시 모델 정보를 참조하세요.
할당량은 하드웨어, 소프트웨어, 네트워크 구성요소를 포함하여 Google Cloud 프로젝트에서 사용할 수 있는 공유 Google Cloud 리소스의 양을 제한합니다. 따라서 할당량은 다음을 수행하는 시스템에 속합니다.
- Google Cloud 제품 및 서비스 사용 또는 소비를 모니터링합니다.
- 공정성 보장 및 사용량 급증 방지 등의 이유로 리소스 소비를 제한합니다.
- 사전 정의된 제한사항을 자동으로 적용하는 구성을 유지합니다.
- 할당량을 요청하거나 변경할 수 있는 수단을 제공합니다.
대부분의 경우 할당량이 초과되면 시스템에서 관련 Google 리소스에 대한 액세스를 즉시 차단하고 수행하려는 작업이 실패합니다. 대부분의 경우 할당량은 각 Google Cloud 프로젝트에 적용되며 해당 Google Cloud 프로젝트를 사용하는 모든 애플리케이션과 IP 주소 전반에 공유됩니다.
리전 및 모델별 할당량
분당 요청 수(RPM) 할당량은 기본 모델과 해당 모델의 모든 버전, 식별자, 조정된 버전에 적용됩니다. 예를 들어 text-bison
에 대한 요청과 text-bison@001
에 대한 요청은 기본 모델의 RPM 할당량 text-bison
에 대한 요청 2개로 계산됩니다. 마찬가지로 text-bison@001
및 text-bison@002
에 대한 요청은 기본 모델의 RPM 할당량 text-bison
에 대한 요청 2개로 계산됩니다. 조정된 모델에도 동일하게 적용되므로 chat-bison@002
에 대한 요청 및 my-tuned-chat-model
이라는 chat-bison@002
를 기반으로 조정된 모델은 기본 모델 chat-bison
에 대한 요청 2개로 계산됩니다.
할당량은 특정 Google Cloud 프로젝트 및 지원되는 리전에 대한 Vertex AI 요청의 생성형 AI에 적용됩니다.
Google Cloud 콘솔에서 할당량을 보려면 다음을 수행합니다.
- Google Cloud 콘솔에서 IAM 및 관리자 할당량 페이지로 이동합니다.
필터 필드에서 측정기준 또는 측정항목을 지정합니다.
측정기준: 모델 식별자입니다. 예를 들면
base_model:gemini-1.0-pro
또는base_model:text-bison
입니다.측정항목: PaLM 2 모델의 할당량 식별자는
aiplatform.googleapis.com/online_prediction_requests_per_base_model
입니다.
리전을 선택하여 사용 가능한 각 모델의 할당량 한도를 확인하세요.
일괄 할당량
다음 할당량과 한도는 Vertex AI 일괄 예측 작업의 생성형 AI에 대한 리전에서 동일합니다.
할당량 | 값 |
---|---|
text_bison_concurrent_batch_prediction_jobs |
4 |
code_bison_concurrent_batch_prediction_jobs |
4 |
커스텀 학습 모델 할당량
특정 프로젝트 및 리전의 Vertex AI의 생성형 AI 조정 모델에 적용되는 할당량은 다음과 같습니다.
할당량 | 값 |
---|---|
리전에 따라 제한된 이미지 학습 TPU V3 포드 코어 * 지원되는 리전 - europe-west4 |
64 |
리전에 따라 제한된 이미지 학습 Nvidia A100 80GB GPU * 지원되는 리전 - us-central1 * 지원되는 리전 - us-east4 |
8 2 |
* 조정 시나리오에는 특정 리전에 가속기 예약이 있습니다. 튜닝에 대한 할당량이 지원되며 특정 리전에서 요청해야 합니다.
온라인 평가 할당량
평가 온라인 서비스는 모델 기반 측정항목에 대한 일관되고 객관적인 평가를 보장하기 위해 Google IP 프롬프트 및 메커니즘이 있는 자동 평가 도구로 text-bison
모델을 사용합니다.
모델 기반 측정항목에 대한 단일 평가 요청으로 인해 온라인 예측 서비스에 대한 여러 개의 기본 요청이 발생할 수 있습니다. 각 모델의 할당량은 프로젝트별로 계산됩니다. 즉, 모델 추론 및 모델 기반 평가를 위해 text-bison
으로 전달되는 모든 요청이 할당량에 반영됩니다. 모델 할당량마다 다르게 설정됩니다. 평가 서비스의 할당량과 기본 자동 평가 도구 모델의 할당량이 표에 나와 있습니다.
요청 할당량 | 기본 할당량 |
---|---|
분당 온라인 평가 서비스 요청 수 | 리전별 프로젝트당 요청 1,000개 |
base_model, base_model에 대한 분당 온라인 예측 요청: text-bison |
리전별 프로젝트당 요청 1,600개 |
평가 온라인 서비스를 사용하는 동안 할당량과 관련된 오류가 발생하면 할당량 증가 요청을 제출해야 할 수 있습니다. 자세한 사항은 할당량 보기 및 관리를 참조하세요.
한도 | 값 |
---|---|
온라인 평가 서비스 요청 제한 시간 | 60초 |
새 프로젝트에서 온라인 평가 서비스를 처음 사용하는 경우 일반적으로 최대 2분까지 초기 설정이 지연될 수 있습니다. 이는 일회성 프로세스입니다. 첫 번째 요청이 실패하면 몇 분 정도 기다린 후 다시 시도하세요. 후속 평가 요청은 일반적으로 60초 이내에 완료됩니다.
모델 기반 측정항목의 최대 입력 및 출력 토큰은 자동 평가 도구로 사용되는 모델에 따라 제한됩니다. 관련 모델의 한계는 모델 정보 | Vertex AI의 생성형 AI | Google Cloud를 참조하세요.
파이프라인 평가 할당량
평가 파이프라인 서비스를 사용하는 동안 할당량과 관련된 오류가 발생하면 할당량 증가 요청을 제출해야 할 수 있습니다. 자세한 사항은 할당량 보기 및 관리를 참조하세요.
평가 파이프라인 서비스는 Vertex AI Pipelines을 사용하여 PipelineJobs
를 실행합니다. Vertex AI Pipelines의 관련 할당량을 알아보세요. 다음은 일반적인 할당량 권장사항입니다.
서비스 | 할당량 | 추천 |
---|---|---|
Vertex AI API | 리전별 동시 LLM 일괄 예측 작업 | 점별: 1 * num_concurrent_pipelines 쌍별: 2 * num_concurrent_pipelines |
Vertex AI API | 리전별 분당 평가 요청 | 1000 * num_concurrent_pipelines |
또한 모델 기반 평가 측정항목을 계산할 때 자동 평가 도구가 할당량 문제에 부딪힐 수 있습니다. 관련 할당량은 사용된 자동 평가 도구에 따라 다릅니다.
태스크 | 할당량 | 기본 모델 | 추천 |
---|---|---|---|
summarization question_answering |
base_model 및 리전별 리전 및 분당 기본 모델당 온라인 예측 요청 | text-bison |
60 * num_concurrent_pipelines |
Vertex AI Pipelines
각 조정 작업은 Vertex AI Pipelines를 사용합니다. 자세한 내용을 알아보려면 Vertex AI Pipelines 할당량 및 한도를 참조하세요.
할당량 상향 조정
Vertex AI의 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용해 할당량 상향을 요청하면 됩니다. 할당량에 대한 자세한 내용은 할당량 작업을 참조하세요.
다음 단계
- Vertex AI 할당량 및 한도에 대해 알아보기
- Google Cloud 할당량 및 한도에 대해 알아보기