Vertex AI의 생성형 AI 비율 제한

Google Cloud는 공정성을 보장하고 리소스 사용 및 가용성의 급증을 줄이기 위해 할당량을 사용합니다. 할당량은 Google Cloud 프로젝트에서 사용할 수 있는 Google Cloud 리소스의 양을 제한합니다. 할당량은 하드웨어, 소프트웨어, 네트워크 구성요소를 포함하여 다양한 리소스 유형에 적용됩니다. 예를 들어 할당량에 따라 서비스에 대한 API 호출 수, 프로젝트에서 동시에 사용하는 부하 분산기 수, 만들 수 있는 프로젝트 수가 제한될 수 있습니다. 할당량은 서비스 과부하를 방지하여 Google Cloud 사용자 커뮤니티를 보호합니다. 할당량은 자체 Google Cloud 리소스를 관리하는 데도 도움이 됩니다.

Cloud Quotas 시스템은 다음을 수행합니다.

  • Google Cloud 제품 및 서비스 소비량 모니터링
  • 리소스 소비 제한
  • 할당량 값 변경을 요청할 수 있는 수단 제공

대부분의 경우 할당량이 허용하는 것보다 더 많은 리소스를 소비하려고 하면 시스템에서 리소스에 대한 액세스를 차단하고 수행하려는 작업이 실패합니다.

할당량은 일반적으로 Google Cloud 프로젝트 수준에서 적용됩니다. 한 프로젝트의 리소스를 사용해도 다른 프로젝트에서 사용 가능한 할당량에는 영향을 미치지 않습니다. Google Cloud 프로젝트 내에서 할당량은 모든 애플리케이션과 IP 주소에 공유됩니다.

리전 및 모델별 할당량

분당 요청 수(RPM) 할당량은 기본 모델과 해당 모델의 모든 버전, 식별자, 조정된 버전에 적용됩니다. 예를 들어 gemini-1.0-pro에 대한 요청과 gemini-1.0-pro-001에 대한 요청은 기본 모델의 RPM 할당량 gemini-1.0-pro에 대한 요청 2개로 계산됩니다. 마찬가지로 gemini-1.0-pro-001gemini-1.0-pro-002에 대한 요청은 기본 모델의 RPM 할당량 gemini-1.0-pro에 대한 요청 2개로 계산됩니다. 조정된 모델에도 동일하게 적용되므로 gemini-1.0-pro-001에 대한 요청 및 my-tuned-chat-model이라는 gemini-1.0-pro-001을 기반으로 조정된 모델은 기본 모델 gemini-1.0-pro에 대한 요청 2개로 계산됩니다.

할당량은 특정 Google Cloud 프로젝트 및 지원되는 리전에 대한 Vertex AI 요청의 생성형 AI에 적용됩니다.

Google Cloud 콘솔에서 할당량을 보려면 다음을 수행합니다.

  1. Google Cloud 콘솔에서 IAM 및 관리자 할당량 페이지로 이동합니다.

    콘솔에서 할당량 보기

  2. 필터 필드에서 측정기준 또는 측정항목을 지정합니다.
측정기준(모델 식별자) 측정항목(Gemini 모델의 할당량 식별자)
base_model: gemini-1.5-flash
base_model: gemini-1.5-pro
다음에서 조정을 요청할 수 있습니다.
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model
  • aiplatform.googleapis.com/generate_content_input_tokens_per_minute_per_base_model
다른 모든 모델 할당량은 하나만 조정할 수 있습니다.
  • aiplatform.googleapis.com/generate_content_requests_per_minute_per_project_per_base_model

리전을 선택하여 사용 가능한 각 모델의 할당량 한도를 확인하세요.

비율 제한

generate_content_input_tokens_per_minute_per_base_model 측정항목의 모든 리전에서 나열된 모델에 다음 비율 제한이 적용됩니다.

기본 모델 분당 토큰
base_model: gemini-1.5-flash 4M(4,000,000)
base_model: gemini-1.5-pro 4M(4,000,000)

일괄 요청

일괄 요청의 할당량과 한도는 모든 리전에서 동일합니다.

동시 일괄 요청

다음 표에는 동시 일괄 요청 수에 대한 할당량이 나와 있습니다.

할당량
aiplatform.googleapis.com/textembedding_gecko_concurrent_batch_prediction_jobs 4
aiplatform.googleapis.com/model_garden_oss_concurrent_batch_prediction_jobs 1
aiplatform.googleapis.com/gemini_pro_concurrent_batch_prediction_jobs 1

제출된 작업 수가 배정된 할당량을 초과하면 작업이 큐에 추가되고 할당량 용량을 사용할 수 있게 되면 처리됩니다.

일괄 요청 한도

다음 표에는 각 일괄 텍스트 생성 요청의 크기 한도가 나와 있습니다.

모델 한도
gemini-1.5-pro 레코드 50,000개
gemini-1.5-flash 레코드 15만 개
gemini-1.0-pro 레코드 15만 개
gemini-1.0-pro-vision 레코드 50,000개

커스텀 학습 모델 할당량

특정 프로젝트 및 리전의 Vertex AI의 생성형 AI 조정 모델에 적용되는 할당량은 다음과 같습니다.

할당량
리전에 따라 제한된 이미지 학습 TPU V3 포드 코어
* 지원되는 리전 - europe-west4
64
리전에 따라 제한된 이미지 학습 Nvidia A100 80GB GPU
* 지원되는 리전 - us-central1
* 지원되는 리전 - us-east4

8
2

* 조정 시나리오에는 특정 리전에 가속기 예약이 있습니다. 튜닝에 대한 할당량이 지원되며 특정 리전에서 요청해야 합니다.

온라인 평가 할당량

평가 온라인 서비스는 모델 기반 측정항목에 대한 일관되고 객관적인 평가를 보장하기 위해 Google IP 프롬프트 및 메커니즘이 있는 자동 평가 도구로 Gemini 1.5 모델을 사용합니다.

모델 기반 측정항목에 대한 단일 평가 요청으로 인해 온라인 예측 서비스에 대한 여러 개의 기본 요청이 발생할 수 있습니다. 각 모델의 할당량은 프로젝트별로 계산됩니다. 즉, 모델 추론 및 모델 기반 평가를 위해 Gemini 1.5로 전달되는 모든 요청이 할당량에 반영됩니다. 모델마다 할당량이 다르게 설정됩니다. 평가 서비스의 할당량과 기본 자동 평가 도구 모델의 할당량이 표에 나와 있습니다.

요청 할당량 기본 할당량
분당 온라인 평가 서비스 요청 수 리전별 프로젝트당 1,000개 요청
base_model: gemini-1.5-pro의 분당 온라인 예측 요청 수 리전 및 모델별 할당량을 참조하세요.

평가 온라인 서비스를 사용하는 동안 할당량과 관련된 오류가 발생하면 할당량 증가 요청을 제출해야 할 수 있습니다. 자세한 사항은 할당량 보기 및 관리를 참조하세요.

한도
온라인 평가 서비스 요청 제한 시간 60초

새 프로젝트에서 온라인 평가 서비스를 처음 사용하는 경우 일반적으로 최대 2분까지 초기 설정이 지연될 수 있습니다. 이는 일회성 프로세스입니다. 첫 번째 요청이 실패하면 몇 분 정도 기다린 후 다시 시도하세요. 후속 평가 요청은 일반적으로 60초 이내에 완료됩니다.

모델 기반 측정항목의 최대 입력 및 출력 토큰은 자동 평가 도구로 사용되는 모델에 따라 제한됩니다. 관련 모델의 한계는 모델 정보 | Vertex AI의 생성형 AI | Google Cloud를 참조하세요.

RAG용 Vertex AI 기반 LlamaIndex 할당량

다음 할당량은 Vertex AI 기반 LlamaIndex를 사용하여 검색 증강 생성(RAG)을 수행하는 데 적용됩니다.

서비스 할당량
Vertex AI 기반 LlamaIndex 데이터 관리 API 분당 요청(RPM) 60개
RetrievalContexts API 1,500 RPM
base_model: textembedding-gecko 1,500 RPM
온라인 예측 요청1 30,000 RPM
데이터 수집 파일 1,000개

1이 할당량은 공개 엔드포인트에만 적용됩니다. 비공개 엔드포인트의 분당 요청 수는 무제한입니다.

파이프라인 평가 할당량

평가 파이프라인 서비스를 사용하는 동안 할당량과 관련된 오류가 발생하면 할당량 증가 요청을 제출해야 할 수 있습니다. 자세한 사항은 할당량 보기 및 관리를 참조하세요.

평가 파이프라인 서비스는 Vertex AI Pipelines을 사용하여 PipelineJobs를 실행합니다. Vertex AI Pipelines의 관련 할당량을 알아보세요. 다음은 일반적인 할당량 권장사항입니다.

서비스 할당량 권장사항
Vertex AI API 리전별 동시 LLM 일괄 예측 작업 점별: 1 * num_concurrent_pipelines

쌍별: 2 * num_concurrent_pipelines
Vertex AI API 리전별 분당 평가 요청 수 1000 * num_concurrent_pipelines

또한 모델 기반 평가 측정항목을 계산할 때 자동 평가 도구가 할당량 문제에 부딪힐 수 있습니다. 관련 할당량은 사용된 자동 평가 도구에 따라 다릅니다.

할 일 목록 할당량 기본 모델 권장사항
summarization
question_answering
base_model별 리전별 기본 모델별 분당 온라인 예측 요청 text-bison 60 * num_concurrent_pipelines

Vertex AI Pipelines

각 조정 작업에는 Vertex AI Pipelines가 사용됩니다. 자세한 내용을 알아보려면 Vertex AI Pipelines 할당량 및 한도를 참조하세요.

동적 공유 할당량

동적 공유 할당량을 지원하는 서비스의 경우 Google Cloud는 처리 중인 모든 쿼리 간에 주문형 용량을 배포합니다. 이 기능을 사용하면 할당량 상향 요청(QIR)을 제출할 필요가 없습니다.

비용을 관리하고 예산 초과를 방지하려면 소비자 할당량 재정의라는 자체 적용 할당량을 구성하면 됩니다. 자세한 내용은 소비자 할당량 재정의 만들기를 참조하세요.

우선순위가 지정된 트래픽이 필요한 경우 프로비저닝된 처리량을 사용합니다.

Google Cloud 콘솔의 할당량 및 시스템 한도를 통해 사용량을 모니터링할 수도 있습니다.

동적 공유 할당량을 지원하는 모델에 관한 자세한 내용은 Anthropic의 Claude 모델 사용을 참조하세요.

동적 공유 할당량 작동 방식의 예시

Google Cloud는 북미와 같은 특정 리전에서 사용 가능한 용량을 확인한 후 요청을 보내는 고객 수를 확인합니다. 분당 쿼리 수(QPM) 25개를 전송하는 고객 A와 QPM 25개를 전송하는 고객 B를 가정해 보겠습니다. 이 서비스는 100QPM을 지원할 수 있습니다. 고객 A가 쿼리 비율을 75QPM으로 늘리면 동적 공유 할당량이 증가를 지원합니다. 고객 A가 쿼리 비율을 100QPM으로 늘리면 동적 공유 할당량은 고객 A를 75QPM으로 제한하여 고객 B에게 25QPM을 계속 제공합니다.

동적 공유 할당량 사용 시 발생할 수 있는 오류를 해결하려면 할당량 오류 문제 해결을 참조하세요.

오류 코드 429

요청 수가 요청을 처리하도록 할당된 용량을 초과할 경우 오류 코드 429가 반환됩니다. 다음 표에는 각 유형의 할당량 프레임워크에서 생성된 오류 메시지가 표시됩니다.

할당량 프레임워크 메시지
Pay-as-you-go Resource exhausted, please try again later.
프로비저닝된 처리량 Too many requests. Exceeded the provisioned throughput.

프로비저닝된 처리량 구독을 사용하면 특정 생성형 AI 모델의 처리량을 예약할 수 있습니다. 프로비저닝된 처리량 구독이 없고 애플리케이션에서 리소스를 사용할 수 없는 경우 오류 코드 429가 반환됩니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다. 하지만 서비스수준계약 (SLA)에 설명된 대로 요청은 오류율에 집계되지 않습니다.

프로비저닝된 처리량을 구매한 프로젝트의 경우 Vertex AI는 프로젝트의 처리량을 측정하고 이를 사용할 수 있도록 해당 처리량을 예약합니다. 구매한 처리량보다 적게 사용하는 경우 429로 반환되었을 오류가 5XX로 반환되고 SLA에 설명된 오류율의 일부로 집계됩니다.

Pay-as-you-go

사용한 만큼만 지불 할당량 프레임워크에서는 429 오류를 해결하기 위해 다음과 같은 옵션이 있습니다.

  • 잘린 지수 백오프를 사용하여 재시도 전략을 구현합니다.
  • 소비자 재정의를 설정하고 비용을 제어하도록 구성한 경우 한도를 늘립니다. 자세한 내용은 동적 공유 할당량을 참조하세요.
  • 보다 일관적인 서비스 수준을 얻기 위해서는 프로비저닝된 처리량을 구독하세요. 자세한 내용은 프로비저닝된 처리량을 참조하세요.

프로비저닝된 처리량

프로비저닝된 처리량으로 생성된 오류를 수정하려면 다음 단계를 따르세요.

  • 예측 요청에 헤더를 설정하지 않는 기본 예시를 사용합니다. 초과분은 주문형으로 처리되고 사용한 만큼만 지불로 청구됩니다.
  • 프로비저닝된 처리량 구독에서 GSU 수를 늘립니다.

할당량 상향 조정

Vertex AI의 생성형 AI 할당량을 상향 조정하려면 Google Cloud 콘솔을 사용해 할당량 상향을 요청하면 됩니다. 할당량에 대한 자세한 내용은 할당량 작업을 참조하세요.

다음 단계