할당량 오류 문제 해결

할당량 값을 초과하거나 할당량 프로젝트를 올바르게 설정하지 않는 등의 여러 가지 이유로 할당량 오류가 발생할 수 있습니다. 오류가 발생할 때 알림을 받으려면 할당량 알림 설정에 설명된 대로 특정 할당량 오류에 대한 커스텀 알림을 만들면 됩니다.

비율 할당량 초과

비율 할당량은 각 서비스에 맞는 사전 정의된 시간 간격이 지나면 재설정됩니다. 자세한 내용은 특정 서비스의 할당량 문서를 참조하세요.

할당량 값 초과

프로젝트에서 서비스 사용 중에 최대 할당량 값을 초과하는 경우 Google Cloud는 서비스에 액세스한 방법에 따라 오류를 반환합니다.

  • API 요청 시 할당량 값을 초과하면 Google Cloud에서 HTTP 413 REQUEST ENTITY TOO LARGE 상태 코드를 반환합니다. 프로덕션 환경에서 BigQuery 기존 스트리밍 API를 사용할 때 HTTP 요청이 10MB보다 크면 413 REQUEST ENTITY TOO LARGE 상태 코드가 수신될 수 있습니다. 초당 300MB를 초과하는 경우에도 이 오류가 발생할 수 있습니다. 자세한 내용은 스트리밍 삽입을 참조하세요.
  • HTTP/REST 요청 시 할당량 값을 초과하면 Google Cloud에서 HTTP 429 TOO MANY REQUESTS 상태 코드를 반환합니다.
  • Compute Engine 할당량을 초과하면 요청이 API, HTTP/REST, gRPC에서 시작되었는지 여부에 관계없이 Google Cloud가 일반적으로 HTTP 403 QUOTA_EXCEEDED 상태 코드를 반환합니다. 할당량이 비율 할당량이면 403 RATE_LIMIT_EXCEEDED가 반환됩니다.
  • gRPC를 사용 시 할당량 값을 초과하면 Google Cloud에서 ResourceExhausted 오류를 반환합니다. 이 오류가 표시되는 방식은 서비스에 따라 다릅니다.
  • Google Cloud CLI 명령어를 사용하여 할당량 값을 초과하면 gcloud CLI가 할당량 초과 오류 메시지를 출력하고 종료 코드 1을 반환합니다.
  • 서비스 출시 중 QUOTA_EXCEEDED 메시지가 표시되면 다음 섹션을 참조하세요.

서비스 출시 중 할당량 값 초과

Google Cloud에서는 경우에 따라 리소스 및 API의 기본 할당량 값이 변경됩니다. 이러한 변경사항은 점진적으로 발생합니다. 따라서 새 기본 할당량이 출시되었을 때 Google Cloud 콘솔에 표시되는 할당량 값은 사용자에게 제공되는 새 할당량 값을 반영하지 않을 수 있습니다.

할당량 적용이 진행 중인 경우 The future limit is the new default quota that will be available after a service rollout completes.라는 오류 메시지가 표시될 수 있습니다. 이 오류 메시지가 표시되면 인용된 할당량 값과 향후 값은, Google Cloud 콘솔에 표시되는 내용이 다르더라도 올바르다는 의미입니다.

  • 자세한 내용을 보려면 감사 로그를 확인하고 QUOTA_EXCEEDED 메시지를 확인합니다.

        "status": {
          ...
          "message": "QUOTA_EXCEEDED",
          "details": [
            {
              ...
              "value": {
                "quotaExceeded": {
                  ...
                  "futureLimit": FUTUREVALUE
                }
              }
            }
          ]
        },
    
  • 현재 및 최대 사용량을 표시하는 차트를 보려면 할당량 및 시스템 한도 페이지로 이동한 다음 모니터링을 클릭합니다. 테이블 끝으로 이동해야 할 수도 있습니다.

  • 할당량이 더 필요한 경우 할당량 조정을 요청할 수 있습니다.

API 오류 메시지

할당량 프로젝트(결제 프로젝트라고도 함)가 올바르게 설정되지 않은 경우 API 요청이 다음과 유사한 오류 메시지를 반환할 수 있습니다.

  • User credentials not supported by this API
  • API not enabled in the project
  • No quota project set

이러한 오류와 기타 오류는 할당량 프로젝트를 설정하여 해결되는 경우가 많습니다. 자세한 내용은 할당량 프로젝트 개요를 참조하세요.

오류 코드 429

요청 수가 요청을 처리하도록 할당된 용량을 초과하면 오류 코드 429가 반환됩니다. 다음 표는 각 유형의 할당량 프레임워크에서 생성된 오류 메시지를 보여줍니다.

제품 메시지
Pay-as-you-go Resource exhausted, please try again later.
프로비저닝된 처리량 Too many requests. Exceeded the provisioned throughput.

프로비저닝된 처리량 구독을 사용하면 특정 생성형 AI 모델의 처리량을 예약할 수 있습니다. 프로비저닝된 처리량 구독이 없고 애플리케이션에서 리소스를 사용할 수 없는 경우 오류 코드 429가 반환됩니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다. 하지만 서비스수준계약 (SLA)에 설명된 대로 요청은 오류율에 집계되지 않습니다.

프로비저닝된 처리량을 구매한 프로젝트의 경우 Vertex AI는 프로젝트의 처리량을 측정하고 사용 가능하도록 해당 처리량을 예약합니다. 구매한 처리량보다 적게 사용하는 경우 429로 반환되었을 오류가 5XX로 반환되고 SLA에 설명된 오류율의 일부로 집계됩니다.

Pay-as-you-go

사용한 만큼만 지불 할당량 프레임워크에서는 429 오류를 해결하기 위해 다음과 같은 옵션을 사용할 수 있습니다.

  • 잘린 지수 백오프를 사용하여 재시도 전략을 구현합니다.
  • 소비자 재정의를 설정하고 비용을 제어하도록 구성한 경우 한도를 늘립니다. 자세한 내용은 동적 공유 할당량을 참조하세요.
  • 보다 일관된 서비스 수준을 위해 프로비저닝된 처리량을 구독합니다. 자세한 내용은 프로비저닝된 처리량을 참조하세요.

프로비저닝된 처리량

프로비저닝된 처리량으로 생성된 오류를 수정하려면 다음을 수행합니다.

  • 예측 요청에 헤더를 설정하지 않는 기본 예시를 사용합니다. 초과분은 주문형(사용한 만큼만 지불)으로 청구됩니다.
  • 프로비저닝된 처리량 구독에서 GSU 수를 늘립니다.

gcloud CLI 오류

할당량 프로젝트를 설정하지 않으면 Google Cloud CLI(gcloud CLI) 명령어에서 다음과 같은 오류가 반환될 수 있습니다.

PERMISSION_DENIED: Your application is authenticating by using local Application Default Credentials.
The cloudquotas.googleapis.com API requires a quota project, which is not set by default.

이 문제를 해결하려면 gcloud CLI 명령어에 --billing-project 플래그를 추가하여 할당량 프로젝트를 명시적으로 설정하거나 gcloud config set billing/quota_project CURRENT_PROJECT를 다시 실행하여 할당량 프로젝트를 현재 프로젝트로 설정합니다.

자세한 내용은 다음을 참조하세요.