모델에 전송된 요청 수가 사용 가능한 처리 용량을 초과하면 Vertex AI는 리소스가 소진되었음을 나타내는 429 오류 코드를 반환합니다. 구체적인 오류 메시지와 해결 경로는 사용한 만큼만 지불(pay-as-you-go) 요금제 서비스를 사용 중인지 아니면 프로비저닝된 처리량을 구매했는지에 따라 다릅니다.
429 오류 이해하기
다음 표에서는 사용한 만큼만 지불(Pay-as-you-go) 및 프로비저닝된 처리량 할당량 프레임워크에서 429 오류가 처리되는 방식을 비교합니다.
기능
사용한 만큼만 지불(Pay-as-you-go)
프로비저닝된 처리량
오류 메시지
Resource exhausted, please try again later.
Too many requests. Exceeded the Provisioned Throughput.
원인
요청 수가 공유 리소스 풀의 사용 가능한 용량을 초과합니다.
요청 수가 예약된 처리량 용량을 초과합니다.
SLA 영향
429 오류를 수신하는 요청은 서비스수준계약(SLA)에 설명된 대로 오류율에 집계되지 않습니다.
구매한 처리량 미만의 사용량에 대한 오류는 5XX로 반환되며 SLA에 반영됩니다. 구매한 처리량을 초과하는 사용량에 대한 오류는 사용한 만큼만 지불(pay-as-you-go) 요금으로 처리되며 SLA에 반영되지 않습니다.
프로비저닝된 처리량 구독을 사용하면 모델에 특정 처리량을 예약할 수 있습니다. 구독이 없고 공유 리소스를 사용할 수 없는 경우 429 오류가 발생합니다. 예약된 용량이 없어도 요청을 다시 시도할 수 있습니다.
프로비저닝된 처리량이 있는 프로젝트의 경우 Vertex AI는 프로젝트의 사용량에 대해 구매한 처리량을 예약합니다. 구매한 금액보다 적게 사용하는 경우 429로 반환되었을 오류가 5XX로 반환되고 SLA 오류율에 반영됩니다. 구매한 금액을 초과하면 추가 요청이 주문형으로 사용한 만큼만 지불 방식으로 처리됩니다.
429 오류를 해결하는 방법
429 오류를 해결하는 단계는 할당량 프레임워크에 따라 다릅니다.
사용한 만큼만 지불(Pay-as-you-go)
사용한 만큼만 지불(Pay-as-you-go) 할당량 프레임워크에서는 429 오류를 해결하기 위해 다음과 같은 옵션이 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-09(UTC)"],[],[],null,["# Error code 429\n\nIf the number of your requests exceeds the capacity allocated to process\nrequests, then error code `429` is returned. The following table displays the\nerror message generated by each type of quota framework:\n\nWith a Provisioned Throughput subscription, you can reserve an\namount of throughput for specific generative AI models. If you don't have a\nProvisioned Throughput subscription and resources aren't available\nto your application, then an error code `429` is returned. Although you don't\nhave reserved capacity, you can try your request again. However, the request\nisn't counted against your error rate as described in your [service level\nagreement (SLA)](/vertex-ai/generative-ai/sla).\n\nFor projects that have purchased Provisioned Throughput,\nVertex AI measures a project's throughput and reserves the purchased\namount of throughput for the project's actual usage.\n\nFor standard Provisioned Throughput, when you use less than your\npurchased amount, errors that might otherwise be `429` are returned as `5XX` and\ncount toward the SLA error rate. For Single Zone Provisioned Throughput,\nwhen you use less than your purchased amount, capacity-related `429` errors are\ntreated as `5XX` but don't count toward the SLA error rate. When you exceed your\npurchased amount, the additional requests are processed on-demand as pay-as-you-go.\n\nPay-as-you-go\n-------------\n\nOn the pay-as-you-go quota framework, you have the following options to\nresolving `429` errors:\n\n- Use the [global endpoint](/vertex-ai/generative-ai/docs/learn/locations#global-endpoint) instead of a regional endpoint whenever possible.\n- Implement a retry strategy by using [truncated exponential backoff](/storage/docs/retry-strategy#exponential-backoff).\n- If your model uses quotas, you can submit a Quota Increase Request (QIR). If your model uses [Dynamic shared\n quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota#supported_models), smoothing traffic and reducing large spikes can help. For more information, see [Dynamic shared\n quota (DSQ)](/vertex-ai/generative-ai/docs/dynamic-shared-quota).\n- Subscribe to Provisioned Throughput for a more consistent level of service. For more information, see [Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput).\n\nProvisioned Throughput\n----------------------\n\nTo correct the 429 error generated by Provisioned Throughput, do the\nfollowing:\n\n- Use the [Default behavior\n example](/vertex-ai/generative-ai/docs/use-provisioned-throughput#default), which doesn't set a header in prediction requests. Any overages are processed on-demand and billed as pay-as-you-go.\n- Increase the number of GSUs in your Provisioned Throughput subscription.\n\nWhat's next\n-----------\n\n- To learn more about dynamic shared quota, see [Dynamic shared\n quota](/vertex-ai/generative-ai/docs/dsq).\n- To learn more about Provisioned Throughput, see [Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput).\n- To learn about quotas and limits for Vertex AI, see [Vertex AI quotas and limits](/vertex-ai/docs/quotas).\n- To learn more about Google Cloud quotas and system limits, see the [Cloud Quotas documentation](/docs/quotas/overview).\n- To learn more about API errors, see [API errors](/vertex-ai/generative-ai/docs/model-reference/api-errors)."]]