동적 공유 할당량(DSQ)은 할당량 및 할당량 증가 요청(QIR)을 관리하지 않고도 워크로드 요구사항에 더 유연하게 적응하여 사용한 만큼만 지불(PayGo) 요청을 처리하기 위해 도입되었습니다. DSQ를 사용하면 사용량에 사전 정의된 할당량 제한이 없습니다. 대신 DSQ는 해당 모델의 모든 고객에 걸쳐 리소스의 실시간 가용성과 실시간 수요에 따라 동적으로 할당되는 대규모 공유 리소스 풀에 대한 액세스를 제공합니다. 활성 고객이 많을수록 각 고객의 처리량은 줄어듭니다. 마찬가지로 고객 수가 적으면 각 고객의 처리량이 더 높을 수 있습니다.
동적 공유 할당량(DSQ)은 트래픽 패턴과 요구사항에 맞게 조정되며 사용 중단을 최소화합니다. DSQ에 따른 프로젝트의 리소스 액세스는 Google에서 임의로 설정한 수로 제한되지 않습니다. 대신 공유 풀의 전반적인 용량과 모든 고객의 현재 총체적인 수요에 따라 결정됩니다.
이 모델은 상당한 유연성을 제공하도록 설계되어 워크로드가 필요할 때 더 많은 리소스를 사용하고 증가할 수 있습니다. 반대로 공유 풀의 모든 고객이 고객별 할당량을 구성하지 않고도 사용 가능한 경우 리소스에 액세스할 수 있습니다.
공유 리소스 환경의 모든 사용자에게 공정하고 안정적인 환경을 제공하기 위해 동적 공유 할당량은 특히 고립된 소스에서 수요가 매우 많은 기간에 요청이 처리되는 방식을 지능적으로 관리합니다. DSQ는 고정 상한이 아닌 동적 우선순위 지정 방식을 사용합니다. 즉, 시스템은 급증을 수용하도록 설계되었지만 단일 소스에서 발생하는 비정상적으로 크고 빠른 트래픽 급증은 더 일관되고 안정적인 트래픽과는 다른 우선순위로 처리될 수 있습니다. 이 정교한 관리를 통해 광범위한 사용자 활동과 일반 워크로드가 일시적인 극심한 급증으로부터 보호되므로 전반적인 시스템 안정성과 공정한 액세스가 촉진됩니다.
멀티모달 입력이 있는 Gemini 요청에는 이미지, 오디오, 동영상, 문서를 포함한 상응하는 시스템 비율 제한이 적용됩니다.
애플리케이션의 가용성을 높이고 프로덕션 워크로드의 서비스 수준을 예측 가능하게 하려면 프로비저닝된 처리량을 참고하세요.
DSQ의 리소스 소진 429 오류 이해
'리소스 소진됨' 429 오류가 발생하면 불편을 끼쳐드릴 수 있으며, 일종의 할당량 한도가 발생했다고 생각할 수 있습니다. 하지만 DSQ의 경우는 그렇지 않습니다. 이러한 오류는 특정 시간에 특정 유형(예: 특정 지역의 특정 모델)의 전체 공유 리소스 풀에 여러 사용자의 수요가 동시에 매우 높다는 것을 나타냅니다. 출퇴근 시간에 매우 붐비는 열차에 타려고 하는 것과 비슷합니다. 개인별 '티켓 한도'는 없지만 기차 자체가 일시적으로 꽉 차 있을 수 있습니다. 이는 프로젝트에 부과된 고정 한도가 아니라 리소스 경합에 따른 일시적인 상태입니다.
DSQ는 사용 가능한 용량을 공정하고 효율적으로 관리하고 배포하기 위해 지속적으로 노력하고 있습니다. 이러한 오류가 발생하면 즉시 발생한 수요가 공유 풀의 사용 가능한 공급을 초과했다는 의미입니다. 다른 곳에서 리소스가 유휴 상태이더라도 차단되는 하드 할당량과 달리 DSQ는 리소스가 사용 가능한 경우 언제든지 액세스할 수 있도록 합니다. 소진 오류는 계정의 한도가 아니라 전체 시스템의 현재 부하를 반영합니다.
이 동적 환경의 가용성은 빠르게 변경될 수 있으므로 재시도 메커니즘을 구현하는 것이 좋습니다. 리소스 소진 오류를 처리하는 방법에 관한 자세한 내용은 429 오류 처리 가이드 또는 오류 코드 429를 참고하세요.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-16(UTC)"],[],[],null,["# Dynamic shared quota (DSQ) was introduced to serve your pay-as-you-go (PayGo)\nrequests with greater flexibility to adapt to your workload needs without having\nto manage quotas and quota increase requests (QIR). With DSQ, there are no predefined\nquota limits on your usage. Instead, DSQ provides access to a large, shared pool of\nresources, dynamically allocated based on real-time availability of resources and\nreal-time demand across all customers of that model. When more customers are active,\neach customer gets a lower amount of throughput. Similarly, if there are fewer customers,\neach customer might get higher throughput.\n\nSupported models\n----------------\n\nThe following Gemini models and their [supervised fine-tuned](/vertex-ai/generative-ai/docs/models/gemini-use-supervised-tuning) models support DSQ:\n\n- [Gemini 2.5 Flash Image Preview](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash#image) (Preview)\n- [Gemini 2.5 Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash-lite)\n- [Gemini 2.0 Flash with Live API](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash#live-api) (Preview)\n- [Gemini 2.0 Flash with image generation](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash) (Preview)\n- [Gemini 2.5 Pro](/vertex-ai/generative-ai/docs/models/gemini/2-5-pro)\n- [Gemini 2.5 Flash](/vertex-ai/generative-ai/docs/models/gemini/2-5-flash)\n- [Gemini 2.0 Flash](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash)\n- [Gemini 2.0 Flash-Lite](/vertex-ai/generative-ai/docs/models/gemini/2-0-flash-lite)\n\nThe following legacy Gemini models support DSQ:\n\n- Gemini 1.5 Pro\n- Gemini 1.5 Flash\n\nThe following Imagen models support DSQ:\n\n- Imagen 4\n- Imagen 4 Fast\n- Imagen 4 Ultra\n\nHow DSQ works\n-------------\n\nDynamic shared quota (DSQ) adapts to your traffic patterns and needs and\nminimizes usage frictions. Your project's access to resources under DSQ is not\ncapped by an arbitrary number we set. Instead, it's determined by the overall\ncapacity of the shared pool and the current collective demand from all customers.\nThis model is designed to offer significant flexibility, allowing your workloads\nto burst and consume more resources when available. Conversely, it also allows\nall customers of the shared pool to have a chance to access resources when\navailable without requiring to configure per customer quota.\n\nTo ensure a fair and stable experience for all users in the shared resource\nenvironment, Dynamic Shared Quota intelligently manages how requests are handled,\nespecially during periods of very high demand from isolated sources. Rather than\na fixed cap, DSQ employs a dynamic prioritization approach. This means that while\nthe system is designed to accommodate bursts, unusually large and rapid spikes in\ntraffic from a single source may be handled with a different priority than more\nconsistent, steady traffic. This sophisticated management ensures that broad user\nactivity and regular workloads are protected from transient, extreme spikes,\npromoting overall system stability and equitable access.\n\nGemini requests with multi-modal inputs are subject to the\ncorresponding system rate limits that include\n[image](/vertex-ai/generative-ai/docs/multimodal/image-understanding#supported_models),\n[audio](/vertex-ai/generative-ai/docs/multimodal/audio-understanding#supported_models),\n[video](/vertex-ai/generative-ai/docs/multimodal/video-understanding#supported_models), and\n[document](/vertex-ai/generative-ai/docs/multimodal/document-understanding#supported_models).\n\nTo help ensure high availability for your application and to get predictable\nservice levels for your production workloads, see\n[Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput).\n\nUnderstanding Resource Exhaustion 429 errors under DSQ\n------------------------------------------------------\n\nWe understand that encountering a 'resource exhausted' 429 error can be\nfrustrating and might lead you to suspect you are hitting some sort of quota\nlimit. However, with DSQ, this is not the case. These errors indicate that the\noverall shared pool of resources for that specific type (e.g., a particular\nmodel in a specific region) at a specific time is experiencing extremely high\ndemand from many users simultaneously. Think of it like trying to get on a very\npopular train during peak rush hour. There isn't a 'ticket limit' specifically\nfor you, but the train itself might be momentarily full. It's a temporary state\nof contention for resources, not a fixed limit imposed on your project.\n\nDSQ is constantly working to manage and distribute the available capacity fairly\nand efficiently. When you receive such an error, it means instantaneous demand\nhas outstripped the available supply in that shared pool. Unlike a hard\nquota where you'd be blocked even if resources were idle elsewhere, DSQ aims to\ngive you access whenever resources are free. The exhaustion error is a reflection\nof the entire system's current load, not a ceiling on your account.\n\nWe recommend implementing retry mechanisms, as availability in this dynamic\nenvironment can change quickly. For more tactics of handling Resource Exhaustion\nerrors, see [A guide to handling 429 errors](/blog/products/ai-machine-learning/learn-how-to-handle-429-resource-exhaustion-errors-in-your-llms)\nor [Error code 429](/vertex-ai/generative-ai/docs/provisioned-throughput/error-code-429).\n\nWhat's next\n-----------\n\n- To learn about quotas and limits for Vertex AI, see [Vertex AI quotas and limits](/vertex-ai/docs/quotas).\n- To learn more about Google Cloud quotas and system limits, see the [Cloud Quotas documentation](/docs/quotas/overview)."]]