Vertex AI는 생성형 AI 모델의 처리량을 관리하는 두 가지 방법을 제공하여 비용, 유연성, 성능의 균형을 맞출 수 있습니다. 유연한 종량제 모델을 사용하거나 고정 가격으로 전용 처리량을 예약할 수 있습니다.
사용한 만큼만 지불
기본 사용한 만큼만 지불 모델의 경우 Vertex AI는 사전 정의된 사용량 한도가 없는 동적 공유 할당량을 사용합니다. 대신 실시간 가용성과 수요에 따라 동적으로 할당되는 대규모 공유 리소스 풀에 액세스할 수 있습니다.
이 모델을 사용하면 워크로드가 사용 가능한 경우 더 많은 리소스를 사용할 수 있습니다.
resource exhausted (429) 오류가 표시되면 공유 풀에 많은 사용자의 수요가 일시적으로 높다는 의미입니다. 가용성이 빠르게 변경될 수 있으므로 애플리케이션에 재시도 메커니즘을 구현해야 합니다.
예약된 용량
일관된 성능과 예측 가능한 비용이 필요한 중요한 프로덕션 애플리케이션의 경우 프로비저닝된 처리량을 사용할 수 있습니다.
프로비저닝된 처리량은 선택한 위치에서 모델의 특정 처리량을 예약하는 고정 비용 구독입니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# Throughput quota\n\nVertex AI offers two ways to manage throughput for your generative AI models, which lets you balance cost, flexibility, and performance. You can either use a flexible pay-as-you-go model or reserve a dedicated amount of throughput for a fixed price.\n\n\u003cbr /\u003e\n\nPay-as-you-go\n-------------\n\nFor the default pay-as-you-go model, Vertex AI uses\n[Dynamic Shared Quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota),\nwhich doesn't have a predefined usage limit. Instead, you get access to a large,\nshared pool of resources that are dynamically allocated based on real-time\navailability and demand.\n\nThis model allows your workloads to use more resources when they are available.\nIf you receive a `resource exhausted` (429) error, it means the shared pool is\ntemporarily experiencing high demand from many users at once. You should\nimplement retry mechanisms in your application, as availability can change\nquickly.\n\nReserved Capacity\n-----------------\n\nFor critical production applications that require consistent performance and\npredictable costs, you can use\n[Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput/overview).\nProvisioned Throughput is a fixed-cost subscription that reserves a\nspecific amount of throughput for your models in a chosen location.\n\nWhat's next\n-----------\n\n- Learn more about [Dynamic Shared Quota](/vertex-ai/generative-ai/docs/dynamic-shared-quota).\n- Learn more about [Provisioned Throughput](/vertex-ai/generative-ai/docs/provisioned-throughput/overview).\n- Learn more about [Google Cloud quotas](/docs/quotas/overview)."]]