프로비저닝된 처리량은 분당 쿼리 수(QPM)만을 기준으로 측정되지 않습니다. 사용 사례의 쿼리 크기, 응답 크기, QPM을 기준으로 측정됩니다.
프로비저닝된 처리량은 프로젝트, 리전, 모델, 버전에 따라 다릅니다.
프로비저닝된 처리량은 특정 프로젝트-리전-모델-버전 조합에 할당됩니다. 다른 리전에서 호출된 동일한 모델은 프로비저닝된 처리량 할당량에 포함되지 않으며 온디맨드 요청보다 우선순위가 높지 않습니다.
컨텍스트 캐싱이
프로비저닝된 처리량은 기본 컨텍스트 캐싱을 지원합니다.
하지만 프로비저닝된 처리량은 컨텍스트 캐시에 관한 정보 검색을 포함하는 Vertex AI API를 사용한 요청 캐싱을 지원하지 않습니다.
기본적으로 Google은 비용과 지연 시간을 줄이기 위해 입력을 자동으로 캐시합니다.
Gemini 2.5 Flash 및 Gemini 2.5 Pro 모델의 경우 캐시 적중 시에 캐시된 토큰에는 표준 입력 토큰에서 75% 할인된 요금이 청구됩니다. 프로비저닝된 처리량의 경우 소진율 감소를 통해 할인이 적용됩니다.
예를 들어 Gemini 2.5 Pro의 입력 텍스트 토큰 및 캐시된 토큰의 소진율은 다음과 같습니다.
입력 텍스트 토큰 1개 = 토큰 1개
입력 캐시된 텍스트 토큰 1개 = 토큰 0.25개
이 모델에 입력 토큰 1,000개를 보내면 프로비저닝된 처리량이 초당 입력 토큰 1,000개만큼 소진됩니다. 하지만 캐시된 토큰 1,000개를 Gemini 2.5 Pro에 전송하면 프로비저닝된 처리량이 초당 250개의 토큰만큼 소진됩니다.
이렇게 하면 토큰이 캐시되지 않고 캐시 할인이 적용되지 않는 유사한 쿼리의 처리량이 높아질 수 있습니다.
프로비저닝된 처리량에서 지원되는 모델의 소진율을 확인하려면 지원되는 모델 및 소진율을 참고하세요.
Live API의 번다운 이해
프로비저닝된 처리량은 Live API를 사용하는 Gemini 2.5 Flash를 지원합니다. Live API를 사용하는 동안 소진량을 계산하는 방법을 알아보려면 Live API의 처리량 계산을 참고하세요.
Live API를 사용하는 Gemini 2.5 Flash에 프로비저닝된 처리량을 사용하는 방법에 대한 자세한 내용은 Live API용 프로비저닝된 처리량을 참고하세요.
프로비저닝된 처리량 요구사항 예측 예시
프로비저닝된 처리량 요구사항을 추정하려면 Google Cloud 콘솔의 추정 도구를 사용하세요.
다음 예시는 모델의 프로비저닝된 처리량을 추정하는 프로세스를 보여줍니다. 지역은 추정치 계산에 고려되지 않습니다.
이 표에는 예시를 따르는 데 사용할 수 있는 gemini-2.0-flash의 소진율이 나와 있습니다.
모델
GSU당 처리량
단위
최소 GSU 구매 증분
소진율
Gemini 2.0 Flash
3,360
토큰
1
입력 텍스트 토큰 1개 = 토큰 1개
입력 이미지 토큰 1개 = 토큰 1개
입력 동영상 토큰 1개 = 토큰 1개
입력 오디오 토큰 1개 = 토큰 7개
출력 텍스트 토큰 1개 = 토큰 4개
요구사항을 수집합니다.
이 예시에서 요구사항은 gemini-2.0-flash를 사용하여 텍스트 토큰 1,000개와 오디오 토큰 500개의 입력으로 초당 10개의 쿼리 (QPS)를 지원하여 텍스트 토큰 300개의 출력을 수신할 수 있는지 확인하는 것입니다.
이 단계에서는 모델, QPS, 입력 및 출력 크기를 파악했으므로 사용 사례를 이해했다는 의미입니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# Calculate Provisioned Throughput requirements\n\nThis section explains the concepts of generative AI scale unit (GSU) and\nburndown rates. Provisioned Throughput is calculated and priced\nusing generative AI scale units (GSUs) and burndown rates.\n\nGSU and burndown rate\n---------------------\n\nA *Generative AI Scale Unit (GSU)* is a measure of throughput for your prompts\nand responses. This amount specifies how much throughput to provision a model\nwith.\n\nA *burndown rate* is a ratio that converts the input and output units (such as\ntokens, characters, or images) to input tokens per second, input characters per\nsecond, or input images per second, respectively. This ratio represents the\nthroughput and is used to produce a standard unit across models.\n\nDifferent models use different amounts of throughput. For information about the\nminimum GSU purchase amount and increments for each model, see [Supported models\nand burndown rates](/vertex-ai/generative-ai/docs/supported-models) in this document.\n\nThis equation demonstrates how throughput is calculated: \n\n inputs_per_query = inputs_across_modalities_converted_using_burndown_rates\n outputs_per_query = outputs_across_modalities_converted_using_burndown_rates\n\n throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second\n\nThe calculated throughput per second determines how many GSUs that you need for\nyour use case.\n\nImportant Considerations\n------------------------\n\nTo help you plan for your Provisioned Throughput needs, review the\nfollowing important considerations:\n\n- **Requests are prioritized.**\n\n Provisioned Throughput customers are prioritized and serviced\n first before on-demand requests.\n- **Throughput doesn't accumulate.**\n\n Unused throughput doesn't accumulate or carry over to the next\n month.\n- **Provisioned Throughput is measured in tokens per second, characters per second, or images per second.**\n\n Provisioned Throughput isn't measured solely based on queries per minute\n (QPM). It's measured based on the query size for your use case, the response\n size, and the QPM.\n- **Provisioned Throughput is specific to a project, region, model, and version.**\n\n Provisioned Throughput is assigned to a specific\n project-region-model-version combination. The same model called from a\n different region won't count against your Provisioned Throughput\n quota and won't be prioritized over on-demand requests.\n\n### Context caching\n\n|\n| **Preview**\n|\n|\n| This feature is subject to the \"Pre-GA Offerings Terms\" in the General Service Terms section\n| of the [Service Specific Terms](/terms/service-terms#1).\n|\n| Pre-GA features are available \"as is\" and might have limited support.\n|\n| For more information, see the\n| [launch stage descriptions](/products#product-launch-stages).\n\nProvisioned Throughput supports default\n[context caching](/vertex-ai/generative-ai/docs/context-cache/context-cache-overview).\nHowever, Provisioned Throughput doesn't support caching requests\nusing the Vertex AI API that include retrieving information about a context\ncache.\n\nBy default, Google automatically caches inputs to reduce cost and latency.\nFor the Gemini 2.5 Flash and Gemini 2.5 Pro models, cached\ntokens are charged at a [75% discount](/vertex-ai/generative-ai/pricing)\nrelative to standard input tokens when a cache hit occurs. For\nProvisioned Throughput, the discount is applied through a\nreduced burndown rate.\n\nFor example, Gemini 2.5 Pro has the following burndown rates for input\ntext tokens and cached tokens:\n\n- 1 input text token = 1 token\n\n- 1 input cached text token = 0.25 tokens\n\nSending 1,000 input tokens to this model results in a burndown of your\nProvisioned Throughput by 1,000 input tokens per second. However,\nif you send 1,000 cached tokens to Gemini 2.5 Pro, this results in a\nburndown of your Provisioned Throughput by 250 tokens per second.\n\nNote that this can lead to higher throughput for similar queries where the tokens\naren't cached and the cache discount isn't applied.\n\nTo view the burndown rates for models supported in Provisioned Throughput,\nsee [Supported models and burndown rates](/vertex-ai/generative-ai/docs/supported-models).\n\nUnderstand the burndown for Live API\n------------------------------------\n\n| **Request access:** For information about access to this release, see the [access request page](https://docs.google.com/forms/d/e/1FAIpQLScxBeD4UJ8GbUfX4SXjj5a1XJ1K7Urwvb0iSGdGccNcFRBrpQ/viewform).\n\nProvisioned Throughput supports the Gemini 2.5 Flash with\nLive API. To understand how to calculate the burndown while using\nthe Live API, see\n[Calculate throughput for Live API](/vertex-ai/generative-ai/docs/provisioned-throughput/live-api#calculate).\n\nFor more information about using Provisioned Throughput\nfor Gemini 2.5 Flash with Live API, see\n[Provisioned Throughput for Live API](/vertex-ai/generative-ai/docs/provisioned-throughput/live-api).\n\nExample of estimating your Provisioned Throughput needs\n-------------------------------------------------------\n\nTo estimate your Provisioned Throughput needs, use the\n[estimation tool in the Google Cloud console](/vertex-ai/generative-ai/docs/purchase-provisioned-throughput#estimate-provisioned-throughput).\nThe following example illustrates the process of estimating the amount of\nProvisioned Throughput for your model. The region isn't considered\nin the estimation calculations.\n\nThis table provides the burndown rates for `gemini-2.0-flash` that you\ncan use to follow the example.\n\n1. Gather your requirements.\n\n 1. In this example, your requirement is to verify that you can support 10\n queries per second (QPS) of a query with an input of 1,000 text tokens and\n 500 audio tokens, to receive an output of 300 text tokens using\n `gemini-2.0-flash`.\n\n This step means that you understand your use case, because you have\n identified your model, the QPS, and the size of your inputs and outputs.\n 2. To calculate your throughput, refer to the\n [burndown rates](/vertex-ai/generative-ai/docs/supported-models#google-models) for your selected model.\n\n2. Calculate your throughput.\n\n 1. Multiply your inputs by the burndown rates to arrive at total input tokens:\n\n 1,000\\*(1 token per input text token) + 500\\*(7 tokens per input audio\n token) = 4,500 burndown adjusted input tokens per query.\n 2. Multiply your outputs by the burndown rates to arrive at total output tokens:\n\n 300\\*(4 tokens per output text token) = 1,200 burndown adjusted output\n tokens per query\n 3. Add your totals together:\n\n 4,500 burndown adjusted input tokens + 1,200 burndown adjusted output\n tokens = 5,700 total tokens per query\n 4. Multiply the total number of tokens by the QPS to arrive at total\n throughput per second:\n\n 5,700 total tokens per query \\* 10 QPS = 57,000 total tokens per second\n3. Calculate your GSUs.\n\n 1. The GSUs are the total tokens per second divided by per-second throughput per GSU from the burndown table.\n\n 57,000 total tokens per second ÷ 3,360 per-second throughput per GSU = 16.96 GSUs\n 2. The minimum GSU purchase increment for `gemini-2.0-flash` is\n 1, so you'll need 17 GSUs to assure your workload.\n\nWhat's next\n-----------\n\n- [Purchase Provisioned Throughput](/vertex-ai/generative-ai/docs/purchase-provisioned-throughput)."]]