이 페이지는 Cloud Translation API를 통해 번역되었습니다.

프로비저닝된 처리량 계산 요구사항

이 섹션에서는 생성형 AI 확장 단위(GSU) 및 소진율의 개념을 설명합니다. 프로비저닝된 처리량은 생성형 AI 확장 단위(GSU) 및 소진율을 사용하여 계산되고 가격이 책정됩니다.

GSU 및 소진율

생성형 AI 확장 단위(GSU)는 프롬프트 및 응답에 대한 처리량의 측정 단위입니다. 이 값은 모델에 프로비저닝할 처리량을 지정합니다.

소진율은 입력 및 출력 단위(예: 토큰, 문자, 이미지)를 초당 입력 토큰, 초당 입력 문자 또는 초당 입력 이미지로 각각 변환하는 비율입니다. 이 비율은 처리량을 나타내며 모델 전반에서 표준 단위를 생성하는 데 사용됩니다.

모델마다 사용하는 처리량이 다릅니다. 각 모델의 최소 GSU 구매량 및 증분에 대한 자세한 내용은 이 문서의 지원되는 모델 및 소진율을 참조하세요.

다음 식은 처리량이 어떻게 계산되는지 보여줍니다.

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

초당 계산된 처리량에 따라 사용 사례에 필요한 GSU 수가 결정됩니다.

중요 고려사항

프로비저닝된 처리량 요구사항을 계획하는 데 도움이 되도록 다음의 중요 사항을 고려하세요.

요청에 우선순위가 지정됩니다.

프로비저닝된 처리량 고객은 주문형 요청보다 먼저 우선순위가 지정되고 서비스됩니다.
처리량은 누적되지 않습니다.

사용하지 않은 처리량은 누적되지 않으며 다음 달로 이월되지 않습니다.
프로비저닝된 처리량은 초당 토큰 수, 초당 문자 수 또는 초당 이미지 수로 측정됩니다.

프로비저닝된 처리량은 분당 쿼리 수(QPM)만을 기준으로 측정되지 않습니다. 사용 사례의 쿼리 크기, 응답 크기, QPM을 기준으로 측정됩니다.
프로비저닝된 처리량은 프로젝트, 리전, 모델, 버전에 따라 다릅니다.

프로비저닝된 처리량은 특정 프로젝트-리전-모델-버전 조합에 할당됩니다. 다른 리전에서 호출된 동일한 모델은 프로비저닝된 처리량 할당량에 포함되지 않으며 주문형 요청보다 우선순위가 높지 않습니다.

컨텍스트 캐싱

프로비저닝된 처리량은 암시적 컨텍스트 캐싱을 지원합니다. 명시적 컨텍스트 캐싱을 지원하지 않습니다. 명시적 컨텍스트 캐싱 트래픽이 프로비저닝된 처리량에서 종량제로 이동됩니다. 지원되는 모델 및 한도에 대한 자세한 내용은 컨텍스트 캐싱을 참고하세요.

암시적 캐싱은 기본적으로 모든 Google Cloud 프로젝트에서 사용 설정됩니다. 암시적 캐싱은 캐시 적중 시 비용과 지연 시간을 줄입니다. 캐시 적중 시에 캐시된 토큰에는 표준 입력 토큰에서 할인된 요금이 청구됩니다. 모델별 할인을 확인하려면 컨텍스트 캐싱 개요를 참고하세요. 프로비저닝된 처리량의 경우 할인된 소진율을 통해 할인이 적용됩니다.

예를 들어 Gemini 2.5 Pro의 입력 텍스트 토큰 및 캐시된 토큰의 소진율은 다음과 같습니다.

입력 텍스트 토큰 1개 = 토큰 1개
입력 캐시된 텍스트 토큰 1개 = 토큰 0.1개

이 모델에 입력 토큰 1,000개를 보내면 프로비저닝된 처리량이 초당 입력 토큰 1,000개만큼 소진됩니다. 하지만 캐시된 토큰 1,000개를 Gemini 2.5 Pro에 전송하면 프로비저닝된 처리량이 초당 100개의 토큰만큼 소진됩니다.

이렇게 하면 토큰이 캐시되지 않고 캐시 할인이 적용되지 않는 유사한 쿼리의 처리량이 높아질 수 있습니다.

프로비저닝된 처리량에서 지원되는 모델의 소진율을 확인하려면 지원되는 모델 및 소진율을 참조하세요.

Live API의 소진율 이해

프로비저닝된 처리량은 Live API를 사용하는 Gemini 2.5 Flash를 지원합니다. Live API를 사용하는 동안 소진율을 계산하는 방법을 알아보려면 Live API의 처리량 계산을 참조하세요.

Live API를 사용하는 Gemini 2.5 Flash에 프로비저닝된 처리량을 사용하는 방법에 대한 자세한 내용은 Live API용 프로비저닝된 처리량을 참조하세요.

프로비저닝된 처리량 요구사항 예측 예시

프로비저닝된 처리량 요구사항을 추정하려면 Google Cloud 콘솔의 추정 도구를 사용하세요. 다음 예시는 모델의 프로비저닝된 처리량을 추정하는 프로세스를 보여줍니다. 리전은 추정치 계산에 고려되지 않습니다.

이 표에는 예시를 따르는 데 사용할 수 있는 gemini-2.0-flash의 소진율이 나와 있습니다.

모델	GSU당 처리량	단위	최소 GSU 구매 증분	소진율
Gemini 2.0 Flash	3,360	토큰	1	입력 텍스트 토큰 1개 = 토큰 1개 입력 이미지 토큰 1개 = 토큰 1개 입력 동영상 토큰 1개 = 토큰 1개 입력 오디오 토큰 1개 = 토큰 7개 출력 텍스트 토큰 1개 = 토큰 4개

요구사항을 수집합니다.
1. 이 예시에서 요구사항은 gemini-2.0-flash를 사용하여 텍스트 토큰 1,000개와 오디오 토큰 500개의 입력으로 초당 10개의 쿼리(QPS)를 지원하여 텍스트 토큰 300개의 출력을 수신할 수 있는지 확인하는 것입니다.
  
  이 단계에서는 모델, QPS, 입력 및 출력 크기를 파악했으므로 사용 사례를 이해했다는 의미입니다.
2. 처리량을 계산하려면 선택한 모델의 소진율을 참조하세요.
처리량을 계산합니다.
1. 입력에 소진율을 곱하여 총 입력 토큰을 구합니다.
  
  1,000*(입력 텍스트 토큰당 1개 토큰) + 500*(입력 오디오 토큰당 7개 토큰) = 쿼리당 소진 조정 입력 토큰 4,500개
2. 출력에 소진율을 곱하여 총 출력 토큰을 구합니다.
  
  300*(출력 텍스트 토큰당 4개 토큰) = 쿼리당 소진 조정 출력 토큰 1,200개
3. 합계를 모두 더합니다.
  
  소진 조정 입력 토큰 4,500개 + 소진 조정 출력 토큰 1,200개 = 쿼리당 총 토큰 5,700개
4. 총 토큰 수에 QPS를 곱하여 초당 총 처리량을 구합니다.
  
  쿼리당 총 토큰 5,700개*10 QPS = 초당 총 토큰 57,000개
GSU를 계산합니다.
1. GSU는 초당 총 토큰을 소진율 표의 GSU당 초당 처리량으로 나눈 값입니다.
  
  초당 총 토큰 57,000개 ÷ GSU당 초당 처리량 3,360개 = GSU 16.96개
2. gemini-2.0-flash의 최소 GSU 구매 증분은 1이므로 워크로드를 보장하려면 GSU 17개가 필요합니다.

다음 단계

프로비저닝된 처리량 구매