이 섹션에서는 생성형 AI 확장 단위(GSU) 및 소진율의 개념을 설명합니다. 프로비저닝된 처리량은 생성형 AI 확장 단위 (GSU) 및 소진율을 사용하여 계산되고 가격이 책정됩니다.
GSU 및 소진율
생성형 AI 확장 단위(GSU)는 프롬프트 및 응답에 대한 처리량의 측정 단위입니다. 이 양은 모델을 프로비저닝할 처리량을 지정합니다.
소진율은 입력 및 출력 문자를 초당 입력 문자 (처리량)로 변환하는 비율입니다. 이 비율은 여러 모델에서 표준 단위를 생성하는 데 사용됩니다.
모델마다 처리량이 다릅니다. 각 모델의 최소 GSU 구매 금액 및 증분에 관한 자세한 내용은 이 문서의 지원되는 모델 및 소진율을 참고하세요.
다음 식은 처리량이 계산되는 방식을 보여줍니다.
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
계산된 초당 처리량에 따라 사용 사례에 필요한 GSU 수가 결정됩니다.
중요한 고려사항
프로비저닝된 처리량 요구사항을 계획하는 데 도움이 되도록 다음의 중요한 고려사항을 검토하세요.
요청은 우선순위에 따라 처리됩니다.
프로비저닝된 처리량 고객은 주문형 요청보다 우선순위가 높으며 먼저 서비스가 제공됩니다.
처리량이 누적되지 않습니다.
사용하지 않은 처리량은 누적되지 않으며 다음 달로 이월되지 않습니다.
프로비저닝된 처리량은 초당 문자 또는 토큰으로 측정됩니다.
프로비저닝된 처리량은 분당 쿼리 수 (QPM)가 아닌 초당 문자 수 또는 토큰 수를 기준으로 측정됩니다. 따라서 프로비저닝된 처리량 측정은 사용 사례의 쿼리 크기, 응답 크기, QPM에 따라 달라집니다.
프로비저닝된 처리량은 할당량을 확인합니다.
할당량 기간 내에 요청할 때마다 프로비저닝된 처리량 할당량이 확인됩니다.
gemini-2.0-flash-001
,gemini-1.5-flash-002
,gemini-1.5-pro-002
모델의 경우 할당량 기간은 최대 30초까지 가능하며 변경될 수 있습니다. 즉, 경우에 따라 초 단위로 할당량을 초과하는 우선순위 트래픽이 일시적으로 발생할 수 있지만 30초 단위로 할당량을 초과해서는 안 됩니다. 다른 모델의 할당량 기간은 최대 1분까지 걸릴 수 있습니다. 할당량 기간은 Vertex AI 시계 시간을 기반으로 하며 요청 시점과는 무관합니다.예를 들어
gemini-1.5-pro-002
GSU 1개를 구매하면 상시 사용 설정된 처리량이 초당 800자일 것으로 예상해야 합니다. 평균적으로 30초 기준 24,000자(영문 기준)를 초과해서는 안 되며, 이는 다음 수식을 사용하여 계산됩니다.초당 800자 * 30초 = 24,000자
하루 종일 초당 1,600자씩 소비하는 단일 요청을 제출한 경우 요청 시 초당 800자 한도를 초과하더라도 프로비저닝된 처리량 요청으로 처리될 수 있습니다.
프로비저닝된 처리량은 프로젝트, 리전, 모델, 버전에 따라 다릅니다.
프로비저닝된 처리량은 특정 프로젝트-지역-모델-버전 조합에 할당됩니다. 다른 리전에서 호출된 동일한 모델은 프로비저닝된 처리량 할당량에 포함되지 않으며 온디맨드 요청보다 우선순위가 높지 않습니다.
프로비저닝된 처리량 요구사항 예측 예시
프로비저닝된 처리량 요구사항을 추정하려면 Google Cloud 콘솔의 추정 도구를 사용하세요. 다음 예는 모델의 프로비저닝된 처리량을 추정하는 프로세스를 보여줍니다. 이 지역은 추정치 계산에 고려되지 않습니다.
이 표에는 예시를 따르는 데 사용할 수 있는 gemini-1.5-flash
의 소진율이 나와 있습니다.
모델 | GSU당 처리량(문자/초) | 최소 GSU 구매 증분 | 소진율 |
---|---|---|---|
Gemini 1.5 Flash | 토큰 컨텍스트 윈도우 128,000개 이하: 54,000 토큰 컨텍스트 윈도우 128,000개 초과: 27,000 |
1 | 토큰 컨텍스트 윈도우 128,000개 이하: 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 4자 이미지 1개 = 문자 1,067자 초당 동영상 1개 = 문자 1,067자 초당 오디오 1개 = 문자 107자 토큰 컨텍스트 윈도우 128,000개 초과: 입력 문자 1자 = 문자 2자 출력 문자 1자 = 문자 8자 이미지 1개 = 문자 2,134자 초당 동영상 1개 = 문자 2,134자 초당 오디오 1개 = 문자 214자 |
요구사항을 수집합니다.
이 예시에서 요구사항은
gemini-1.5-flash
를 사용하여 2개의 이미지로 2,000자를 전송하고 초당 10개의 쿼리에 대해 300자의 출력을 수신할 수 있도록 하는 것입니다.이 단계에서는 입력 및 출력 크기, 초당 쿼리 수 (QPS), 모델을 파악했으므로 사용 사례를 이해했다는 의미입니다.
처리량을 추정하려면 모델을 지정하세요. 이 예시에서 모델은
gemini-1.5-flash
입니다.입력 유형을 지정하고 소진율을 식별합니다. 소진율을 사용하여 입력 유형에 따라 소진율을 식별합니다.
gemini-1.5-flash
모델의 이미지 소진율은 1,067자입니다.
처리량을 계산합니다.
이미지 수를 특정 모델의 입력 유형에 대한 소진율로 곱합니다.
이미지 2개 * 이미지당 입력 문자 1,067자 = 입력 문자 2,134자
총 출력 문자는 300자입니다. 소진율 표로 돌아가서 특정 모델(
gemini-1.5-flash
)의 출력 문자 소진율(출력 문자당 4자)을 찾습니다.출력 문자 300자 * 출력 문자당 4자 = 변환된 입력 문자 1,200자
합계를 모두 더합니다.
입력 문자 2,000자 + 이미지의 변환된 입력 문자 2,134자 + 출력의 변환된 입력 문자 1,200자 = 쿼리당 변환된 입력 문자 5,334자
쿼리당 문자 수를 예상 초당 쿼리 수로 곱하여 초당 총 처리량을 구합니다.
쿼리당 변환된 입력 문자 5,334자 * 10 QPS = 초당 변환된 총 입력 문자 53,340자
GSU를 계산합니다.
GSU는 초당 총 처리량을 소진율 표의 GSU당 처리량으로 나눈 값입니다.
초당 총 변환된 입력 문자 53,340자 ÷ GSU당 처리량 54,000개 = GSU 0.988개
gemini-1.5-flash
의 최소 GSU 구매 증분은 1이며, 이는 요구사항을 충족합니다.