프로비저닝된 처리량

프로비저닝된 처리량은 Vertex AI에서 지원되는 생성형 AI 모델의 처리량을 예약하는 고정 비용 월간 구독 서비스입니다. 처리량을 예약하려면 모델과 모델이 실행되는 사용 가능한 위치를 지정해야 합니다.

이 페이지에서는 프로비저닝된 처리량을 사용하는 경우, 작동 방식, 구독 방법을 설명합니다.

지원되는 모델

다음 표에는 프로비저닝된 처리량을 지원하는 모델, 각 생성형 AI 확장 단위(GSU)의 처리량, 각 모델의 소진율이 나와 있습니다.

Google 모델

다음 표에서는 프로비저닝된 처리량을 지원하는 Google 모델의 처리량, 구매 증분, 소진율을 보여줍니다. Google 모델은 초당 문자 수로 측정되며, 이는 프롬프트 입력 및 초당 모든 요청에서 생성된 텍스트 출력 문자로 정의됩니다.

모델 GSU당 처리량(문자/초) 최소 GSU 구매 증분 소진율
gemini-1.5-flash 컨텍스트 윈도우 128,000개 이하:
54,000

컨텍스트 윈도우 128,000개 초과:
27,000
5 컨텍스트 윈도우 128,000개 이하:
입력 문자 1자 = 문자 1자
출력 문자 1자 = 문자 4자
이미지 1개 = 문자 1,067자
초당 동영상 1개 = 문자 1,067자
초당 오디오 1개 = 문자 107자
컨텍스트 윈도우 128,000개 초과:
입력 문자 1자 = 문자 2자
출력 문자 1자 = 문자 8자
이미지 1개 = 문자 2,134자
초당 동영상 1개 = 문자 2,134자
초당 오디오 1개 = 문자 214자
gemini-1.5-pro 800 5 컨텍스트 윈도우 128,000개 이하:
입력 문자 1자 = 문자 1자
출력 문자 1자 = 문자 3자
이미지 1개 = 문자 1,052자
초당 동영상 1개 = 문자 1,052자
초당 오디오 1개 = 문자 100자
컨텍스트 윈도우 128,000개 초과:
입력 문자 1자 = 문자 2자
출력 문자 1자 = 문자 6자
이미지 1개 = 문자 2,104자
초당 동영상 1개 = 문자 2,104자
초당 오디오 1개 = 문자 200자
gemini-1.0-pro 8,000 5 입력 문자 1개 = 문자 1개
출력 문자 1개 = 문자 3개
이미지 1개 = 문자 20,000개
초당 동영상 1개 = 문자 16,000개
MedLM-medium 2,000 5 입력 문자 1개 = 문자 1개
출력 문자 1개 = 문자 2개
MedLM-large 200 5 입력 문자 1개 = 문자 1개
출력 문자 1개 = 문자 3개

지원되는 위치에 대한 자세한 내용은 사용 가능한 위치를 참고하세요.

새 모델이 출시되면 업그레이드할 수 있습니다. 가용성 및 지원 중단 날짜에 대한 자세한 내용은 Google 모델을 참조하세요.

Google 기존 모델

프로비저닝된 처리량을 지원하는 기존 모델을 참조하세요.

파트너 모델

이 표에는 프로비저닝된 처리량을 지원하는 파트너 모델의 처리량, 구매 증분, 소진율이 나와 있습니다. Claude 모델은 초당 토큰으로 측정되며, 이는 초당 모든 요청의 입력 및 출력 토큰의 총합으로 정의됩니다.

모델 GSU당 처리량(토큰/초) 최소 GSU 구매 증분 소진율
Anthropic Claude 3.5 Sonnet 350 25 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개
Anthropic Claude 3 Opus 70 35 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개
Anthropic Claude 3 Haiku 4,200 5 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개
Anthropic Claude 3 Sonnet 350 25 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개

지원되는 위치에 대한 자세한 내용은 사용 가능한 위치를 참고하세요.

프로비저닝된 처리량을 사용하는 경우

다음 고려사항 중 하나라도 사용 사례에 해당되는 경우 프로비저닝된 처리량 사용을 고려하세요.

  • 중요한 워크로드에 지속적으로 높은 처리량이 필요합니다. 처리량 측정은 모델에 따라 다릅니다.
  • 챗봇 및 에이전트와 같은 실시간 생성형 AI 프로덕션 애플리케이션을 빌드합니다.
  • 처리량이 초당 20,000자(영문 기준)를 초과합니다.
  • 애플리케이션 사용자에게 일관되고 예측 가능한 환경을 제공하려고 합니다.
  • 초과분을 관리할 수 있는 고정 월별 요금을 지불하여 확정적인 생성형 AI 비용을 원합니다.

프로비저닝된 처리량은 생성형 AI 모델을 사용하는 두 가지 방법 중 하나입니다. 두 번째 방법은 주문형이라고도 하는 사용한 만큼만 지불입니다.

프로비저닝된 처리량 측정 방법

이 섹션에서는 생성형 AI 확장 단위(GSU) 및 소진율의 개념을 설명합니다. 프로비저닝된 처리량은 GSU 및 소진율을 사용하여 계산되고 가격이 책정됩니다.

생성형 AI 확장 단위(GSU)는 프롬프트 및 응답에 대한 처리량의 측정 단위입니다. 이 양은 모델을 프로비저닝할 처리량을 지정합니다.

모델 간에 표준 단위를 생성하기 위해 모든 입력과 출력은 소진율이라는 모델별 비율을 사용하여 초당 입력 문자(처리량)로 변환됩니다.

모델마다 처리량이 다릅니다. 각 모델의 최소 GSU 구매액과 증분에 대한 자세한 내용은 이 문서의 지원되는 모델 및 소진율을 참조하세요.

이 수식은 처리량이 계산되는 방법을 보여줍니다.

inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates

throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second

계산된 초당 처리량에 따라 사용 사례에 필요한 GSU 수가 결정됩니다.

프로비저닝된 처리량 요구사항 예측 예시

프로비저닝된 처리량 요구사항을 추정하려면 Google Cloud 콘솔의 추정 도구를 사용하세요. 다음 예시에서는 모델에 프로비저닝된 처리량 양을 추정하는 프로세스를 보여줍니다. 이 리전은 추정 계산에 고려되지 않습니다.

  1. 요구사항을 수집합니다.

    1. 이 예시에서 요구사항은 gemini-1.5-flash를 사용하여 2개의 이미지로 2,000자를 전송하고 초당 10개의 쿼리에 대해 300자의 출력을 수신할 수 있도록 하는 것입니다.

      이 단계에서는 입력 및 출력 크기, 초당 쿼리 수(QPS), 모델을 파악했으므로 사용 사례를 이해하고 있음을 의미합니다.

    2. 처리량을 추정하려면 모델을 지정하세요. 이 예시에서 모델은 gemini-1.5-flash입니다.

    3. 입력 유형을 지정하고 소진율을 식별합니다. 소진율 표를 사용하여 입력 유형에 따라 소진율을 식별합니다.

      gemini-1.5-flash 모델의 이미지 소진율은 1,067자입니다.

  2. 처리량을 계산합니다.

    1. 이미지 수를 특정 모델의 입력 유형에 대한 소진율로 곱합니다.

      이미지 2개 * 이미지당 입력 문자 1,067자 = 입력 문자 2,134자

    2. 총 출력 문자는 300자입니다. 소진율 표로 돌아가서 특정 모델(gemini-1.5-flash)의 출력 문자 소진율(출력 문자당 4자)을 찾습니다.

      출력 문자 300자 * 출력 문자당 4자 = 변환된 입력 문자 1,200자

    3. 합계를 모두 더합니다.

      입력 문자 2,000자 + 이미지의 변환된 입력 문자 2,134자 + 출력의 변환된 입력 문자 1,200자 = 쿼리당 변환된 입력 문자 5,334자

    4. 쿼리당 문자 수를 예상 초당 쿼리 수로 곱하여 초당 총 처리량을 구합니다.

      쿼리당 변환된 입력 문자 5,334자 * 10 QPS = 초당 변환된 총 입력 문자 53,340자

  3. GSU를 계산합니다.

    1. GSU는 초당 총 처리량을 소진율 표의 GSU당 처리량으로 나눈 값입니다.

      초당 총 변환된 입력 문자 53,340자 ÷ GSU당 처리량 54,000개 = GSU 0.988개

    2. gemini-1.5-flash의 최소 GSU 구매 증분은 5이며, 이는 요구사항을 충족합니다.

구독 전에 고려해야 할 사항

프로비저닝된 처리량을 구독할지 결정하는 데 도움이 되도록 구독에 관한 세부정보 목록을 검토하세요.

  • 주문을 취소할 수 없습니다.

    프로비저닝된 처리량 구매는 약정이므로 주문을 취소할 수 없습니다. 하지만 구매한 GSU 수를 늘릴 수 있습니다. 약정을 실수로 구매했거나 구성에 문제가 있는 경우 Google Cloud 계정 담당자에게 문의하여 도움을 받으세요.

  • 구독을 자동 갱신할 수 있습니다.

    주문을 제출할 때 기간 종료 시 구독을 자동 갱신하거나 구독을 만료시킬 수 있습니다. 자동 갱신 프로세스를 취소할 수 있습니다. 자동 갱신 전에 구독을 취소하려면 다음 기간이 시작되기 30일 전에 자동 갱신을 취소합니다.

    이 프로세스에서 도움이 필요하면 Google Cloud 계정 담당자에게 문의하세요.

  • 알림을 통해 모델 버전 또는 리전을 변경할 수 있습니다.

    프로비저닝된 처리량은 프로젝트, 리전, 모델, 버전을 선택한 후에 사용 설정됩니다. Google Cloud 계정 담당자에게 문의하여 동일한 모델 게시자 또는 리전 내에서 영업일 기준 10일 전에 모델 버전을 변경할 수 있습니다. 예를 들어 Google 모델 간에 전환할 수 있습니다. 파트너 A의 모델 간에 전환할 수 있습니다. 파트너 B의 모델 간에 전환할 수 있습니다. Google, 파트너 A, 파트너 B의 모델 간에 전환할 수 없습니다.

  • 사용한 만큼만 지불에서 프로비저닝된 처리량으로 전환할 때는 다운타임이 발생하지 않습니다.

    프로비저닝된 처리량 주문의 모델 간에 전환할 때는 다운타임이 발생하지 않습니다. 하지만 처리량을 획득하는 데 걸리는 리드 타임은 필요합니다.

  • 기본적으로 초과분은 사용한 만큼만 지불(paygo)로 청구됩니다.

    처리량이 프로비저닝된 처리량 주문 금액을 초과하면 초과분은 사용한 만큼만 지불하는 방식으로 처리되고 청구됩니다. 요청별로 초과분을 관리할 수 있습니다. 자세한 내용은 REST API 사용을 참조하세요.

  • 요청은 우선순위에 따라 처리됩니다.

    프로비저닝된 처리량 고객의 요청은 주문형 요청보다 먼저 우선순위가 매겨지고 처리됩니다.

  • 최소 사용량 및 지급액을 약정해야 합니다.

    최소 사용량은 선택한 생성형 AI 모델에 따라 달라집니다. 구매한 처리량 비율을 넘는 사용량은 보장되지 않으며 합리적인 기준에 따라 서비스됩니다.

  • 처리량이 누적되지 않습니다.

    사용하지 않은 처리량은 누적되지 않으며 다음 달로 이월되지 않습니다.

  • 프로비저닝된 처리량은 초당 문자 수 또는 토큰 수로 측정됩니다.

    프로비저닝된 처리량은 분당 쿼리 수(QPM)가 아닌 초당 문자 수 또는 토큰 수를 기준으로 측정됩니다. 따라서 프로비저닝된 처리량을 측정하는 방법은 사용 사례의 쿼리 크기와 QPM에 따라 다릅니다.

프로비저닝된 처리량 구매

이 섹션에서는 프로비저닝된 처리량 주문을 하거나 확인하는 데 필요한 권한과 주문을 하고 확인하는 방법에 대한 안내를 제공합니다.

권한

프로비저닝된 처리량을 구독하려면 프로젝트에 새 주문을 나열하고 배치할 수 있는 다음 권한 중 하나가 할당되어 있어야 합니다.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: 프로비저닝된 처리량에 해당됩니다.
  • aiplatform.googleapis.com/admin: Vertex AI의 모든 리소스에 대한 관리 권한을 부여합니다.

이 역할을 사용하면 주문을 나열할 수만 있습니다.

  • aiplatform.googleapis.com/viewer

프로비저닝된 처리량 주문

프로비저닝된 처리량 구독을 구매하려면 다음 단계를 따르세요.

콘솔

  1. Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.

    프로비저닝된 처리량으로 이동

  2. 새 주문을 시작하려면 만들기를 클릭합니다.
  3. 주문 이름을 입력합니다.
  4. 모델을 선택합니다.
  5. 리전 선택
  6. 구매해야 하는 생성형 AI 확장 단위(GSU) 수를 입력합니다. GSU 수를 추정해야 하는 경우 예측 도구를 클릭합니다.
    1. 모델을 선택합니다.
    2. 초당 쿼리 수를 입력합니다.
    3. 쿼리당 입력 문자 수를 입력합니다.
    4. 쿼리당 입력 이미지 수를 입력합니다.
    5. 쿼리당 동영상 시간(초)을 입력합니다.
    6. 쿼리당 오디오 시간(초)을 입력합니다.
    7. 쿼리당 출력 문자 수를 입력합니다.
    8. 추정 도구에 입력한 값을 사용하려면 계산된 값 사용을 클릭합니다.
  7. 기간을 선택합니다.
  8. 갱신 옵션을 선택합니다.
  9. 계속을 클릭합니다.
  10. 요약 섹션에서 주문의 가격 및 처리량 추정치를 검토합니다. 양식에 나열되고 연결된 약관을 읽어보세요.
  11. 주문을 완료하려면 확인을 클릭합니다.

주문 상태 확인

프로비저닝된 처리량 주문을 제출하면 주문 상태가 다음 중 하나로 표시될 수 있습니다.

  • 검토 대기 중: 주문이 완료되었습니다. 승인은 주문을 프로비저닝하는 데 사용할 수 있는 용량에 따라 달라지므로 주문은 검토 및 승인을 기다립니다. 대기 중인 주문의 상태에 관한 자세한 내용은 Google Cloud 비즈니스 계정 담당자에게 문의하세요.
  • 활성: Google에서 주문을 승인 및 프로비저닝했으며 결제가 시작되었습니다.
  • 만료됨: 주문이 만료되었습니다.

프로비저닝된 처리량 주문 보기

프로비저닝된 처리량 주문을 보려면 다음 단계를 따르세요.

콘솔

  1. Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.

    프로비저닝된 처리량으로 이동

  2. 리전 선택 주문 목록이 표시됩니다.

프로비저닝된 처리량 사용

이 섹션에서는 초과 사용량을 제어하거나 프로비저닝된 처리량을 우회하는 방법과 프로비저닝된 처리량 사용량을 모니터링하는 방법을 설명합니다.

초과 사용량 제어 또는 프로비저닝된 처리량 우회

REST API를 사용하여 구매한 처리량을 초과할 때 초과분을 제어하거나 요청별로 프로비저닝된 처리량을 우회합니다.

각 옵션을 읽고 사용 사례에 맞게 무엇을 해야 하는지 결정하세요.

기본 동작

구매한 처리량을 초과하면 초과분은 주문형으로 전환되고 사용한 만큼만 지불하는 요금으로 청구됩니다. 프로비저닝된 처리량 주문이 활성화되면 기본 동작이 자동으로 실행됩니다. 주문을 소비하기 위해 코드를 변경할 필요는 없습니다.

이 curl 예시에서는 기본 동작을 보여줍니다.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

프로비저닝된 처리량만 사용

주문형 요금 청구를 방지하여 비용을 관리하는 경우에는 프로비저닝된 처리량만 사용합니다. 프로비저닝된 처리량 주문 금액을 초과하는 요청은 오류 429를 반환합니다.

이 curl 예시에서는 REST API를 사용하여 프로비저닝된 처리량 구독만 사용하는 방법을 보여줍니다. 초과 사용량이 발생하면 오류 429가 반환됩니다.

X-Vertex-AI-LLM-Request-Type 헤더를 dedicated로 설정합니다.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

사용한 만큼만 지불 사용

이를 주문형 사용이라고도 합니다. 요청이 프로비저닝된 처리량 주문을 우회하고 사용한 만큼만 지불로 직접 전송됩니다. 이는 개발 중인 실험이나 애플리케이션에 유용할 수 있습니다.

이 curl 예시는 REST API를 사용하여 프로비저닝된 처리량을 우회하고 사용한 만큼만 지불을 사용하는 방법을 보여줍니다.

X-Vertex-AI-LLM-Request-Type 헤더를 shared로 설정합니다.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

프로비저닝된 처리량 모니터링

모니터링 측정항목을 통해 요청별로 프로비저닝된 처리량 사용량을 모니터링할 수 있습니다.

응답 헤더

프로비저닝된 처리량을 사용하여 요청이 처리된 경우 응답에 다음 HTTP 헤더가 표시됩니다. 이 코드 줄은 generateContent API 호출에만 적용됩니다.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

측정항목

프로비저닝된 처리량은 aiplatform.googleapis.com/PublisherModel 리소스 유형에서 측정되는 측정항목 집합을 사용하여 모니터링할 수 있습니다. 각 측정항목은 다음 측정기준으로 필터링할 수 있습니다.

  • type: input, output
  • request_type: dedicated, shared

프로비저닝된 처리량 사용량을 보기 위해 측정항목을 필터링하려면 dedicated 요청 유형을 사용합니다. 측정항목의 경로 프리픽스는 aiplatform.googleapis.com/publisher/online_serving입니다. 예를 들어 /consumed_throughput 측정항목의 전체 경로는 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput입니다.

aiplatform.googleapis.com/PublisherModel 리소스에서 사용할 수 있는 Cloud Monitoring 측정항목은 다음과 같습니다.

측정항목 설명 프로비저닝된 처리량 사용량 필터링
/characters 입력 및 출력 문자 수 분포
/character_count 누적 입력 및 출력 문자 수
/consumed_throughput 사용된 처리량(소진율 고려) - 문자 수
/model_invocation_count 모델 호출 수(예측 요청)
/model_invocation_latencies 모델 호출 지연 시간(예측 지연 시간)
/first_token_latencies 요청 수신부터 첫 번째 토큰 반환까지의 기간
/tokens 입력 및 출력 토큰 수 분포
/token_count 누적된 입력 및 출력 토큰 수

다음 단계