프로비저닝된 처리량 사용

이 페이지에서는 초과 사용량을 제어하거나 프로비저닝된 처리량을 우회하는 방법과 프로비저닝된 처리량의 사용량을 모니터링하는 방법을 설명합니다.

초과 사용량 제어 또는 프로비저닝된 처리량 우회

REST API를 사용하여 구매한 처리량을 초과할 때 초과분을 제어하거나 요청별로 프로비저닝된 처리량을 우회할 수 있습니다.

각 옵션을 읽고 사용 사례에 맞게 무엇을 해야 하는지 결정합니다.

기본 동작

구매한 처리량을 초과하면 초과분은 주문형으로 전환되고 사용한 만큼만 지불하는 요율에 따라 청구됩니다. 프로비저닝된 처리량 주문이 활성화되면 기본 동작이 자동으로 실행됩니다. 주문을 소비하기 위해 코드를 변경할 필요는 없습니다.

이 curl 예시에서는 기본 동작을 보여줍니다.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

프로비저닝된 처리량만 사용

주문형 요금을 피하여 비용을 관리하는 경우 프로비저닝된 처리량만 사용하세요. 프로비저닝된 처리량 주문 금액을 초과하는 요청은 429 오류를 반환합니다.

이 curl 예시에서는 REST API를 사용하여 프로비저닝된 처리량 구독만 사용하는 방법을 보여줍니다. 초과 사용량이 발생하면 오류 429가 반환됩니다.

X-Vertex-AI-LLM-Request-Type 헤더를 dedicated로 설정합니다.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: dedicated" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

사용한 만큼만 지불 사용

이를 주문형 사용이라고도 합니다. 요청이 프로비저닝된 처리량 주문을 우회하고 사용한 만큼만 지불로 직접 전송됩니다. 이는 개발 중인 실험이나 애플리케이션에 유용할 수 있습니다.

이 curl 예시에서는 REST API를 사용하여 프로비저닝된 처리량을 우회하고 일할양식 요금제만 사용하는 방법을 보여줍니다.

X-Vertex-AI-LLM-Request-Type 헤더를 shared로 설정합니다.

! curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  -H "X-Vertex-AI-LLM-Request-Type: shared" \
  $URL \
  -d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'

프로비저닝된 처리량 모니터링

모니터링 측정항목을 통해 프로비저닝된 처리량 사용량을 요청별로 모니터링할 수 있습니다.

응답 헤더

프로비저닝된 처리량을 사용하여 요청이 처리된 경우 응답에 다음 HTTP 헤더가 포함됩니다. 이 코드 줄은 generateContent API 호출에만 적용됩니다.

  {"X-Vertex-AI-LLM-Request-Type": "dedicated"}

측정항목

프로비저닝된 처리량은 aiplatform.googleapis.com/PublisherModel 리소스 유형에서 측정되는 일련의 측정항목을 사용하여 모니터링할 수 있습니다. 각 측정항목은 다음 측정기준을 기준으로 필터링할 수 있습니다.

  • type: input, output
  • request_type: dedicated, shared

프로비저닝된 처리량 사용량을 보려면 측정항목을 필터링하여 dedicated 요청 유형을 사용하세요. 측정항목의 경로 접두사는 aiplatform.googleapis.com/publisher/online_serving입니다.

예를 들어 /consumed_throughput 측정항목의 전체 경로는 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput입니다.

다음 Cloud Monitoring 측정항목은 Gemini 모델의 aiplatform.googleapis.com/PublisherModel 리소스에서 사용할 수 있으며 프로비저닝된 처리량 사용량에 대한 필터가 있습니다.

측정항목 표시 이름 설명
/characters 문자 수 입력 및 출력 문자 수 분포
/character_count 글자 수 누적된 입력 및 출력 문자 수입니다.
/consumed_throughput 문자 처리량 소진율을 고려한 사용된 처리량(문자 수) 토큰 기반 모델의 경우 이는 토큰 * 4에서 소비된 처리량과 같습니다.
/model_invocation_count 모델 호출 수 모델 호출 수 (예측 요청)입니다.
/model_invocation_latencies 모델 호출 지연 시간 모델 호출 지연 시간 (예측 지연 시간)
/first_token_latencies 첫 번째 토큰 지연 시간 요청이 수신된 시점부터 첫 번째 토큰이 반환될 때까지의 기간입니다.
/tokens 토큰 입력 및 출력 토큰 수 분포
/token_count 토큰 수 누적된 입력 및 출력 토큰 수입니다.

Anthropic 모델에는 프로비저닝된 처리량 필터도 있지만 tokens/token_count에만 적용됩니다.

다음 단계