프로비저닝된 처리량은 Vertex AI에서 지원되는 생성형 AI 모델의 처리량을 예약하는 고정 요금 월간 구독 또는 주간 서비스입니다. 처리량을 예약하려면 모델과 모델이 실행되는 사용 가능한 위치를 지정해야 합니다.
이 페이지에서는 프로비저닝된 처리량을 사용해야 하는 경우, 작동 방식, 구독 방법을 설명합니다.
지원되는 모델
다음 표에는 프로비저닝된 처리량을 지원하는 모델, 각 생성형 AI 확장 단위 (GSU)의 처리량, 각 모델의 소진율이 나와 있습니다.
Google 모델
다음 표에서는 프로비저닝된 처리량을 지원하는 Google 모델의 처리량, 구매 증분, 소진율을 보여줍니다. Google 모델은 초당 문자로 측정되며, 이는 초당 모든 요청에 걸쳐 프롬프트 입력 및 생성된 텍스트 출력 문자로 정의됩니다.
모델 | GSU당 처리량(문자/초) | 최소 GSU 구매 증분 | 소진율 | |
---|---|---|---|---|
Gemini 1.5 Flash | 컨텍스트 윈도우 128,000개 이하: 54,000 컨텍스트 윈도우 128,000개 초과: 27,000 |
1 | 컨텍스트 윈도우 128,000개 이하: 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 4자 이미지 1개 = 문자 1,067자 초당 동영상 1개 = 문자 1,067자 초당 오디오 1개 = 문자 107자 |
컨텍스트 윈도우 128,000개 초과: 입력 문자 1자 = 문자 2자 출력 문자 1자 = 문자 8자 이미지 1개 = 문자 2,134자 초당 동영상 1개 = 문자 2,134자 초당 오디오 1개 = 문자 214자 |
Gemini 1.5 Pro | 800 | 1 | 컨텍스트 윈도우 128,000개 이하: 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 3자 이미지 1개 = 문자 1,052자 초당 동영상 1개 = 문자 1,052자 초당 오디오 1개 = 문자 100자 |
컨텍스트 윈도우 128,000개 초과: 입력 문자 1자 = 문자 2자 출력 문자 1자 = 문자 6자 이미지 1개 = 문자 2,104자 초당 동영상 1개 = 문자 2,104자 초당 오디오 1개 = 문자 200자 |
Gemini 1.0 Pro | 8,000 | 1 | 입력 문자 1개 = 문자 1개 출력 문자 1개 = 문자 3개 이미지 1개 = 문자 20,000개 초당 동영상 1개 = 문자 16,000개 |
|
Imagen 3 | 0.025 처리량은 chars/sec 대신 images/sec로 측정됩니다. |
1 | 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다. | |
Imagen 3 빠름 | 0.05 처리량은 문자/초 대신 이미지/초 단위로 측정됩니다. |
1 | 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다. | |
Imagen 2 | 0.05 처리량은 문자/초 대신 이미지/초 단위로 측정됩니다. |
1 | 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다. | |
Imagen 2 수정 | 0.05 처리량은 문자/초 대신 이미지/초 단위로 측정됩니다. |
1 | 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다. | |
MedLM medium | 2,000 | 1 | 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 2자 |
|
MedLM 대형 | 200 | 1 | 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 3자 |
|
MedLM large 1.5 | 200 | 1 | 입력 문자 1자 = 문자 1자 출력 문자 1자 = 문자 3자 |
지원되는 위치에 대한 자세한 내용은 사용 가능한 위치를 참고하세요.
새 모델이 출시되면 업그레이드할 수 있습니다. 모델 사용 가능 여부 및 지원 중단 날짜에 관한 자세한 내용은 Google 모델을 참고하세요.
미리보기 기능
프로비저닝된 처리량의 미리보기 기능을 사용하려면 액세스 승인이 필요합니다. 액세스를 요청하려면 프로비저닝된 처리량 액세스 제어 양식을 작성하여 제출하세요.
미리보기 버전은 Google 모델에 다음을 제공합니다.
프로비저닝된 처리량은 기본 모델과 이러한 기본 모델의 감독 미세 조정 버전 모두에 적용할 수 있습니다.
감독 기반 미세 조정된 모델 엔드포인트와 이에 상응하는 기본 모델은 동일한 프로비저닝된 처리량 할당량에 대해 계산됩니다.
예를 들어 특정 프로젝트의
gemini-1.5-pro-002
에 대해 구매한 프로비저닝된 처리량은 해당 프로젝트 내에서 생성된 감독 대상 미세 조정 버전의gemini-1.5-pro-002
에서 이루어진 요청에 우선순위를 둡니다. 적절한 헤더를 사용하여 트래픽 동작을 제어합니다.프로비저닝된 처리량은 월간 정기 결제 대신 1주일 기간으로 구매할 수 있으며, 주문 후 2주 이내에 시작일을 지정할 수 있습니다.
Google 기존 모델
프로비저닝된 처리량을 지원하는 기존 모델을 참고하세요.
파트너 모델
다음 표에는 프로비저닝된 처리량을 지원하는 파트너 모델의 처리량, 구매 증분, 소진율이 나와 있습니다. Claude 모델은 초당 토큰으로 측정되며, 이는 초당 모든 요청의 입력 및 출력 토큰의 총합으로 정의됩니다.
모델 | GSU당 처리량 (토큰/초) | 최소 GSU 구매 | GSU 구매 증분 | 소진율 |
---|---|---|---|---|
Anthropic의 Claude 3.5 Sonnet v2 | 350 | 25 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 |
Anthropic의 Claude 3.5 Haiku | 2,000 | 10 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 |
Anthropic의 Claude 3 Opus | 70 | 35 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 |
Anthropic의 Claude 3 Haiku | 4,200 | 5 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 |
Anthropic의 Claude 3.5 Sonnet | 350 | 25 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 |
Anthropic의 Claude 3 Sonnet | 350 | 25 | 1 | 입력 토큰 1개 = 토큰 1개 출력 토큰 1개 = 토큰 5개 |
지원되는 위치에 대한 자세한 내용은 사용 가능한 위치를 참고하세요.
프로비저닝된 처리량을 사용하는 경우
다음 고려사항 중 하나라도 사용 사례에 적용되는 경우 프로비저닝된 처리량을 사용하는 것이 좋습니다.
- 중요한 워크로드에 지속적으로 높은 처리량이 필요합니다. 처리량 측정은 모델에 따라 다릅니다.
- 챗봇 및 에이전트와 같은 실시간 생성형 AI 프로덕션 애플리케이션을 빌드하고 있습니다.
- 처리량 요구사항이 초당 20,000자(영문 기준)를 초과합니다.
- 애플리케이션 사용자에게 일관되고 예측 가능한 환경을 제공하려고 합니다.
- 초과 요금을 관리하면서 고정된 월별 요금을 지불하여 확정적인 생성형 AI 비용을 지출하려고 합니다.
- 초과 요금을 관리하면서 고정된 월별 또는 주별 요금을 지불하여 확정적인 생성형 AI 비용을 지출하고 싶습니다.
프로비저닝된 처리량은 생성형 AI 모델을 사용하는 두 가지 방법 중 하나입니다. 두 번째 방법은 주문형이라고도 하는 사용한 만큼만 지불입니다.
프로비저닝된 처리량 측정 방법
이 섹션에서는 생성형 AI 확장 단위(GSU) 및 소진율의 개념을 설명합니다. 프로비저닝된 처리량은 GSU 및 소진율을 사용하여 계산되고 가격이 책정됩니다.
생성형 AI 확장 단위(GSU)는 프롬프트 및 응답에 대한 처리량의 측정 단위입니다. 이 양은 모델을 프로비저닝할 처리량을 지정합니다.
모델 간에 표준 단위를 생성하기 위해 모든 입력과 출력은 소진율이라는 모델별 비율을 사용하여 초당 입력 문자(처리량)로 변환됩니다.
모델마다 처리량이 다릅니다. 각 모델의 최소 GSU 구매 금액 및 증분에 대한 자세한 내용은 이 문서의 지원되는 모델 및 소진율을 참고하세요.
다음 식은 처리량이 계산되는 방식을 보여줍니다.
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
계산된 초당 처리량에 따라 사용 사례에 필요한 GSU 수가 결정됩니다.
프로비저닝된 처리량 요구사항 예측 예시
프로비저닝된 처리량 요구사항을 추정하려면 Google Cloud 콘솔의 추정 도구를 사용하세요. 다음 예는 모델의 프로비저닝된 처리량을 추정하는 프로세스를 보여줍니다. 이 지역은 추정 계산에 고려되지 않습니다.
요구사항을 수집합니다.
이 예시에서 요구사항은
gemini-1.5-flash
를 사용하여 2개의 이미지로 2,000자를 전송하고 초당 10개의 쿼리에 대해 300자의 출력을 수신할 수 있도록 하는 것입니다.이 단계에서는 입력 및 출력 크기, 초당 쿼리 수 (QPS), 모델을 파악했으므로 사용 사례를 이해했다는 의미입니다.
처리량을 추정하려면 모델을 지정하세요. 이 예시에서 모델은
gemini-1.5-flash
입니다.입력 유형을 지정하고 소진율을 식별합니다. 소진율 표를 사용하여 입력 유형에 따라 소진율을 식별합니다.
gemini-1.5-flash
모델의 이미지 소진율은 1,067자입니다.
처리량을 계산합니다.
이미지 수를 특정 모델의 입력 유형에 대한 소진율로 곱합니다.
이미지 2개 * 이미지당 입력 문자 1,067자 = 입력 문자 2,134자
총 출력 문자는 300자입니다. 소진율 표로 돌아가서 특정 모델(
gemini-1.5-flash
)의 출력 문자 소진율(출력 문자당 4자)을 찾습니다.출력 문자 300자 * 출력 문자당 4자 = 변환된 입력 문자 1,200자
합계를 모두 더합니다.
입력 문자 2,000자 + 이미지의 변환된 입력 문자 2,134자 + 출력의 변환된 입력 문자 1,200자 = 쿼리당 변환된 입력 문자 5,334자
쿼리당 문자 수를 예상 초당 쿼리 수로 곱하여 초당 총 처리량을 구합니다.
쿼리당 변환된 입력 문자 5,334자 * 10 QPS = 초당 변환된 총 입력 문자 53,340자
GSU를 계산합니다.
GSU는 초당 총 처리량을 소진율 표의 GSU당 처리량으로 나눈 값입니다.
초당 총 변환된 입력 문자 53,340자 ÷ GSU당 처리량 54,000개 = GSU 0.988개
gemini-1.5-flash
의 최소 GSU 구매 증분은 1이며, 이는 요구사항을 충족합니다.
구독 전에 고려해야 할 사항
프로비저닝된 처리량을 구독할지 결정하는 데 도움이 되도록 구독에 관한 세부정보 목록을 검토하세요.
주문을 취소할 수 없습니다.
프로비저닝된 처리량 구매는 약정이므로 주문을 취소할 수 없습니다. 하지만 구매한 GSU 수는 늘릴 수 있습니다. 약정을 실수로 구매했거나 구성에 문제가 있는 경우 Google Cloud 계정 담당자에게 문의하여 도움을 받으세요.
구독을 자동 갱신할 수 있습니다.
주문을 제출할 때 기간 종료 시 구독을 자동 갱신하거나 구독을 만료시킬 수 있습니다. 자동 갱신 프로세스를 취소할 수 있습니다. 자동 갱신 전에 구독을 취소하려면 다음 기간이 시작되기 30일 전에 자동 갱신을 취소합니다.
매월 자동으로 갱신되도록 월간 구독을 구성할 수 있습니다. 주간 약관은 자동 갱신을 지원하지 않습니다.
이 프로세스에서 도움이 필요하면 Google Cloud 계정 담당자에게 문의하세요.
알림을 통해 모델 버전 또는 리전을 변경할 수 있습니다.
프로비저닝된 처리량은 프로젝트, 리전, 모델, 버전을 선택한 후에 사용 설정됩니다. Google Cloud 계정 담당자에게 문의하여 동일한 모델 게시자 또는 리전 내에서 영업일 기준 10일 전에 모델 버전을 변경할 수 있습니다. 예를 들어 Google의 모델 간에 전환할 수 있습니다. 파트너 A의 모델 간에 전환할 수 있습니다. 파트너 B의 모델 간에 전환할 수 있습니다. Google, 파트너 A, 파트너 B의 모델 간에 전환할 수 없습니다.
사용한 만큼만 지불에서 프로비저닝된 처리량으로 전환할 때는 다운타임이 발생하지 않습니다.
프로비저닝된 처리량 주문의 모델 간에 전환할 때는 다운타임이 발생하지 않습니다. 하지만 처리량을 획득하는 데 걸리는 리드 타임은 필요합니다.
기본적으로 초과분은 사용한 만큼만 지불(paygo)로 청구됩니다.
처리량이 프로비저닝된 처리량 주문 금액을 초과하면 초과분은 사용한 만큼만 지불로 처리되고 청구됩니다. 요청별로 초과분을 제어할 수 있습니다. 자세한 내용은 REST API 사용을 참고하세요.
요청은 우선순위에 따라 처리됩니다.
프로비저닝된 처리량 고객의 요청은 주문형 요청보다 우선순위가 높으며 먼저 처리됩니다.
최소 사용량 및 지급액을 약정해야 합니다.
최소 사용량은 선택한 생성형 AI 모델에 따라 달라집니다. 구매한 처리량 비율을 넘는 사용량은 보장되지 않으며 합리적인 기준에 따라 서비스됩니다.
처리량이 누적되지 않습니다.
사용하지 않은 처리량은 누적되지 않으며 다음 달로 이월되지 않습니다.
프로비저닝된 처리량은 초당 문자 또는 토큰으로 측정됩니다.
프로비저닝된 처리량은 분당 쿼리 수 (QPM)가 아닌 초당 문자 수 또는 토큰 수를 기준으로 측정됩니다. 따라서 프로비저닝된 처리량을 측정하는 방법은 사용 사례의 쿼리 크기와 QPM에 따라 다릅니다.
프로비저닝된 처리량은 할당량을 확인합니다.
할당량 기간 내에 요청할 때마다 프로비저닝된 처리량 할당량이 확인됩니다.
gemini-1.5-flash-002
및gemini-1.5-pro-002
모델의 경우 할당량 기간은 30초입니다. 즉, 경우에 따라 초 단위로 할당량을 초과하는 우선순위 트래픽이 일시적으로 발생할 수 있지만 30초 단위로 할당량을 초과해서는 안 됩니다. 다른 모델의 할당량 기간은 1분입니다.지도 미세 조정 모델 엔드포인트와 해당 기본 모델은 동일한 프로비저닝된 처리량 할당량에 반영됩니다. 이 기능은 미리보기 기능입니다. 프로비저닝된 처리량 액세스 제어 양식을 작성하여 제출합니다.
예를 들어 특정 프로젝트의
gemini-1.5-pro-002
에 대해 구매한 프로비저닝된 처리량은 해당 프로젝트 내에서 생성된 감독 대상 미세 조정 버전의gemini-1.5-pro-002
에서 이루어진 요청에 우선순위를 둡니다. 적절한 헤더를 사용하여 트래픽 동작을 제어합니다.
프로비저닝된 처리량 구매
이 섹션에서는 프로비저닝된 처리량 주문을 하거나 확인하는 데 필요한 권한과 주문을 하고 확인하는 방법에 대한 안내를 제공합니다.
권한
프로비저닝된 처리량을 구독하려면 프로젝트에 새 주문을 나열하고 배치할 수 있는 다음 권한 중 하나가 할당되어 있어야 합니다.
aiplatform.googleapis.com/provisionedThroughputAdmin
: 프로비저닝된 처리량에만 해당합니다.aiplatform.googleapis.com/admin
: Vertex AI의 모든 리소스에 대한 관리 권한을 부여합니다.
이 역할을 사용하면 주문을 나열할 수만 있습니다.
aiplatform.googleapis.com/viewer
프로비저닝된 처리량 주문
Imagen 모델을 사용하기 위해 주문하기 전에 권한 부여 요청 양식을 제출하여 권한을 부여받으세요.
MedLM-large-1.5를 사용하기 위해 주문하기 전에 Google Cloud 계정 담당자에게 문의하여 액세스 권한을 요청하세요. QPM이 30,000을 초과할 것으로 예상되는 경우 프로비저닝된 처리량 주문을 최대화하려면 다음 정보를 사용하여 기본 Vertex AI 시스템 할당량을 증가하도록 요청하세요.
- 서비스: Vertex AI API입니다.
- 이름:
Online prediction requests per minute per region
- 서비스 유형: 할당량입니다.
- 측정기준: 프로비저닝된 처리량을 주문한 리전입니다.
- 값: 선택한 온라인 예측 트래픽 한도입니다.
프로비저닝된 처리량을 구매하려면 다음 단계를 따르세요.
콘솔
- Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.
- 새 주문을 시작하려면 만들기를 클릭합니다.
- 주문 이름을 입력합니다.
- 모델을 선택합니다.
- 리전 선택
- 구매해야 하는 생성형 AI 확장 단위 (GSU) 수를 입력합니다. GSU 수를 추정해야 하는 경우 예측 도구를 클릭합니다.
- 모델을 선택합니다.
- 초당 쿼리 수를 입력합니다.
- 쿼리당 입력 문자 수를 입력합니다.
- 쿼리당 입력 이미지 수를 입력합니다.
- 쿼리당 동영상 시간(초)을 입력합니다.
- 쿼리당 오디오 시간(초)을 입력합니다.
- 쿼리당 출력 문자 수를 입력합니다.
- 추정 도구에 입력한 값을 사용하려면 계산된 값 사용을 클릭합니다.
- 기간을 선택합니다.
1주일을 선택하면 주문 후 2주 이내에 시작 날짜와 시간을 입력할 수 있습니다. 시작 날짜와 시간을 제공하지 않으면 Google에서 이용 가능한 수용 인원을 확인하는 대로 주문을 처리합니다. 요청된 시작일 및 시간은 최선의 방식으로 처리되며 주문 상태가 승인됨으로 설정될 때까지 주문 제품이 해당 날짜에 발송되지 않을 수 있습니다.
요청한 시작일이 현재 날짜와 너무 가까우면 주문이 요청한 시작일 이후에 승인되고 활성화될 수 있습니다. 즉, 종료일은 활성화일로부터 7일 남게 됩니다.
- 갱신 옵션을 선택합니다.
- 계속을 클릭합니다.
- 요약 섹션에서 주문의 가격 및 처리량 추정치를 검토합니다. 양식에 나열되고 링크된 약관을 읽습니다.
- 주문을 완료하려면 확인을 클릭합니다.
주문 상태 확인
프로비저닝된 처리량 주문을 제출하면 주문 상태가 다음 중 하나로 표시될 수 있습니다.
- 검토 대기 중: 주문이 완료되었습니다. 주문 프로비저닝에 사용할 수 있는 용량에 따라 승인이 달라지므로 주문이 검토 및 승인을 기다리는 중입니다. 대기 중인 주문의 상태에 관한 자세한 내용은 Google Cloud 계정 담당자에게 문의하세요.
- 승인됨: Google에서 주문을 승인했습니다.
- 활성: Google에서 주문을 활성화하면 결제가 시작됩니다.
- 만료됨: 주문이 만료되었습니다.
프로비저닝된 처리량 주문 보기
프로비저닝된 처리량 주문을 보려면 다음 단계를 따르세요.
콘솔
- Google Cloud 콘솔에서 프로비저닝된 처리량 페이지로 이동합니다.
- 리전 선택 주문 목록이 표시됩니다.
프로비저닝된 처리량 사용
이 섹션에서는 초과 사용량을 제어하거나 프로비저닝된 처리량을 우회하는 방법과 프로비저닝된 처리량의 사용량을 모니터링하는 방법을 설명합니다.
초과 사용량 제어 또는 프로비저닝된 처리량 우회
REST API를 사용하여 구매한 처리량을 초과할 때 초과분을 제어하거나 요청별로 프로비저닝된 처리량을 우회할 수 있습니다.
각 옵션을 검토하여 사용 사례에 맞게 해야 할 일을 결정합니다.
기본 동작
구매한 처리량을 초과하면 초과분은 주문형으로 전환되고 사용한 만큼만 지불하는 요율에 따라 청구됩니다. 프로비저닝된 처리량 주문이 활성화되면 기본 동작이 자동으로 실행됩니다. 주문을 소비하기 위해 코드를 변경할 필요는 없습니다.
이 curl 예시에서는 기본 동작을 보여줍니다.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
프로비저닝된 처리량만 사용
주문형 요금을 피하여 비용을 관리하는 경우 프로비저닝된 처리량만 사용하세요. 프로비저닝된 처리량 주문 금액을 초과하는 요청은 429 오류를 반환합니다.
이 curl 예시에서는 REST API를 사용하여 프로비저닝된 처리량 구독만 사용하는 방법을 보여줍니다. 초과 사용량이 발생하면 오류 429가 반환됩니다.
X-Vertex-AI-LLM-Request-Type
헤더를 dedicated
로 설정합니다.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
사용한 만큼만 지불 사용
이를 주문형 사용이라고도 합니다. 요청이 프로비저닝된 처리량 주문을 우회하고 사용한 만큼만 지불로 직접 전송됩니다. 이는 개발 중인 실험이나 애플리케이션에 유용할 수 있습니다.
이 curl 예시에서는 REST API를 사용하여 프로비저닝된 처리량을 우회하고 일할양식 요금제만 사용하는 방법을 보여줍니다.
X-Vertex-AI-LLM-Request-Type
헤더를 shared
로 설정합니다.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
프로비저닝된 처리량 모니터링
모니터링 측정항목을 통해 요청별로 프로비저닝된 처리량 사용량을 모니터링할 수 있습니다.
응답 헤더
프로비저닝된 처리량을 사용하여 요청이 처리된 경우 응답에 다음 HTTP 헤더가 포함됩니다. 이 코드 줄은 generateContent
API 호출에만 적용됩니다.
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
측정항목
프로비저닝된 처리량은 aiplatform.googleapis.com/PublisherModel
리소스 유형에서 측정되는 일련의 측정항목을 사용하여 모니터링할 수 있습니다. 각 측정항목은 다음 측정기준을 기준으로 필터링할 수 있습니다.
type
:input
,output
request_type
:dedicated
,shared
프로비저닝된 처리량 사용량을 보려면 측정항목을 필터링하여 dedicated
요청 유형을 사용하세요. 측정항목의 경로 접두사는 aiplatform.googleapis.com/publisher/online_serving
입니다.
예를 들어 /consumed_throughput
측정항목의 전체 경로는 aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
입니다.
aiplatform.googleapis.com/PublisherModel
리소스에서 사용할 수 있는 Cloud Monitoring 측정항목은 다음과 같습니다.
측정항목 | 표시 이름 | 설명 | 프로비저닝된 처리량 사용량 필터링 |
---|---|---|---|
/characters |
문자 | 입력 및 출력 문자 수 분포 | |
/character_count |
글자 수 | 누적된 입력 및 출력 문자 수입니다. | |
/consumed_throughput |
문자 처리량 | 사용된 처리량 (소진율 고려) - 문자 수 | |
/model_invocation_count |
모델 호출 수 | 모델 호출 수 (예측 요청)입니다. | |
/model_invocation_latencies |
모델 호출 지연 시간 | 모델 호출 지연 시간 (예측 지연 시간) | |
/first_token_latencies |
첫 번째 토큰 지연 시간 | 요청이 수신된 시점부터 첫 번째 토큰이 반환될 때까지의 기간입니다. | |
/tokens |
토큰 | 입력 및 출력 토큰 수 분포 | |
/token_count |
토큰 수 | 누적된 입력 및 출력 토큰 수입니다. |
프로비저닝된 처리량 문제 해결
프로비저닝된 처리량으로 생성된 429 오류를 수정하려면 다음 단계를 따르세요.
- 예측 요청에 헤더를 설정하지 않는 기본 예시를 사용합니다. 초과분은 주문형으로 처리되고 사용한 만큼만 지불로 청구됩니다.
- 프로비저닝된 처리량 구독에서 GSU 수를 늘립니다.
다음 단계
- 프로비저닝된 처리량 주문을 하거나 기존 주문의 GSU 수를 늘리려면 Google Cloud 계정 담당자에게 문의하세요.
- 동적 공유 할당량 또는 프로비저닝된 처리량을 사용할 때 발생하는 429 오류 문제 해결에 대한 자세한 내용은 오류 코드
429
를 참조하세요. - 동적 공유 할당량 (DSQ)에 대한 자세한 내용은 동적 공유 할당량을 참고하세요.