지원되는 모델

다음 표에는 프로비저닝된 처리량을 지원하는 모델, 각 생성형 AI 확장 단위 (GSU)의 처리량, 각 모델의 소진율이 나와 있습니다.

Google 모델

다음 표에서는 프로비저닝된 처리량을 지원하는 Google 모델의 처리량, 구매 증분, 소진율을 보여줍니다. 초당 처리량은 초당 모든 요청의 프롬프트 입력과 생성된 출력으로 정의됩니다.

프로비저닝된 처리량은 모델의 API를 사용하여 프로젝트에서 직접 호출하는 모델만 지원하며 Vertex AI 에이전트 및 Vertex AI Search를 비롯한 다른 Vertex AI 제품에서 호출하는 모델은 지원하지 않습니다.

워크로드에 필요한 토큰 수를 확인하려면 SDK 토큰 생성기 또는 countTokens API를 참고하세요.

모델 GSU당 초당 처리량 단위 최소 GSU 구매 증분 소진율
Gemini 2.0 Flash 3,360 토큰 1 입력 텍스트 토큰 1개 = 토큰 1개
입력 이미지 토큰 1개 = 토큰 1개
입력 동영상 토큰 1개 = 토큰 1개
출력 텍스트 토큰 1개 = 토큰 4개
Gemini 1.5 Flash 토큰 컨텍스트 윈도우 128,000개 이하:
54,000

토큰 컨텍스트 윈도우 128,000개 초과:
27,000
문자 1 토큰 컨텍스트 윈도우 128,000개 이하:
입력 문자 1자 = 문자 1자
출력 문자 1자 = 문자 4자
이미지 1개 = 문자 1,067자
초당 동영상 1개 = 문자 1,067자
초당 오디오 1개 = 문자 107자

토큰 컨텍스트 윈도우 128,000개 초과:
입력 문자 1자 = 문자 2자
출력 문자 1자 = 문자 8자
이미지 1개 = 문자 2,134자
초당 동영상 1개 = 문자 2,134자
초당 오디오 1개 = 문자 214자
Gemini 1.5 Pro 800 문자 1 토큰 컨텍스트 윈도우 128,000개 이하:
입력 문자 1자 = 문자 1자
출력 문자 1자 = 문자 3자
이미지 1개 = 문자 1,052개
초당 동영상 1개 = 문자 1,052개
초당 오디오 1개 = 문자 100개

토큰 컨텍스트 윈도우 128,000개 초과:
입력 문자 1자 = 문자 2자
출력 문자 1자 = 문자 6자
이미지 1개 = 문자 2,104개
초당 동영상 1개 = 문자 2,104개
초당 오디오 1개 = 문자 200개
Gemini 1.0 Pro 8,000 문자 1 입력 문자 1자 = 문자 1자
출력 문자 1자 = 문자 3자
이미지 1개 = 문자 20,000자
초당 동영상 1개 = 문자 16,000자
Imagen 3 0.025 이미지 1 출력 이미지만 프로비저닝된 처리량 할당량에 반영됩니다.
Imagen 3 빠름 0.05 이미지 1 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.
Imagen 2 0.05 이미지 1 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.
Imagen 2 수정 0.05 이미지 1 프로비저닝된 처리량 할당량에는 출력 이미지만 반영됩니다.
MedLM medium 2,000 문자 1 입력 문자 1자 = 문자 1자
출력 문자 1자 = 문자 2자
MedLM 대형 200 문자 1 입력 문자 1자 = 문자 1자
출력 문자 1자 = 문자 3자
MedLM large 1.5 200 문자 1 입력 문자 1자 = 문자 1자
출력 문자 1자 = 문자 3자

지원되는 위치에 대한 자세한 내용은 사용 가능한 위치를 참고하세요.

새 모델이 출시되면 업그레이드할 수 있습니다. 모델 사용 가능 여부 및 지원 중단 날짜에 관한 자세한 내용은 Google 모델을 참고하세요.

미리보기 기능

프로비저닝된 처리량의 미리보기 기능을 사용하려면 액세스 승인이 필요합니다. 액세스를 요청하려면 프로비저닝된 처리량 액세스 제어 양식을 작성하여 제출하세요.

미리보기 버전은 Google 모델에 다음을 제공합니다.

  • 프로비저닝된 처리량은 기본 모델과 이러한 기본 모델의 감독 미세 조정 버전 모두에 적용할 수 있습니다.

  • 감독 기반 미세 조정된 모델 엔드포인트와 이에 상응하는 기본 모델 수가 동일한 프로비저닝된 처리량 할당량에 반영됩니다.

    예를 들어 특정 프로젝트의 gemini-1.5-pro-002에 대해 구매한 프로비저닝된 처리량은 해당 프로젝트 내에서 생성된 감독 대상 미세 조정 버전의 gemini-1.5-pro-002에서 이루어진 요청에 우선순위를 둡니다. 적절한 헤더를 사용하여 트래픽 동작을 제어합니다.

  • 프로비저닝된 처리량은 월간 정기 결제 대신 1주일 기간으로 구매할 수 있으며, 주문 후 2주 이내에 시작일을 지정할 수 있습니다.

Google 기존 모델

프로비저닝된 처리량을 지원하는 기존 모델을 참고하세요.

파트너 모델

다음 표에는 프로비저닝된 처리량을 지원하는 파트너 모델의 처리량, 구매 증분, 소진율이 나와 있습니다. Claude 모델은 초당 토큰으로 측정되며, 이는 초당 모든 요청의 입력 및 출력 토큰의 총합으로 정의됩니다.

모델 GSU당 처리량 (토큰/초) 최소 GSU 구매 GSU 구매 증분 소진율
Anthropic의 Claude 3.5 Sonnet v2 350 25 1 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개
Anthropic의 Claude 3.5 Haiku 2,000 10 1 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개
Anthropic의 Claude 3 Opus 70 35 1 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개
Anthropic의 Claude 3 Haiku 4,200 5 1 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개
Anthropic의 Claude 3.5 Sonnet 350 25 1 입력 토큰 1개 = 토큰 1개
출력 토큰 1개 = 토큰 5개

지원되는 위치에 대한 자세한 내용은 Anthropic Claude 사용 가능한 리전을 참고하세요. Anthropic 모델에 대해 프로비저닝된 처리량을 주문하려면 Google Cloud 계정 담당자에게 문의하세요.

다음 단계