단일 영역 프로비저닝된 처리량을 사용하면 하나의 영역만 사용할 수 있는 특정 리전에서 처리량을 예약할 수 있습니다. 이 옵션은 ML 처리가 필요한 사용 사례에서 Gemini 모델의 예측 가능한 성능을 제공합니다.
지원되는 모델 및 리전 목록을 보려면 배포 및 엔드포인트를 참고하세요. ML 처리를 지원하는 리전 및 모델 목록은 ML 처리를 참고하세요.
단일 영역 프로비저닝된 처리량의 기능
이 섹션에서는 단일 영역 프로비저닝된 처리량의 주요 기능을 간략하게 설명합니다.
가격 및 단위는 표준 프로비저닝된 처리량과 일치: 단일 영역 프로비저닝된 처리량은 표준 프로비저닝된 처리량과 동일한 처리량 (GSU), 가격, 약관을 사용합니다.
단일 영역 프로비저닝된 처리량은 리전 내 ML 처리를 지원합니다: 구매한 처리량을 초과하는 트래픽을 포함한 모든 요청이 구매한 리전에서 처리됩니다. 이 트래픽은 리전의 버퍼 용량을 사용하여 종량제 요금으로 청구됩니다.
초과 사용량 제어: 표준 프로비저닝된 처리량과 동일한 헤더를 사용하여 오버플로 트래픽을 제어할 수 있습니다.
주문 모니터링: 기존 프로비저닝된 처리량 모니터링 기능을 사용하여 단일 영역 프로비저닝된 처리량 주문을 모니터링할 수 있습니다.
제한사항
단일 영역 프로비저닝된 처리량에는 다음과 같은 제한사항이 있습니다.
단일 영역 프로비저닝된 처리량은 '대상 서비스'가 아니며 Vertex AI의 Gemini 온라인 추론 서비스수준계약에서 제외됩니다.
ML 처리가 없는 리전에서는 단일 영역 프로비저닝된 처리량의 지연 시간이 표준 프로비저닝된 처리량 또는 종량제보다 높을 수 있습니다.
단일 영역 프로비저닝된 처리량 구매
단일 영역 프로비저닝된 처리량 구매에 대한 지원이 필요하면 Google Cloud 계정 담당자에게 문의하세요.