단일 영역 프로비저닝된 처리량

단일 영역 프로비저닝된 처리량을 사용하면 하나의 영역만 사용할 수 있는 특정 리전에서 처리량을 예약할 수 있습니다. 이 옵션은 ML 처리가 필요한 사용 사례에서 Gemini 모델의 예측 가능한 성능을 제공합니다.

지원되는 모델 및 리전 목록을 보려면 배포 및 엔드포인트를 참고하세요. ML 처리를 지원하는 리전 및 모델 목록은 ML 처리를 참고하세요.

단일 영역 프로비저닝된 처리량의 기능

이 섹션에서는 단일 영역 프로비저닝된 처리량의 주요 기능을 간략하게 설명합니다.

  • 가격 및 단위는 표준 프로비저닝된 처리량과 일치: 단일 영역 프로비저닝된 처리량은 표준 프로비저닝된 처리량과 동일한 처리량 (GSU), 가격, 약관을 사용합니다.

  • 단일 영역 프로비저닝된 처리량은 리전 내 ML 처리를 지원합니다: 구매한 처리량을 초과하는 트래픽을 포함한 모든 요청이 구매한 리전에서 처리됩니다. 이 트래픽은 리전의 버퍼 용량을 사용하여 종량제 요금으로 청구됩니다.

  • 초과 사용량 제어: 표준 프로비저닝된 처리량과 동일한 헤더를 사용하여 오버플로 트래픽을 제어할 수 있습니다.

  • 주문 모니터링: 기존 프로비저닝된 처리량 모니터링 기능을 사용하여 단일 영역 프로비저닝된 처리량 주문을 모니터링할 수 있습니다.

제한사항

단일 영역 프로비저닝된 처리량에는 다음과 같은 제한사항이 있습니다.

  • 단일 영역 프로비저닝된 처리량은 '대상 서비스'가 아니며 Vertex AI의 Gemini 온라인 추론 서비스수준계약에서 제외됩니다.

  • 단일 영역 프로비저닝된 처리량은 일괄 요청 또는 미세 조정과 통합되지 않으며 이를 지원하지도 않습니다.

  • ML 처리가 없는 리전에서는 단일 영역 프로비저닝된 처리량의 지연 시간이 표준 프로비저닝된 처리량 또는 종량제보다 높을 수 있습니다.

단일 영역 프로비저닝된 처리량 구매

단일 영역 프로비저닝된 처리량 구매에 대한 지원이 필요하면 Google Cloud 계정 담당자에게 문의하세요.

다음 단계