처리량 할당량

Vertex AI는 생성형 AI 모델의 처리량을 관리하는 두 가지 방법을 제공하여 비용, 유연성, 성능의 균형을 맞출 수 있습니다. 유연한 종량제 모델을 사용하거나 고정 가격으로 전용 처리량을 예약할 수 있습니다.

사용한 만큼만 지불

기본 사용한 만큼만 지불 모델의 경우 Vertex AI는 사전 정의된 사용량 한도가 없는 동적 공유 할당량을 사용합니다. 대신 실시간 가용성과 수요에 따라 동적으로 할당되는 대규모 공유 리소스 풀에 액세스할 수 있습니다.

이 모델을 사용하면 워크로드가 사용 가능한 경우 더 많은 리소스를 사용할 수 있습니다. resource exhausted (429) 오류가 표시되면 공유 풀에 많은 사용자의 수요가 일시적으로 높다는 의미입니다. 가용성이 빠르게 변경될 수 있으므로 애플리케이션에 재시도 메커니즘을 구현해야 합니다.

예약된 용량

일관된 성능과 예측 가능한 비용이 필요한 중요한 프로덕션 애플리케이션의 경우 프로비저닝된 처리량을 사용할 수 있습니다. 프로비저닝된 처리량은 선택한 위치에서 모델의 특정 처리량을 예약하는 고정 비용 구독입니다.

다음 단계