이 페이지에서는 동적 공유 할당량 (DSQ)과 DSQ가 프로비저닝된 처리량과 다른 점은 무엇인지 설명합니다.
동적 공유 할당량 소개
동적 공유 할당량 (DSQ)은 특정 모델의 Google Cloud 서비스에서 처리 중인 모든 쿼리 간에 사용 가능한 주문형 용량을 배포합니다. 이 기능을 사용하면 할당량 한도를 설정하고 할당량 상향 요청 (QIR)을 제출할 필요가 없습니다.
DSQ는 모든 고객의 동일한 지역 또는 다중 지역 엔드포인트 요청을 처리합니다. 할당량이 삭제되고 사용 가능한 용량이 각 프로젝트에 배포됩니다.
프로비저닝된 처리량은 애플리케이션의 고가용성을 보장하고 프로덕션 워크로드의 예측 가능한 서비스 수준을 얻는 유일한 방법입니다. 프로비저닝된 처리량에 대한 자세한 내용은 프로비저닝된 처리량을 참고하세요.
지원되는 모델
이 섹션에는 이러한 모델에서 기본적으로 사용 설정되는 동적 공유 할당량 (DSQ)을 지원하는 모델이 나와 있습니다.
Google 모델
다음 표에는 DSQ를 지원하는 Google 모델 (및 버전)이 나와 있습니다.
모델 | DSQ 출시일 | 상태 |
---|---|---|
Gemini 2.0 Flash (gemini-2.0-flash-001 ) |
2025년 2월 5일 | 실시간 |
Gemini 1.5 Flash(gemini-1.5-flash-002 ) |
2024년 9월 24일 | 실시간 |
Gemini 1.5 Pro(gemini-1.5-pro-002 ) |
2024년 9월 24일 | 실시간 |
DSQ 할당량은 Google Cloud 콘솔의 할당량 및 시스템 한도 페이지에 나열되지 않습니다.
DSQ 오류 문제 해결하기
쿼리를 처리할 수 있는 용량이 충분하지 않으면 429 오류가 발생할 수 있습니다. 발생할 수 있는 오류를 해결하려면 오류 코드 429를 참고하세요.
다음 단계
- DSQ를 지원하는 Gemini 모델에 관한 자세한 내용은 Gemini 모델을 참고하세요.
- 생성형 AI 할당량 및 한도에 대한 자세한 내용은 Vertex AI의 생성형 AI 비율 제한을 참고하세요.
- Vertex AI의 할당량 및 한도에 대한 자세한 내용은 Vertex AI 할당량 및 한도를 참고하세요.
- Google Cloud 할당량 및 한도에 대한 자세한 내용은 할당량 값 및 시스템 한도 이해를 참고하세요.