프로비저닝된 처리량 개요
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
이 페이지에서는 프로비저닝된 처리량의 정의와 프로비저닝된 처리량을 사용해야 하는 경우를 설명합니다.
프로비저닝된 처리량 소개
프로비저닝된 처리량은 Vertex AI에서 지원되는 생성형 AI 모델의 처리량을 예약하는 고정 요금 월간 구독 또는 주간 서비스입니다. 처리량을 예약하려면 모델과 모델이 실행되는 사용 가능한 위치를 지정해야 합니다.
프로비저닝된 처리량을 사용하는 경우
다음 고려사항 중 하나라도 사용 사례에 적용되는 경우 프로비저닝된 처리량을 사용하는 것이 좋습니다.
- 챗봇 및 에이전트와 같은 실시간 생성형 AI 프로덕션 애플리케이션을 빌드하고 있습니다.
- 중요한 워크로드에 지속적으로 높은 처리량이 필요합니다. 처리량 측정은 모델에 따라 다릅니다.
- 애플리케이션 사용자에게 일관되고 예측 가능한 환경을 제공하려고 합니다.
- 초과 요금을 관리하면서 고정된 월별 또는 주별 요금을 지불하여 확정적인 생성형 AI 비용을 지출하고 싶습니다.
프로비저닝된 처리량은 생성형 AI 모델을 사용하는 두 가지 방법 중 하나입니다. 두 번째 방법은 주문형이라고도 하는 사용한 만큼만 지불입니다.
다음 단계
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2025-02-21(UTC)
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-02-21(UTC)"],[],[]]