문의하기 무료로 시작하기

이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Vertex AI RAG Engine 할당량

이 페이지의 내용
다음 단계

RAG 엔진을 사용하여 검색 증강 생성 (RAG)을 실행하는 각 서비스에는 다음 할당량이 적용되며, 할당량은 분당 요청 수 (RPM)로 측정됩니다.

서비스	할당량	측정항목
RAG 엔진 데이터 관리 API	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	1,500 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1,500 RPM	`Online prediction requests per base model per minute per region per base_model` 지정할 수 있는 추가 필터는 `base_model: textembedding-gecko`입니다.

적용되는 요청 한도는 다음과 같습니다.

서비스	한도	측정항목
동시 `ImportRagFiles` 요청	3 RPM	`VertexRagService concurrent import requests per region`
`ImportRagFiles` 요청당 최대 파일 수	10,000	`VertexRagService import rag files requests per region`

비율 제한 및 할당량에 관한 자세한 내용은 Vertex AI의 생성형 AI 비율 제한을 참고하세요.

다음 단계

Vertex AI SDK를 사용하여 Vertex AI RAG Engine 작업을 실행하는 방법은 Python용 RAG 빠른 시작을 참고하세요.
그라운딩에 대한 자세한 내용은 그라운딩 개요를 참고하세요.
RAG와 그라운딩의 차이점에 대해 알아보려면 RAG를 사용하여 응답 그라운딩을 참고하세요.
RAG 아키텍처에 대해 알아보려면 다음 단계를 따르세요.
- Vertex AI 및 벡터 검색을 사용하는 RAG 지원 생성형 AI 애플리케이션을 위한 인프라
- Vertex AI 및 PostgreSQL용 AlloyDB를 사용하는 RAG 지원 생성형 AI 애플리케이션을 위한 인프라

달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.

최종 업데이트: 2025-02-26(UTC)