Halaman ini diterjemahkan oleh Cloud Translation API.

Kuota Vertex AI RAG Engine

Pada halaman ini
Langkah selanjutnya

Untuk setiap layanan yang melakukan retrieval-augmented generation (RAG) menggunakan RAG Engine, kuota berikut berlaku, dengan kuota diukur sebagai permintaan per menit (RPM).

Layanan	Kuota	Metrik
API pengelolaan data RAG Engine	60 RPM	`VertexRagDataService requests per minute per region`
`RetrievalContexts` API	1.500 RPM	`VertexRagService retrieve requests per minute per region`
`base_model: textembedding-gecko`	1.500 RPM	`Online prediction requests per base model per minute per region per base_model` Filter tambahan yang dapat Anda tentukan adalah `base_model: textembedding-gecko`

Batasan berikut berlaku:

Layanan	Batas	Metrik
Permintaan `ImportRagFiles` serentak	3 RPM	`VertexRagService concurrent import requests per region`
Jumlah file maksimum per permintaan `ImportRagFiles`	10.000	`VertexRagService import rag files requests per region`

Untuk mengetahui batas kapasitas dan kuota selengkapnya, lihat Batas kapasitas AI Generatif di Vertex AI.

Langkah selanjutnya

Untuk mempelajari cara menggunakan Vertex AI SDK guna menjalankan tugas Vertex AI RAG Engine, lihat Panduan memulai RAG untuk Python.
Untuk mempelajari pentanahan, lihat Ringkasan pentanahan.
Untuk mempelajari perbedaan antara RAG dan grounding, lihat Melakukan grounding respons menggunakan RAG.
Untuk mempelajari arsitektur RAG:
- Infrastruktur untuk aplikasi AI generatif berkemampuan RAG menggunakan Vertex AI dan Vector Search
- Infrastruktur untuk aplikasi AI generatif berkemampuan RAG menggunakan Vertex AI dan AlloyDB untuk PostgreSQL.