Menyesuaikan transformasi RAG

Setelah dokumen diserap, Vertex AI RAG Engine akan menjalankan serangkaian transformasi untuk menyiapkan data untuk pengindeksan. Anda dapat mengontrol kasus penggunaan menggunakan parameter berikut:

Parameter Deskripsi
chunk_size Saat dokumen diserap ke dalam indeks, dokumen tersebut akan dibagi menjadi beberapa bagian. Parameter chunk_size (dalam token) menentukan ukuran bagian. Ukuran potongan default adalah 1.024 token.
chunk_overlap Secara default, dokumen dibagi menjadi beberapa bagian dengan jumlah tumpang-tindih tertentu untuk meningkatkan relevansi dan kualitas pengambilan. Tumpang-tindih bagian default adalah 200 token.

Ukuran bagian yang lebih kecil berarti penyematan lebih akurat. Ukuran potongan yang lebih besar berarti penyematan mungkin lebih umum, tetapi mungkin melewatkan detail tertentu.

Misalnya, jika Anda mengonversi 1.000 kata menjadi array penyematan yang dimaksudkan untuk 200 kata, Anda mungkin kehilangan detail. Kapasitas penyematan ditetapkan untuk setiap potongan. Sebagian besar teks mungkin tidak sesuai dengan model jendela kecil.

Langkah selanjutnya