Halaman ini menunjukkan cara menggunakan parser PDF lanjutan dengan LlamaIndex di Vertex AI untuk RAG.
LlamaIndex di Vertex AI untuk RAG mengimplementasikan retrieval-augmented generation (RAG) untuk berbagai jenis file termasuk PDF. Parser mengekstrak informasi dari file Anda sehingga LlamaIndex di Vertex AI untuk RAG dapat mendasarkan respons terhadap perintah Anda. Setiap format file yang didukung memiliki satu atau beberapa parser berbeda yang dapat membaca format tersebut. Untuk selengkapnya informasi tentang format file yang didukung, lihat Jenis dokumen yang didukung .
Tersedia dua jenis parser untuk PDF, yaitu parser PDF dasar, yang merupakan default untuk file PDF, dan parser PDF lanjutan. Parser PDF dasar mengekstrak informasi teks dari PDF native sesuai urutan presentasi teks dalam dokumen. PDF native dapat berisi elemen lain seperti gambar, yang diabaikan oleh parser PDF dasar. Dalam beberapa kasus, urutan presentasi mungkin berbeda dengan urutan visual dokumen tergantung pada bagaimana PDF dibuat. Parser PDF lanjutan mendukung PDF native dan hasil pindai dengan menganalisis tata letak dokumen dan mengekstraksi teks berdasarkan bagaimana dokumen mengalir. Selain itu, parser PDF lanjutan menghasilkan kualitas hasil yang lebih baik daripada parser PDF dasar, seperti parser peningkatan kualitas penguraian tabel.
Contoh cara mengaktifkan penguraian lanjutan
ImportRagFiles
API mendukung penguraian PDF lanjutan, yang mendukung native
dan PDF yang dipindai. Kode contoh berikut menunjukkan cara mengaktifkan kemampuan
penguraian menggunakan REST dalam perintah curl dan menggunakan Vertex AI SDK untuk Python.
Untuk mengaktifkan penguraian PDF dasar, jangan gunakan opsi use_advanced_pdf_parsing
.
REST
Untuk mengaktifkan penguraian PDF lanjutan menggunakan REST, tentukan atribut
Opsi use_advanced_pdf_parsing
di rag_file_parsing_config
Anda
konfigurasi Anda.
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://${ENDPOINT}/v1beta1/projects/${PROJECT_ID}/locations/${LOCATION}/ragCorpora/${RAG_CORPUS_ID}/ragFiles:import \
-d '{
"import_rag_files_config": {
// ... Existing options for import files here.
"rag_file_parsing_config": { // New configuration for advanced parsing.
use_advanced_pdf_parsing: true
}
}
}'
Python
Untuk mengaktifkan penguraian PDF lanjutan menggunakan SDK, setel atribut
Opsi use_advanced_pdf_parsing
ke True
.
response = rag.import_files(
# ... Existing options for import files here.
use_advanced_pdf_parsing=True, # New option for advanced parsing.
)
Langkah selanjutnya
- Untuk mempelajari lebih lanjut pentanahan, lihat Ringkasan pentanahan.
- Untuk mempelajari lebih lanjut LlamaIndex di Vertex AI untuk RAG, lihat Gunakan LlamaIndex di Vertex AI untuk RAG.
- Untuk mempelajari lebih lanjut grounding dan RAG, lihat Respons ground menggunakan RAG.