Penyimpanan data digunakan oleh agen penyimpanan data untuk menemukan jawaban atas pertanyaan pengguna akhir dari data Anda. Penyimpanan data adalah kumpulan situs dan dokumen, yang masing-masing mereferensikan data Anda.
Saat pengguna akhir mengajukan pertanyaan kepada agen, agen mencari jawaban dari konten sumber tertentu dan merangkum temuan tersebut menjadi respons agen yang koheren. Tautan ini juga menyediakan link pendukung ke sumber respons bagi pengguna akhir untuk mempelajari lebih lanjut. Agen dapat memberikan hingga lima cuplikan jawaban untuk pertanyaan tertentu.
Sumber penyimpanan data
Ada berbagai sumber yang dapat disediakan untuk data Anda:
- URL situs: Meng-crawl konten situs secara otomatis dari daftar domain atau halaman web.
- BigQuery: Mengimpor data dari tabel BigQuery.
- Cloud Storage: Mengimpor data dari bucket Cloud Storage.
Konten situs
Saat menambahkan konten situs sebagai sumber,
Anda dapat menambahkan dan mengecualikan beberapa situs.
Saat menentukan situs, Anda dapat menggunakan halaman individual atau *
sebagai karakter pengganti untuk pola.
Semua konten HTML dan PDF akan diproses.
Anda harus memverifikasi domain saat menggunakan konten situs sebagai sumber.
Batasan:
- File dari URL publik harus di-crawl oleh pengindeks Google Penelusuran, agar ada di indeks penelusuran. Anda dapat memeriksanya dengan Google Search Console.
- Maksimum 200.000 halaman diindeks. Jika penyimpanan data berisi lebih banyak halaman, pengindeksan akan gagal dan konten terakhir yang diindeks akan tetap ada.
Mengimpor data
Anda dapat mengimpor data dari BigQuery atau Cloud Storage. Data ini dapat bersifat terstruktur atau tidak terstruktur, dan dapat juga dengan metadata atau tanpa metadata.
Tersedia Opsi Impor Data berikut:
- Tambahkan/Perbarui Data: Dokumen yang disediakan akan ditambahkan ke penyimpanan data. Jika dokumen baru memiliki ID yang sama dengan dokumen lama, dokumen baru akan menggantikan dokumen lama.
- Ganti Data yang Ada: Semua data lama akan dihapus, lalu data baru akan diupload. Tindakan ini tidak dapat dibatalkan.
Penyimpanan data terstruktur
Penyimpanan data terstruktur dapat menyimpan jawaban atas pertanyaan umum (FAQ). Ketika pertanyaan pengguna dicocokkan dengan tingkat keyakinan tinggi dengan pertanyaan yang diupload, agen akan memberikan jawaban atas pertanyaan tersebut tanpa perubahan apa pun. Anda dapat memberikan judul dan URL untuk setiap pasangan pertanyaan dan jawaban yang ditampilkan oleh agen.
Saat mengunggah data ke penyimpanan data, format CSV harus digunakan. Setiap file harus memiliki baris header yang menjelaskan kolom.
Contoh:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
Kolom title
dan url
bersifat opsional dan dapat dihilangkan:
"answer","question"
"42","What is the meaning of life?"
Selama proses upload, folder dapat dipilih di mana setiap file diperlakukan sebagai file CSV, terlepas dari ekstensinya.
Batasan:
- Karakter spasi tambahan setelah
,
menyebabkan error. - Baris kosong (bahkan di akhir file) dapat menyebabkan error.
Penyimpanan data tidak terstruktur
Penyimpanan data yang tidak terstruktur dapat berisi konten dalam format berikut:
- HTML
- TXT
- CSV
Batasan:
- Ukuran file maksimum adalah 2,5 MB untuk format berbasis teks, 100 MB untuk format lainnya.
Penyimpanan data dengan metadata
Judul dan URL dapat diberikan sebagai metadata. Saat sedang bercakap-cakap dengan pengguna, agen dapat memberikan informasi ini kepada pengguna. Hal ini dapat membantu pengguna menautkan dengan cepat ke halaman web internal yang tidak dapat diakses oleh pengindeks Google Penelusuran.
Untuk mengimpor konten dengan metadata, Anda memberikan satu atau beberapa file Baris JSON. Setiap baris file ini menjelaskan satu dokumen. Anda tidak mengupload dokumen yang sebenarnya secara langsung; URI yang tertaut ke jalur Cloud Storage tersedia dalam file Baris JSON.
Saat memberikan file Baris JSON, Anda menyediakan folder Cloud Storage yang berisi file ini. Jangan masukkan file lain apa pun ke dalam folder ini.
Deskripsi kolom:
Kolom | Jenis | Deskripsi |
---|---|---|
id | string | ID unik untuk dokumen. |
content.mimeType | string | Jenis MIME dokumen. "application/pdf" dan "text/html" didukung. |
content.uri | string | URI untuk dokumen di Cloud Storage. |
content.structData | string | Objek JSON satu baris dengan kolom title dan url opsional. |
Contoh:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
Penyimpanan data tanpa metadata
Jenis konten ini tidak memiliki metadata. Cukup berikan dokumen yang akan diimpor. Jenis konten ditentukan oleh ekstensi file.
Konfigurasi penguraian dan potongan
Bergantung pada sumber datanya, Anda mungkin dapat mengonfigurasi setelan penguraian dan potongan seperti yang ditentukan oleh Vertex AI Search.
Membuat penyimpanan data
Untuk membuat penyimpanan data:
Buka konsol Vertex AI Conversation:
Pilih project Anda dari drop-down konsol.
Baca dan setujui Persyaratan Layanan, lalu klik Continue and enable the API.
Klik Data Store di navigasi sebelah kiri.
Klik New Data Store.
Pilih sumber data.
Aktifkan Pengindeksan situs lanjutan. Ini wajib untuk agen penyimpanan data.
Berikan data dan konfigurasi untuk sumber penyimpanan data yang Anda pilih. Lokasi penyimpanan data Anda harus sesuai dengan lokasi agen.
Klik Buat untuk membuat penyimpanan data.
Jika ingin, setel bahasa penyimpanan data:
- Dari daftar penyimpanan data, klik penyimpanan data yang baru saja Anda buat.
- Klik tombol edit untuk setelan bahasa.
- Pilih bahasa, lalu klik centang untuk menerapkan.
Menggunakan Cloud Storage untuk dokumen penyimpanan data
Jika konten Anda tidak bersifat publik, menyimpan konten di Cloud Storage adalah opsi yang direkomendasikan.
Saat membuat dokumen penyimpanan data, Anda memberikan URL untuk objek Cloud Storage dalam bentuk: gs://bucket-name/folder-name
.
Setiap dokumen di dalam folder ditambahkan ke penyimpanan data.
Saat membuat bucket Cloud Storage:
- Pastikan Anda telah memilih project yang digunakan untuk agen.
- Gunakan class Standard Storage.
- Tetapkan lokasi bucket ke lokasi yang sama dengan agen Anda.
Ikuti petunjuk panduan memulai Cloud Storage untuk membuat bucket dan mengupload file.
Languages
Untuk bahasa yang didukung, lihat kolom penyimpanan data di Referensi bahasa Dialogflow.
Untuk performa terbaik, sebaiknya penyimpanan data dibuat dalam satu bahasa.
Setelah membuat penyimpanan data, Anda dapat menentukan bahasa penyimpanan data (opsional). Jika Anda menyetel bahasa penyimpanan data, Anda dapat menghubungkan penyimpanan data ke agen penyimpanan data yang dikonfigurasi untuk bahasa lain. Misalnya, Anda dapat membuat penyimpanan data Prancis yang terhubung ke agen bahasa Inggris.
Region yang didukung
Untuk wilayah yang didukung, lihat Referensi region Dialogflow.