Penyimpanan data

Penyimpanan data digunakan oleh pengendali penyimpanan data dan alat penyimpanan data playbook untuk menemukan jawaban atas pertanyaan pengguna akhir dari data Anda. Repositori data adalah kumpulan situs dan dokumen, yang masing-masing mereferensikan data Anda.

Saat pengguna akhir mengajukan pertanyaan kepada agen, agen akan menelusuri jawaban dari konten sumber tertentu dan merangkum temuan tersebut menjadi respons agen yang koheren. Di sini juga tersedia link dukungan ke sumber respons bagi pengguna akhir untuk mempelajari lebih lanjut. Agen dapat memberikan hingga lima cuplikan jawaban untuk pertanyaan tertentu.

Sumber penyimpanan data

Ada berbagai sumber yang dapat Anda sediakan untuk data Anda:

  • URL situs: Meng-crawl konten situs secara otomatis dari daftar domain atau halaman web.
  • BigQuery: Impor data dari tabel BigQuery Anda.
  • Cloud Storage: Impor data dari bucket Cloud Storage Anda.

Konten situs

Saat menambahkan konten situs sebagai sumber, Anda dapat menambahkan dan mengecualikan beberapa situs. Saat menentukan situs, Anda dapat menggunakan setiap halaman atau * sebagai karakter pengganti untuk pola. Semua konten HTML dan PDF akan diproses.

Anda harus memverifikasi domain saat menggunakan konten situs sebagai sumber.

Batasan:

  • File dari URL publik harus telah di-crawl oleh pengindeksan Google Penelusuran, sehingga file tersebut ada di indeks penelusuran. Anda dapat memeriksanya dengan Google Search Console.
  • Maksimal 200.000 halaman diindeks. Jika penyimpanan data berisi lebih banyak halaman, pengindeksan akan gagal dan konten terakhir yang diindeks akan tetap ada.

Mengimpor data

Anda dapat mengimpor data dari BigQuery atau Cloud Storage. Data ini dapat terstruktur atau tidak terstruktur, dan dapat dengan metadata atau tanpa metadata.

Opsi Impor Data berikut tersedia:

  • Tambahkan/Perbarui Data: Dokumen yang diberikan akan ditambahkan ke penyimpanan data. Jika dokumen baru memiliki ID yang sama dengan dokumen lama, dokumen baru akan menggantikan dokumen lama.
  • Ganti Data yang Ada: Semua data lama akan dihapus, lalu data baru akan diupload. Tindakan ini tidak dapat dibatalkan.

Penyimpanan data terstruktur

Penyimpanan data terstruktur dapat menyimpan jawaban atas pertanyaan umum (FAQ). Jika pertanyaan pengguna cocok dengan tingkat keyakinan tinggi ke pertanyaan yang diupload, agen akan menampilkan jawaban untuk pertanyaan tersebut tanpa modifikasi apa pun. Anda dapat memberikan judul dan URL untuk setiap pasangan pertanyaan dan jawaban yang ditampilkan oleh agen.

Saat mengupload data ke penyimpanan data, format CSV harus digunakan. Setiap file harus memiliki baris header yang menjelaskan kolom.

Contoh:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

Kolom title dan url bersifat opsional dan dapat dihilangkan:

"answer","question"
"42","What is the meaning of life?"

Selama proses upload, folder dapat dipilih tempat setiap file diperlakukan sebagai file CSV, terlepas dari ekstensi.

Batasan:

  • Karakter spasi tambahan setelah , akan menyebabkan error.
  • Baris kosong (bahkan di akhir file) menyebabkan error.

Penyimpanan data tidak terstruktur

Penyimpanan data tidak terstruktur dapat berisi konten dalam format berikut:

  • HTML
  • PDF
  • TXT
  • CSV

Batasan:

  • Ukuran file maksimum adalah 2,5 MB untuk format berbasis teks, 100 MB untuk format lainnya.

Penyimpanan data dengan metadata

Judul dan URL dapat diberikan sebagai metadata. Saat agen sedang melakukan percakapan dengan pengguna, agen dapat memberikan informasi ini kepada pengguna. Hal ini dapat membantu pengguna untuk dengan cepat menautkan ke halaman web internal yang tidak dapat diakses oleh pengindeksan Google Penelusuran.

Untuk mengimpor konten dengan metadata, Anda harus menyediakan satu atau beberapa file JSON Lines. Setiap baris dalam file ini menjelaskan satu dokumen. Anda tidak langsung mengupload dokumen yang sebenarnya; URI yang ditautkan ke jalur Cloud Storage disediakan dalam file JSON Lines.

Saat menyediakan file JSON Lines, Anda menyediakan folder Cloud Storage yang berisi file ini. Jangan masukkan file lain ke dalam folder ini.

Deskripsi kolom:

Kolom Jenis Deskripsi
id string ID unik untuk dokumen.
content.mimeType string Jenis MIME dokumen. "application/pdf" dan "text/html" didukung.
content.uri string URI untuk dokumen di Cloud Storage.
structData string Objek JSON satu baris dengan kolom title dan url opsional.

Contoh:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Penyimpanan data tanpa metadata

Jenis konten ini tidak memiliki metadata. Cukup berikan dokumen yang akan diimpor. Jenis konten ditentukan oleh ekstensi file.

Konfigurasi penguraian dan pemotongan

Bergantung pada sumber data, Anda mungkin dapat mengonfigurasi setelan penguraian dan pengelompokan seperti yang ditentukan oleh Vertex AI Search.

Membuat penyimpanan data

Untuk membuat penyimpanan data:

  1. Buka konsol Pembuat Agen:

    Konsol Agent Builder

  2. Pilih project Anda dari drop-down konsol.

  3. Baca dan setujui Persyaratan Layanan, lalu klik Lanjutkan dan aktifkan API.

  4. Klik Penyimpanan Data di navigasi sebelah kiri.

  5. Klik New Data Store.

  6. Pilih sumber data.

  7. Aktifkan Pengindeksan situs lanjutan. Hal ini diperlukan untuk agen penyimpanan data.

  8. Berikan data dan konfigurasi untuk sumber penyimpanan data yang Anda pilih. Lokasi penyimpanan data Anda harus sesuai dengan lokasi agen.

  9. Klik Create untuk membuat penyimpanan data.

  10. Secara opsional, tetapkan bahasa penyimpanan data:

    1. Dari daftar penyimpanan data, klik penyimpanan data yang baru saja Anda buat.
    2. Klik tombol edit untuk setelan bahasa.
    3. Pilih bahasa, lalu klik centang untuk menerapkan.
  11. Verifikasi domain situs Anda.

Menggunakan Cloud Storage untuk dokumen penyimpanan data

Jika konten Anda tidak bersifat publik, menyimpan konten di Cloud Storage adalah opsi yang direkomendasikan. Saat membuat dokumen penyimpanan data, Anda memberikan URL untuk objek Cloud Storage dalam bentuk: gs://bucket-name/folder-name. Setiap dokumen dalam folder ditambahkan ke penyimpanan data.

Saat membuat bucket Cloud Storage:

Ikuti petunjuk mulai cepat Cloud Storage untuk membuat bucket dan mengupload file.

Bahasa

Untuk bahasa yang didukung, lihat kolom penyimpanan data di referensi bahasa.

Untuk performa terbaik, sebaiknya penyimpanan data dibuat dalam satu bahasa.

Setelah membuat penyimpanan data, Anda dapat menentukan bahasa penyimpanan data secara opsional. Jika menetapkan bahasa penyimpanan data, Anda dapat menghubungkan penyimpanan data ke agen yang dikonfigurasi untuk bahasa yang berbeda. Misalnya, Anda dapat membuat penyimpanan data bahasa Prancis yang terhubung ke agen bahasa Inggris.

Region yang didukung

Untuk region yang didukung, lihat referensi region.