Cara Anda menyiapkan data bergantung pada jenis data yang diimpor dan cara Anda memilih untuk mengimpornya. Mulailah dengan jenis data yang ingin Anda impor:
- Data situs
- Data tidak terstruktur
- Data terstruktur
- Sumber data pihak ketiga
- Data media terstruktur
- Data FHIR layanan kesehatan
Untuk informasi tentang penelusuran gabungan, tempat beberapa penyimpanan data dapat dihubungkan ke satu aplikasi penelusuran umum, lihat Tentang menghubungkan beberapa penyimpanan data.
Data situs
Saat membuat penyimpanan data untuk data situs, Anda memberikan URL halaman web yang harus di-crawl dan diindeks oleh Google untuk penelusuran atau rekomendasi.
Sebelum mengindeks data situs Anda:
Tentukan pola URL yang akan disertakan dalam pengindeksan dan yang akan dikecualikan.
Kecualikan pola untuk URL dinamis. URL dinamis adalah URL yang berubah pada saat penayangan, bergantung pada permintaan.
Misalnya, pola URL untuk halaman web yang menayangkan hasil penelusuran, seperti
www.example.com/search/*
. Misalnya, pengguna menelusuri frasaNobel prize
, URL penelusuran dinamis mungkin berupa URL unik:www.example.com/search?q=nobel%20prize/UNIQUE_STRING
. Jika pola URLwww.example.com/search/*
tidak dikecualikan, semua URL penelusuran dinamis unik yang mengikuti pola ini akan diindeks. Hal ini menyebabkan indeks yang membengkak dan kualitas penelusuran yang menurun.Menghapus URL duplikat menggunakan pola URL kanonis. Hal ini memberikan satu URL kanonis untuk Google Penelusuran saat meng-crawl situs dan menghapus ambiguitas. Untuk contoh kanonikalisasi dan informasi selengkapnya, lihat Apa itu kanonikalisasi URL dan Cara menentukan URL kanonis dengan rel="canonical" dan metode lainnya.
Anda dapat menyertakan pola URL dari domain yang sama atau berbeda yang perlu diindeks dan mengecualikan pola yang tidak boleh diindeks. Jumlah pola URL yang dapat Anda sertakan dan kecualikan berbeda dengan cara berikut:
Jenis pengindeksan Situs yang disertakan Situs yang dikecualikan Penelusuran situs dasar Maksimum 50 pola URL Maksimum 50 pola URL Pengindeksan situs lanjutan Maksimum 500 pola URL Maksimum 500 pola URL Pastikan halaman web yang ingin Anda sediakan tidak menggunakan robots.txt untuk memblokir pengindeksan. Untuk mengetahui informasi selengkapnya, lihat Pengantar robots.txt.
Jika berencana menggunakan Pengindeksan situs lanjutan, Anda harus dapat memverifikasi domain untuk pola URL di penyimpanan data Anda.
Tambahkan data terstruktur dalam bentuk tag
meta
dan PageMaps ke skema penyimpanan data Anda untuk memperkaya pengindeksan seperti yang dijelaskan dalam Menggunakan data terstruktur untuk pengindeksan situs lanjutan.
Data tidak terstruktur
Vertex AI Search mendukung penelusuran dokumen dalam format HTML, PDF dengan teks tersemat, dan TXT. Format PPTX dan DOCX tersedia di Pratinjau.
Anda mengimpor dokumen dari bucket Cloud Storage. Anda dapat mengimpor menggunakan konsol Google Cloud, dengan metode ImportDocuments
, atau dengan streaming proses transfer melalui metode CRUD.
Untuk informasi referensi API, lihat DocumentService
dan documents
.
Tabel berikut mencantumkan batas ukuran file dari setiap jenis file dengan konfigurasi yang berbeda (untuk informasi selengkapnya, lihat Mengurai dan mengelompokkan dokumen). Anda dapat mengimpor hingga 100.000 file sekaligus.
Jenis file | Impor default | Mengimpor dengan pengelompokan dokumen yang peka terhadap tata letak | Mengimpor dengan parser tata letak |
---|---|---|---|
File berbasis teks seperti HTML, TXT, JSON, XHTML, dan XML | < 2,5 MB | < 10 MB | < 10 MB |
PPTX, DOCX, dan XLSX | < 200 MB | < 200 MB | < 200 MB |
< 200 MB | < 200 MB | < 40 MB |
Jika Anda berencana menyertakan penyematan dalam data tidak terstruktur, lihat Menggunakan penyematan kustom.
Jika Anda memiliki PDF yang tidak dapat ditelusuri (PDF yang dipindai atau PDF dengan teks di dalam gambar, seperti infografis), sebaiknya aktifkan pemrosesan pengenalan karakter optik (OCR) selama pembuatan penyimpanan data. Hal ini memungkinkan Vertex AI Search mengekstrak elemen seperti blok teks dan tabel. Jika Anda memiliki PDF yang dapat ditelusuri yang sebagian besar terdiri dari teks yang dapat dibaca mesin dan berisi banyak tabel, Anda dapat mempertimbangkan untuk mengaktifkan pemrosesan OCR dengan opsi untuk teks yang dapat dibaca mesin diaktifkan untuk meningkatkan deteksi dan pemisahan. Untuk informasi selengkapnya, lihat Mengurai dan mengelompokkan dokumen.
Jika Anda ingin menggunakan Vertex AI Search untuk retrieval-augmented generation (RAG), aktifkan pengelompokan dokumen saat Anda membuat penyimpanan data. Untuk mengetahui informasi selengkapnya, lihat Mengurai dan mengelompokkan dokumen.
Anda dapat mengimpor data tidak terstruktur dari sumber berikut:
Cloud Storage
Anda dapat mengimpor data dari Cloud Storage dengan atau tanpa metadata.
Impor data tidak bersifat rekursif. Artinya, jika ada folder dalam bucket atau folder yang Anda tentukan, file dalam folder tersebut tidak akan diimpor.
Jika Anda berencana mengimpor dokumen dari Cloud Storage tanpa metadata, masukkan dokumen langsung ke bucket Cloud Storage. ID dokumen adalah contoh metadata.
Untuk pengujian, Anda dapat menggunakan folder Cloud Storage berikut yang tersedia secara publik, yang berisi PDF:
gs://cloud-samples-data/gen-app-builder/search/alphabet-investor-pdfs
gs://cloud-samples-data/gen-app-builder/search/CUAD_v1
gs://cloud-samples-data/gen-app-builder/search/kaiser-health-surveys
gs://cloud-samples-data/gen-app-builder/search/stanford-cs-224
Jika Anda berencana mengimpor data dari Cloud Storage dengan metadata, masukkan file JSON yang berisi metadata ke bucket Cloud Storage yang lokasinya Anda berikan selama impor.
Dokumen tidak terstruktur Anda dapat berada di bucket Cloud Storage yang sama dengan metadata atau bucket yang berbeda.
File metadata harus berupa file JSON Lines atau NDJSON. ID dokumen adalah contoh metadata. Setiap baris file metadata harus mengikuti salah satu format JSON berikut:
- Menggunakan
jsonData
:{ "id": "<your-id>", "jsonData": "<JSON string>", "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
- Menggunakan
structData
:{ "id": "<your-id>", "structData": { <JSON object> }, "content": { "mimeType": "<application/pdf or text/html>", "uri": "gs://<your-gcs-bucket>/directory/filename.pdf" } }
Gunakan kolom uri
di setiap baris untuk mengarah ke lokasi Cloud Storage dokumen.
Berikut adalah contoh file metadata NDJSON untuk dokumen tidak terstruktur. Dalam
contoh ini, setiap baris file metadata mengarah ke dokumen PDF dan
berisi metadata untuk dokumen tersebut. Dua baris pertama menggunakan jsonData
dan
dua baris kedua menggunakan structData
. Dengan structData
, Anda tidak perlu
meng-escape tanda kutip yang muncul dalam tanda kutip.
{"id":"doc-0","jsonData":"{\"title\":\"test_doc_0\",\"description\":\"This document uses a blue color theme\",\"color_theme\":\"blue\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_0.pdf"}}
{"id":"doc-1","jsonData":"{\"title\":\"test_doc_1\",\"description\":\"This document uses a green color theme\",\"color_theme\":\"green\"}","content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_1.pdf"}}
{"id":"doc-2","structData":{"title":"test_doc_2","description":"This document uses a red color theme","color_theme":"red"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_3.pdf"}}
{"id":"doc-3","structData":{"title":"test_doc_3","description":"This is document uses a yellow color theme","color_theme":"yellow"},"content":{"mimeType":"application/pdf","uri":"gs://test-bucket-12345678/test_doc_4.pdf"}}
Untuk membuat penyimpanan data, lihat Membuat penyimpanan data penelusuran atau Membuat penyimpanan data rekomendasi.
BigQuery
Jika Anda berencana mengimpor metadata dari BigQuery, buat tabel BigQuery yang berisi metadata. ID dokumen adalah contoh metadata.
Masukkan dokumen tidak terstruktur Anda ke bucket Cloud Storage.
Gunakan skema BigQuery berikut. Gunakan kolom uri
di setiap data untuk mengarah ke lokasi Cloud Storage dokumen.
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
},
{
"name": "content",
"type": "RECORD",
"mode": "NULLABLE",
"fields": [
{
"name": "mimeType",
"type": "STRING",
"mode": "NULLABLE"
},
{
"name": "uri",
"type": "STRING",
"mode": "NULLABLE"
}
]
}
]
Untuk mengetahui informasi selengkapnya, lihat Membuat dan menggunakan tabel dalam dokumentasi BigQuery.
Untuk membuat penyimpanan data, lihat Membuat penyimpanan data penelusuran atau Membuat penyimpanan data rekomendasi.
Google Drive
Sinkronisasi data dari Google Drive didukung untuk penelusuran umum.
Jika berencana mengimpor data dari Google Drive, Anda harus menyiapkan Google Identity sebagai penyedia identitas di Vertex AI Agent Builder. Untuk informasi tentang cara menyiapkan kontrol akses, lihat Menggunakan kontrol akses sumber data.
Untuk membuat penyimpanan data, lihat Membuat penyimpanan data penelusuran.
Data terstruktur
Siapkan data sesuai dengan metode impor yang ingin Anda gunakan. Jika Anda berencana untuk menyerap data media, lihat juga Data media terstruktur.
Anda dapat mengimpor data terstruktur dari sumber berikut:
- BigQuery
- Cloud Storage
- Data JSON lokal
- Sumber data pihak ketiga (Pratinjau dengan daftar yang diizinkan)
Saat mengimpor data terstruktur dari BigQuery atau dari Cloud Storage, Anda diberi opsi untuk mengimpor data dengan metadata. (Terstruktur dengan metadata juga disebut sebagai data terstruktur yang ditingkatkan.)
BigQuery
Anda dapat mengimpor data terstruktur dari set data BigQuery.
Skema Anda terdeteksi secara otomatis. Setelah mengimpor, Google merekomendasikan agar Anda mengedit skema yang terdeteksi otomatis untuk memetakan properti utama, seperti judul. Jika Anda mengimpor menggunakan API, bukan konsol Google Cloud, Anda memiliki opsi untuk memberikan skema Anda sendiri sebagai objek JSON. Untuk mengetahui informasi selengkapnya, lihat Menyediakan atau mendeteksi skema secara otomatis.
Untuk contoh data terstruktur yang tersedia untuk publik, lihat set data publik BigQuery.
Jika Anda berencana menyertakan penyematan dalam data terstruktur, lihat Menggunakan penyematan kustom.
Jika memilih untuk mengimpor data terstruktur dengan metadata, Anda akan menyertakan dua kolom dalam tabel BigQuery:
Kolom
id
untuk mengidentifikasi dokumen. Jika Anda mengimpor data terstruktur tanpa metadata,id
akan dibuat untuk Anda. Menyertakan metadata memungkinkan Anda menentukan nilaiid
.Kolom
jsonData
yang berisi data. Untuk contoh stringjsonData
, lihat bagian sebelumnya Cloud Storage.
Gunakan skema BigQuery berikut untuk data terstruktur dengan impor metadata:
[
{
"name": "id",
"mode": "REQUIRED",
"type": "STRING",
"fields": []
},
{
"name": "jsonData",
"mode": "NULLABLE",
"type": "STRING",
"fields": []
}
]
Untuk mengetahui petunjuk tentang cara membuat penyimpanan data, lihat Membuat penyimpanan data penelusuran atau Membuat penyimpanan data rekomendasi.
Cloud Storage
Data terstruktur di Cloud Storage harus dalam format JSON Lines atau NDJSON. Setiap file harus berukuran 2 GB atau lebih kecil. Anda dapat mengimpor hingga 100 file sekaligus.
Untuk contoh data terstruktur yang tersedia secara publik, lihat folder berikut di Cloud Storage, yang berisi file NDJSON:
gs://cloud-samples-data/gen-app-builder/search/kaggle_movies
gs://cloud-samples-data/gen-app-builder/search/austin_311
Jika Anda berencana menyertakan penyematan dalam data terstruktur, lihat Menggunakan penyematan kustom.
Berikut adalah contoh file metadata NDJSON untuk data terstruktur. Setiap baris file mewakili dokumen dan terdiri dari kumpulan kolom.
{"hotel_id": 10001, "title": "Hotel 1", "location": {"address": "1600 Amphitheatre Parkway, Mountain View, CA 94043"}, "available_date": "2024-02-10", "non_smoking": true, "rating": 3.7, "room_types": ["Deluxe", "Single", "Suite"]}
{"hotel_id": 10002, "title": "Hotel 2", "location": {"address": "Manhattan, New York, NY 10001"}, "available_date": "2023-07-10", "non_smoking": false, "rating": 5.0, "room_types": ["Deluxe", "Double", "Suite"]}
{"hotel_id": 10003, "title": "Hotel 3", "location": {"address": "Moffett Park, Sunnyvale, CA 94089"}, "available_date": "2023-06-24", "non_smoking": true, "rating": 2.5, "room_types": ["Double", "Penthouse", "Suite"]}
Untuk membuat penyimpanan data, lihat Membuat penyimpanan data penelusuran atau Membuat penyimpanan data rekomendasi.
Untuk informasi tentang cara memformat data FAQ dalam file CSV untuk aplikasi chat, lihat Penyimpanan data terstruktur dalam dokumentasi Dialogflow CX.
Data JSON lokal
Anda dapat langsung mengupload dokumen atau objek JSON menggunakan API.
Google merekomendasikan untuk memberikan skema Anda sendiri sebagai objek JSON untuk hasil yang lebih baik. Jika Anda tidak memberikan skema sendiri, skema akan terdeteksi secara otomatis. Setelah mengimpor, sebaiknya edit skema yang terdeteksi otomatis untuk memetakan properti utama, seperti judul. Untuk mengetahui informasi selengkapnya, lihat Menyediakan atau mendeteksi skema secara otomatis.
Jika Anda berencana menyertakan penyematan dalam data terstruktur, lihat Menggunakan penyematan kustom.
Untuk membuat penyimpanan data, lihat Membuat penyimpanan data penelusuran atau Membuat penyimpanan data rekomendasi.
Data media terstruktur
Jika Anda berencana menyerap data media terstruktur, seperti video, berita, atau musik, tinjau hal berikut:
- Informasi tentang metode impor Anda (BigQuery atau Cloud Storage): Data terstruktur
- Skema dan kolom yang diperlukan untuk dokumen media dan penyimpanan data: Tentang dokumen media dan penyimpanan data
- Persyaratan dan skema peristiwa pengguna: Tentang peristiwa pengguna
- Informasi tentang jenis rekomendasi media: Tentang jenis rekomendasi media
Sumber data pihak ketiga
Proses transfer dari sumber data pihak ketiga adalah pratinjau dengan fitur daftar yang diizinkan.
Koneksi sumber data pihak ketiga didukung untuk penelusuran umum.
Saat Anda menghubungkan sumber data pihak ketiga, data awalnya akan diserap, lalu disinkronkan ke Vertex AI Search dengan frekuensi yang Anda tentukan.
Sebelum menyiapkan koneksi sumber data, Anda harus menyiapkan kontrol akses untuk sumber data. Untuk informasi tentang cara menyiapkan kontrol akses, lihat Menggunakan kontrol akses sumber data.
Untuk kredensial yang diperlukan guna menghubungkan sumber data, buka dokumentasi untuk menghubungkan sumber data pihak ketiga yang datanya ingin Anda serap:
- Menghubungkan Confluence
- Menghubungkan Jira Cloud
- Menghubungkan Salesforce
- Menghubungkan ServiceNow
- Menghubungkan Slack
Data FHIR perawatan kesehatan
Jika Anda berencana menyerap data FHIR dari Cloud Healthcare API, pastikan hal berikut:
- Lokasi: Penyimpanan FHIR sumber harus berada dalam set data Cloud Healthcare API yang berada di lokasi
us-central1
,us
, ataueu
. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola set data di Cloud Healthcare API. - Jenis FHIR store: FHIR store sumber harus berupa penyimpanan data R4. Anda dapat memeriksa versi penyimpanan FHIR dengan mencantumkan penyimpanan FHIR dalam set data. Untuk membuat penyimpanan FHIR R4, lihat Membuat penyimpanan FHIR.
- Kuota impor: FHIR store sumber harus memiliki kurang dari 1 juta resource FHIR. Jika ada lebih dari 1 juta resource FHIR, proses impor akan berhenti setelah batas ini tercapai. Untuk mengetahui informasi selengkapnya, silakan melihat Kuota dan batas.
- File yang direferensikan dalam resource
DocumentReference
harus berupa file PDF, RTF, atau gambar yang disimpan di Cloud Storage. Link ke file yang dirujuk harus berada di kolomcontent[].attachment.url
resource dalam format jalur Cloud Storage standar:gs://BUCKET_NAME/PATH_TO_REFERENCED_FILE
. - Tinjau daftar resource FHIR R4 yang didukung Vertex AI Search. Untuk mengetahui informasi selengkapnya, lihat Referensi skema data FHIR R4 Layanan kesehatan.