Halaman ini menjelaskan aplikasi dan penyimpanan data Vertex AI Search. Untuk mengetahui informasi tentang penyimpanan data Agen Vertex AI, lihat Penyimpanan data Agen Vertex AI.
Dengan Vertex AI Search, Anda membuat aplikasi penelusuran atau rekomendasi dan menghubungkannya ke penyimpanan data. Project Google Cloud dapat berisi beberapa aplikasi.
Hubungan antara aplikasi dan penyimpanan data
Hubungan antara aplikasi dan penyimpanan data bergantung pada jenis aplikasi:
Aplikasi penelusuran umum memiliki hubungan many-to-many dengan penyimpanan data. Jika beberapa penyimpanan data terhubung ke satu aplikasi penelusuran umum, hal ini disebut sebagai penelusuran gabungan. Untuk mengetahui informasi tentang batasan menghubungkan aplikasi penelusuran ke lebih dari satu penyimpanan data, lihat Tentang penelusuran gabungan.
Aplikasi rekomendasi umum memiliki koneksi satu-ke-satu dengan penyimpanan datanya.
Aplikasi media memiliki hubungan many-to-one dengan penyimpanan datanya. Aplikasi hanya dapat terhubung ke satu penyimpanan data, sedangkan penyimpanan data tertentu dapat terhubung ke beberapa aplikasi. Misalnya, aplikasi penelusuran media dan aplikasi rekomendasi media dapat berbagi penyimpanan data.
Aplikasi penelusuran layanan kesehatan memiliki hubungan banyak-ke-satu dengan penyimpanan datanya. Aplikasi hanya dapat terhubung ke satu penyimpanan data, sedangkan penyimpanan data tertentu dapat terhubung ke beberapa aplikasi. Misalnya, aplikasi yang ditampilkan kepada pasien dan aplikasi yang ditampilkan kepada penyedia dapat terhubung ke penyimpanan data yang sama.
Untuk impor data batch data layanan kesehatan, data diimpor ke dalam penyimpanan data yang ada dalam aplikasi. Untuk impor data streaming (Pratinjau) data layanan kesehatan, data diimpor ke dalam entity, yang merupakan jenis penyimpanan data yang ada dalam konektor data. Konektor data juga merupakan jenis penyimpanan data yang ada dalam aplikasi.
Setelah terhubung ke aplikasi, penyimpanan data tidak dapat diputuskan.
Metode pembuatan aplikasi dan penyerapan data
Cara Anda membuat aplikasi dan menyerap data bergantung pada jenis data yang Anda miliki:
Untuk data situs, Anda menggunakan konsol Google Cloud, bukan API, untuk membuat aplikasi dan menyerap data.
Untuk data terstruktur atau tidak terstruktur, Anda dapat menggunakan Konsol Google Cloud atau API.
Untuk data layanan kesehatan, Anda dapat menggunakan Konsol Google Cloud atau API.
Dokumen
Setiap penyimpanan data memiliki satu atau beberapa kumpulan data, yang disebut dokumen. Representasi dokumen bervariasi, bergantung pada jenis data dalam penyimpanan data:
Situs. Dokumen adalah halaman web.
Data terstruktur. Dokumen adalah baris dalam tabel atau data JSON yang mengikuti skema tertentu. Anda dapat menyediakan skema ini sendiri atau Anda dapat mengizinkan Vertex AI Agent Builder memperoleh skema dari data yang diserap.
Data terstruktur untuk media. Dokumen adalah baris dalam tabel atau data JSON yang mengikuti skema yang spesifik untuk media. Dokumen ini adalah catatan yang berkaitan dengan konten media, seperti video, artikel berita, file musik, dan podcast. Dokumen berisi informasi yang menjelaskan item media, minimal: judul, URI ke lokasi konten, kategori, durasi, dan tanggal tersedia.
Data terstruktur untuk sumber data pihak ketiga (Pratinjau dengan daftar yang diizinkan). Dokumen adalah entitas khusus untuk sumber data pihak ketiga, seperti masalah Jira atau ruang Confluence.
Data tidak terstruktur. Dokumen adalah file dalam format HTML, PDF dengan teks tersemat, atau TXT. Format PPTX dan DOCX tersedia di Pratinjau.
Data FHIR perawatan kesehatan. Dokumen adalah resource FHIR R4 yang didukung. Untuk mengetahui daftar resource FHIR R4 yang didukung Vertex AI Search, lihat Referensi skema data FHIR R4 Layanan kesehatan.
Aplikasi dan penyimpanan data
Di Vertex AI Agent Builder, ada berbagai jenis penyimpanan data. Penyimpanan data hanya dapat berisi satu jenis data.
- Data situs
- Data terstruktur
- Konten terstruktur (media)
- Konten terstruktur untuk sumber data pihak ketiga
- Data tidak terstruktur
- Data FHIR layanan kesehatan
Data situs
Penyimpanan data dengan data situs menggunakan data yang diindeks dari situs publik. Anda dapat memberikan sekumpulan domain dan menyiapkan penelusuran atau rekomendasi berdasarkan data yang di-crawl dari domain. Data ini mencakup teks, gambar yang diberi tag dengan metadata, dan data terstruktur.
Misalnya, Anda dapat memberikan domain seperti yourexamplewebsite.com/faq
dan
yourexamplewebsite.com/events
serta mengaktifkan penelusuran atau rekomendasi di
konten di domain tersebut.
Ada dua jenis penyimpanan data situs:
Penelusuran situs dasar:
- Memberikan kemampuan penelusuran melalui indeks Google Penelusuran yang ada untuk situs yang disertakan.
- Tidak memerlukan verifikasi domain.
Pengindeksan situs lanjutan:
- Memberikan kemampuan penelusuran lanjutan melalui indeks yang dibuat berdasarkan indeks Google Penelusuran yang ada untuk situs yang disertakan. Pemilik aplikasi Vertex AI Agent Builder kemudian dapat memperluas cakupan indeks dengan meng-crawl ulang situs kapan pun diperlukan, sehingga indeks tetap baru. Untuk informasi selengkapnya, lihat Memuat ulang halaman web. Kemampuan lanjutan pengindeksan situs lanjutan tercantum di Pengindeksan situs lanjutan.
- Memerlukan verifikasi domain. Untuk informasi selengkapnya, lihat Memverifikasi domain situs.
- Memberikan kemampuan untuk menambahkan data terstruktur ke skema penyimpanan data.
Situs berisi data tidak terstruktur, tetapi Anda dapat menambahkan data terstruktur dalam
bentuk tag
meta
, atribut PageMap, dan data schema.org ke halaman web Anda. Kemudian, Anda dapat menggunakan data terstruktur ini untuk mengedit skema penyimpanan data seperti yang dijelaskan dalam Menggunakan data terstruktur untuk pengindeksan situs lanjutan.
Langkah selanjutnya
Untuk penelusuran situs:
- Untuk memahami prasyarat pengindeksan, lihat cara menyiapkan data untuk penelusuran situs.
- Buat penyimpanan data menggunakan konten situs.
- Buat aplikasi penelusuran.
Untuk rekomendasi:
Data terstruktur
Penyimpanan data dengan data terstruktur memungkinkan penelusuran atau rekomendasi semantik di atas data terstruktur. Anda dapat mengimpor data dari BigQuery atau Cloud Storage. Anda juga dapat mengupload data JSON terstruktur secara manual melalui API.
Misalnya, Anda dapat mengaktifkan penelusuran atau rekomendasi melalui katalog produk untuk pengalaman e-commerce atau direktori dokter untuk penelusuran atau rekomendasi penyedia.
Vertex AI Agent Builder mendeteksi skema secara otomatis dari data yang Anda impor. Secara opsional, Anda dapat memberikan skema untuk data Anda. Memberikan skema untuk data Anda biasanya akan meningkatkan kualitas hasil.
Langkah selanjutnya
Untuk penelusuran umum:
- Siapkan data terstruktur untuk penyerapan.
- Buat penyimpanan data penelusuran menggunakan salah satu metode berikut:
- Buat aplikasi penelusuran.
Untuk rekomendasi umum:
Data terstruktur untuk media
Aplikasi media hanya dapat terhubung ke penyimpanan data media. Penyimpanan data media adalah penyimpanan data terstruktur dengan skema yang ditentukan Google atau dengan skema kustom Anda sendiri yang berisi kumpulan lima kolom terkait media tertentu. Untuk mengetahui informasi selengkapnya tentang skema, lihat Tentang dokumen media dan penyimpanan data.
Misalnya, Anda dapat mengaktifkan rekomendasi dengan membuat aplikasi rekomendasi media untuk katalog film atau situs berita sehingga pengguna akan memiliki sugesti yang sesuai dan dipersonalisasi untuk mereka.
Selain dokumen media, penyimpanan data media juga berisi informasi peristiwa pengguna yang memungkinkan Vertex AI Search menyesuaikan rekomendasi dan menelusuri pengguna Anda. Peristiwa pengguna diperlukan untuk aplikasi rekomendasi media dan direkomendasikan untuk aplikasi penelusuran media. Untuk informasi tentang peristiwa pengguna, lihat Merekam peristiwa pengguna real-time.
Langkah selanjutnya
Data terstruktur untuk penyimpanan data pihak ketiga
Konektor sumber data pihak ketiga berikut tersedia dalam Pratinjau dengan daftar yang diizinkan:
- Confluence
- Jira
- Salesforce
- Sharepoint Online
- Slack
Data dari pihak ketiga ini dianggap sebagai data terstruktur.
Saat menyiapkan konektor baru, Anda memilih frekuensi sinkronisasi. Anda juga dapat memilih entitas yang akan disinkronkan. Entitas bervariasi bergantung pada sumbernya, seperti masalah untuk Jira serta konten dan ruang untuk Confluence. Penyimpanan data unik dibuat untuk setiap entitas. Penyimpanan data entity dikelompokkan berdasarkan instance konektor.
Langkah selanjutnya
Untuk penelusuran:
- Siapkan data pihak ketiga untuk penyerapan.
- Hubungkan sumber data pihak ketiga.
- Buat aplikasi penelusuran.
Untuk rekomendasi:
Data tidak terstruktur
Penyimpanan data tidak terstruktur memungkinkan penelusuran atau rekomendasi semantik atas data seperti dokumen dan gambar.
Penyimpanan data tidak terstruktur mendukung dokumen dalam format HTML, PDF dengan teks tersemat, dan TXT. Format PPTX dan DOCX tersedia di Pratinjau.
Penelusuran memberikan hasil dalam bentuk 10 URL dan jawaban ringkas untuk kueri natural language. Dokumen harus diupload ke bucket Cloud Storage dengan izin akses yang sesuai. Misalnya, lembaga keuangan dapat mengaktifkan penelusuran atau rekomendasi melalui korpus pribadi mereka yang berisi publikasi riset keuangan, atau perusahaan bioteknologi dapat mengaktifkan penelusuran atau rekomendasi melalui repositori pribadi mereka yang berisi riset medis.
Langkah selanjutnya
Untuk penelusuran:
- Menyiapkan data tidak terstruktur untuk penyerapan.
- Buat penyimpanan data penelusuran menggunakan salah satu metode berikut:
- Buat penyimpanan data penelusuran untuk data tidak terstruktur Anda.
- Buat aplikasi penelusuran.
Untuk rekomendasi umum:
Data FHIR perawatan kesehatan
Aplikasi penelusuran layanan kesehatan menggunakan data FHIR R4 yang diimpor dari penyimpanan FHIR Cloud Healthcare API. Untuk mengetahui daftar resource FHIR R4 yang didukung Vertex AI Search, lihat Referensi skema data FHIR R4 Layanan Kesehatan. Penyimpanan data FHIR R4 harus memenuhi beberapa persyaratan sebelum dapat digunakan sebagai sumber data untuk penyimpanan data Vertex AI Search. Untuk mengetahui informasi selengkapnya, lihat cara menyiapkan data FHIR layanan kesehatan untuk penyerapan.
Langkah selanjutnya
- Menyiapkan data FHIR R4 untuk penyerapan.
- Buat penyimpanan data penelusuran layanan kesehatan.
- Buat aplikasi penelusuran layanan kesehatan.
Tentang penelusuran gabungan
Anda dapat membuat aplikasi penelusuran gabungan, tempat beberapa penyimpanan data dapat dihubungkan ke satu aplikasi penelusuran umum. Fitur ini memungkinkan Anda menggunakan satu aplikasi untuk menelusuri di beberapa sumber dan jenis data.
Untuk membuat aplikasi penelusuran gabungan, pilih beberapa penyimpanan data saat membuat aplikasi penelusuran umum baru. Jika tidak memilih beberapa penyimpanan data selama pembuatan, Anda tidak dapat menambahkan penyimpanan data tambahan nanti.
Saat mendapatkan hasil penelusuran, Anda dapat menelusuri di semua penyimpanan data, atau memfilter hasil dari satu penyimpanan data.
Batasan berikut berlaku:
- Menambahkan dan menghapus penyimpanan data:
- Untuk mengaktifkan penelusuran gabungan untuk aplikasi, Anda harus menghubungkan setidaknya dua penyimpanan data ke aplikasi tersebut selama pembuatan aplikasi.
- Anda dapat menambahkan atau menghapus penyimpanan data dari aplikasi penelusuran gabungan, tetapi aplikasi tidak boleh memiliki kurang dari dua penyimpanan data yang terhubung ke aplikasi tersebut kapan saja.
- Jika Anda menghubungkan satu penyimpanan data ke aplikasi penelusuran selama pembuatan aplikasi, Anda tidak dapat menambahkan atau menghapus penyimpanan data tersebut.
- Penyimpanan data situs harus mengaktifkan pengindeksan situs lanjutan agar dapat digunakan untuk penelusuran campuran. Untuk mengetahui informasi selengkapnya, lihat Pengindeksan situs lanjutan.
- Penyimpanan data yang berisi data tidak terstruktur yang diimpor menggunakan BigQuery tidak didukung.
- Penelusuran gabungan mengizinkan kolom berikut dalam
permintaan penelusuran:
query
pageSize
offset
dataStoreSpecs
pageToken
filter
spellCorrectionSpec
session
contentSearchSpec
summarySpec
extractiveContentSpec
searchResultMode
chunkSpec
- Selain kolom yang tercantum sebelumnya, kolom berikut
hanya didukung untuk aplikasi penelusuran gabungan saat permintaan penelusuran difilter untuk
mendapatkan hasil dari satu penyimpanan data. Fungsi ini tidak didukung saat mendapatkan hasil dari lebih dari satu penyimpanan data:
facetSpec
- Penelusuran gabungan mengizinkan kolom berikut di
dataStoreSpecs
:boostSpec
filter
: Jika ada filter yang ditentukan untukSearchRequest
dandataStoreSpecs
, kedua filter tersebut akan diterapkan ke hasil penelusuran
- Operasi Create, Read, Update, dan Delete (CRUD) pada konfigurasi penayangan
didukung untuk aplikasi gabungan. Hanya kolom berikut yang dapat ditambahkan atau diperbarui
dalam konfigurasi penayangan:
name
displayName
solutionType
genericConfig
:contentSearchSpec
:summarySpec
extractiveContentSpec
searchResultMode
chunkSpec
boostControlIds
synonymsControlIds
onewaySynonymsControlIds
- Operasi CRUD pada kontrol berikut didukung untuk aplikasi penelusuran campuran:
boostAction
synonymACtion
- Aplikasi penelusuran gabungan tidak mendukung fitur berikut:
- Memfilter, mengalihkan, mengabaikan, mengganti, dan memisahkan kontrol penayangan
- Cuplikan yang menggunakan
contentSearchSpec.snippetSpec
dalam permintaan penelusuran atau konfigurasi penayangan - Melakukan penelusuran dengan kueri lanjutan