Pengantar penelusuran vektor
Untuk memberikan masukan atau meminta dukungan terkait fitur ini, kirim email ke bq-vector-search@google.com.
Dokumen ini memberikan ringkasan penelusuran vektor di BigQuery. Penelusuran vektor memungkinkan Anda menelusuri embedding untuk mengidentifikasi entity yang mirip secara semantik.
Embedding adalah vektor numerik berdimensi tinggi yang mewakili entity tertentu, seperti potongan teks atau file audio. Model machine learning (ML) menggunakan embedding untuk mengenkode semantik tentang entity tersebut agar lebih mudah untuk memahami dan membandingkannya. Misalnya, operasi umum dalam model pengelompokan, klasifikasi, dan rekomendasi adalah mengukur jarak antarvektor dalam ruang penyematan untuk menemukan item yang paling mirip secara semantik.
Untuk melakukan penelusuran vektor, gunakan
fungsi VECTOR_SEARCH
dan indeks vektor (opsional). Saat indeks
vektor digunakan, VECTOR_SEARCH
akan menggunakan
teknik penelusuran Perkiraan Nearest Neighbor
untuk membantu meningkatkan performa penelusuran vektor, dengan konsekuensi
pengurangan
penarikan
sehingga menampilkan lebih banyak hasil perkiraan. {i>Brute force<i} digunakan untuk menampilkan
hasil yang tepat ketika indeks vektor tidak tersedia, dan Anda dapat memilih untuk menggunakan {i>brute force <i}
untuk mendapatkan hasil yang tepat bahkan ketika indeks vektor tersedia.
Harga
Pernyataan CREATE VECTOR INDEX
dan fungsi VECTOR_SEARCH
menggunakan harga komputasi BigQuery.
Untuk pernyataan CREATE VECTOR INDEX
, hanya kolom terindeks yang dipertimbangkan dalam byte yang diproses.
Pemrosesan untuk mem-build dan memuat ulang indeks vektor tidak dikenai biaya jika ukuran total data tabel yang diindeks di organisasi Anda kurang dari batas 20 TB. Untuk mendukung pengindeksan di luar batas ini, Anda harus menyediakan reservasi sendiri untuk menangani tugas pengelolaan indeks. Indeks vektor menimbulkan biaya penyimpanan ketika aktif. Anda dapat menemukan ukuran penyimpanan indeks dalam
tampilan INFORMATION_SCHEMA.VECTOR_INDEXES
.
Jika indeks vektor belum memiliki cakupan 100%, Anda tetap dikenai biaya untuk semua
penyimpanan indeks yang dilaporkan dalam tampilan INFORMATION_SCHEMA.VECTOR_INDEXES
.
Kuota dan batas
Untuk mengetahui informasi selengkapnya, lihat Batas indeks vektor.
Batasan
- Kueri yang berisi fungsi
VECTOR_SEARCH
tidak dipercepat oleh BigQuery BI Engine. - Aturan tata kelola dan keamanan data BigQuery berlaku untuk penggunaan
VECTOR_SEARCH
. Untuk mengetahui informasi selengkapnya, lihat bagian Batasan diVECTOR_SEARCH
. Aturan ini tidak berlaku untuk pembuatan indeks vektor.
Langkah selanjutnya
- Pelajari lebih lanjut cara membuat indeks vektor.
- Coba tutorial Menelusuri embeddings dengan penelusuran vektor untuk mempelajari cara membuat indeks vektor, kemudian melakukan penelusuran vektor untuk embedding, baik dengan maupun tanpa indeks.
Coba tutorial Membuat dan menggunakan embedding teks untuk mempelajari cara melakukan tugas berikut:
- Membuat embedding teks.
- Membuat indeks vektor pada embedding.
- Lakukan penelusuran vektor dengan embeddings untuk menelusuri teks yang serupa.
- Lakukan pembuatan retrieval-augmented (RAG) dengan menggunakan hasil penelusuran vektor untuk menambah input perintah dan meningkatkan hasil.