Parameter konfigurasi indeks

Guna mengonfigurasi indeks untuk penelusuran kesamaan, Anda harus mengonfigurasi kolom berikut. Untuk mengetahui petunjuk cara mengonfigurasi indeks, lihat Mengonfigurasi parameter indeks.

Kolom
contentsDeltaUri

string

Memungkinkan penyisipan, pembaruan, atau penghapusan konten pada Index Vector Search. String ini harus berupa jalur direktori Cloud Storage yang valid, seperti gs://BUCKET_NAME/PATH_TO_INDEX_DIR/.

Jika Anda menetapkan kolom ini saat memanggil IndexService.UpdateIndex, tidak akan ada kolom Index lain yang juga dapat diperbarui sebagai bagian dari panggilan yang sama. Pelajari cara membuat struktur file data individu.

isCompleteOverwrite

boolean

Jika kolom ini ditetapkan bersama dengan contentsDeltaUri saat memanggil IndexService.UpdateIndex, konten Index yang ada akan diganti dengan data dari contentsDeltaUri.

config

NearestNeighborSearchConfig

Konfigurasi Vector Search Index.

NearestNeighborSearchConfig

Kolom
dimensions

int32

Wajib. Jumlah dimensi vektor input.

approximateNeighborsCount

int32

Wajib jika algoritma tree-AH digunakan.

Jumlah default tetangga yang harus ditemukan melalui perkiraan penelusuran sebelum pengurutan ulang yang sama persis dilakukan. Pengurutan ulang yang tepat adalah prosedur di mana hasil yang ditampilkan oleh algoritma penelusuran perkiraan disusun ulang menggunakan komputasi jarak yang lebih mahal.

ShardSize ShardSize

Ukuran setiap shard. Jika berukuran besar, indeks akan di-sharding berdasarkan ukuran shard yang ditentukan. Selama penayangan, setiap shard ditayangkan pada node terpisah dan diskalakan secara terpisah.

distanceMeasureType

DistanceMeasureType

Ukuran jarak yang digunakan dalam penelusuran tetangga terdekat.

featureNormType

FeatureNormType

Jenis normalisasi yang akan dilakukan pada setiap vektor.

algorithmConfig oneOf:

Konfigurasi untuk algoritma yang digunakan Vector Search untuk penelusuran yang efisien.

  • TreeAhConfig: Opsi konfigurasi untuk menggunakan algoritma tree-AH. Untuk informasi selengkapnya, lihat blog ini Menskalakan pengambilan mendalam dengan Pemberi Rekomendasi TensorFlow dan Vector Search
  • BruteForceConfig: Opsi ini mengimplementasikan penelusuran linear standar dalam database untuk setiap kueri. Tidak ada kolom yang harus dikonfigurasi untuk penelusuran brute force. Untuk memilih algoritma ini, teruskan objek kosong untuk BruteForceConfig.

DistanceMeasureType

Enum
SQUARED_L2_DISTANCE Jarak Euclidean (L2)
L1_DISTANCE Jarak Manhattan (L1)
DOT_PRODUCT_DISTANCE Nilai default. Didefinisikan sebagai negatif dari perkalian titik.
COSINE_DISTANCE Jarak Kosinus. Sebaiknya gunakan DOT_PRODUCT_DISTANCE + UNIT_L2_NORM, bukan jarak COSINE. Algoritma kami lebih dioptimalkan untuk jarak DOT_PRODUCT, dan saat dikombinasikan dengan UNIT_L2_NORM, algoritma ini menawarkan rank dan kesetaraan matematika yang sama dengan jarak COSINE.

ShardSize

Enum
SHARD_SIZE_SMALL 2 GiB per shard
SHADE_SIZE_MEDIUM 20 GiB per shard
SHADE_SIZE_LARGE 50 GiB per shard

FeatureNormType

Enum
UNIT_L2_NORM Jenis normalisasi unit L2.
NONE Nilai default. Tidak ada jenis normalisasi yang ditetapkan.

TreeAhConfig

Ini adalah kolom yang harus dipilih untuk algoritma tree-AH.

Kolom
fractionLeafNodesToSearch double
Fraksi default node daun tempat kueri apa pun dapat dicari. Harus dalam rentang 0,0 - 1,0, eksklusif. Nilai defaultnya adalah 0,05 jika tidak ditetapkan.
leafNodeEmbeddingCount int32
Jumlah embedding pada setiap node daun. Nilai defaultnya adalah 1000 jika tidak ditetapkan.
leafNodesToSearchPercent int32
Tidak digunakan lagi, gunakan fractionLeafNodesToSearch.

Persentase default node daun tempat kueri apa pun dapat dicari. Harus dalam rentang 1-100, inklusif. Nilai defaultnya adalah 10 (berarti 10%) jika tidak ditetapkan.

BruteForceConfig

Opsi ini mengimplementasikan penelusuran linear standar dalam database untuk setiap kueri. Tidak ada kolom yang harus dikonfigurasi untuk penelusuran brute force. Untuk memilih algoritma ini, teruskan objek kosong untuk BruteForceConfig ke algorithmConfig.