유사성 검색을 위한 색인을 구성하려면 다음 필드를 구성해야 합니다.
색인을 구성하는 방법에 대한 안내는 색인 매개변수 구성을 참조하세요.
NearestNeighborSearch
필드 | |
---|---|
contentsDeltaUri |
벡터 검색
|
isCompleteOverwrite |
이 필드가 |
config |
벡터 검색 구성 |
NearestNeighborSearchConfig
필드 | |
---|---|
dimensions |
필수. 입력 벡터의 차원 수입니다. 밀집 임베딩에만 사용됩니다. |
approximateNeighborsCount |
tree-AH 알고리즘을 사용하는 경우 필수입니다. 정확한 순서 변경이 수행되기 전에 유사 검색을 통해 찾을 이웃의 기본 개수입니다. 정확한 순서 변경은 유사 검색 알고리즘에서 반환하는 결과가 비용이 더 많이 드는 거리 계산을 이용해 재정렬되는 절차입니다. |
ShardSize |
ShardSize
각 샤드의 크기. 색인이 크면 지정된 샤드 크기를 기준으로 샤딩됩니다. 서빙 중에 각 샤드는 별도의 노드에서 제공되며 독립적으로 확장됩니다. |
distanceMeasureType |
최근접 이웃 검색에 사용되는 거리 측정입니다. |
featureNormType |
각 벡터에서 수행될 정규화 유형입니다. |
algorithmConfig |
oneOf:
벡터 검색에서 효율적인 검색에 사용하는 알고리즘의 구성입니다. 밀집 임베딩에만 사용됩니다.
|
DistanceMeasureType
열거형 | |
---|---|
SQUARED_L2_DISTANCE |
유클리드(L2) 거리 |
L1_DISTANCE |
맨해튼(L1) 거리 |
DOT_PRODUCT_DISTANCE |
기본값 스칼라곱의 음수로 정의됩니다. |
COSINE_DISTANCE |
코사인 거리입니다. 코사인 거리 대신 DOT_PRODUCT_Distance + UNIT_L2_NORM을 사용하는 것이 좋습니다. Google의 알고리즘은 DOT_PRODUCT 거리를 기준으로 최적화되었으며, UNIT_L2_NORM과 결합하면 코사인 거리와 동일한 순위 및 수학적 등가를 제공합니다. |
ShardSize
열거형 | |
---|---|
SHARD_SIZE_SMALL |
샤드당 2GiB |
SHARD_SIZE_MEDIUM |
샤드당 20GiB |
SHARD_SIZE_LARGE |
샤드당 50GiB |
FeatureNormType
열거형 | |
---|---|
UNIT_L2_NORM |
단위 L2 정규화 유형입니다. |
NONE |
기본값 지정된 정규화 유형이 없습니다. |
TreeAhConfig
트리-AH 알고리즘에 선택할 수 있는 필드입니다.
필드 | |
---|---|
fractionLeafNodesToSearch |
double |
쿼리를 검색할 수 있는 리프 노드의 기본 비율입니다. 범위는 0.0~1.0 미만이어야 합니다. 설정하지 않으면 기본값은 0.05입니다. | |
leafNodeEmbeddingCount |
int32 |
각 리프 노드의 임베딩 수입니다. 설정하지 않으면 기본값은 1000입니다. | |
leafNodesToSearchPercent |
int32 |
지원 중단됨, fractionLeafNodesToSearch 를 사용하세요.쿼리를 검색할 수 있는 리프 노드의 기본 비율입니다. 1~100 범위 내에 있어야 합니다. 설정되지 않으면 기본값은 10(즉, 10%)입니다. |
BruteForceConfig
이 옵션은 데이터베이스에서 각 쿼리의 표준 선형 검색을 구현합니다. 무차별 검색을 위해 구성할 필드가 없습니다.
이 알고리즘을 선택하려면 BruteForceConfig
의 빈 객체를 algorithmConfig
에 전달합니다.