本頁面由 Cloud Translation API 翻譯而成。

建立索引

本頁說明如何使用儲存的嵌入項目產生索引，以及如何使用 HNSW 索引查詢 AlloyDB for PostgreSQL 的嵌入項目。如要進一步瞭解如何儲存嵌入內容，請參閱「儲存向量嵌入內容」。

事前準備

開始建立索引前，請先完成下列必要條件。

嵌入向量會新增至 AlloyDB 資料庫的資料表。
已安裝以 pgvector 為基礎，由 Google 為 AlloyDB 擴充的 vector 擴充功能版本 0.5.0 以上版本。
```
CREATE EXTENSION IF NOT EXISTS vector;
```

建立 `HNSW` 索引

AlloyDB 支援使用 AlloyDB pgvector 擴充功能，建立以圖形為基礎的hnsw索引，適用於pgvector。使用 hnsw 索引會產生貪婪搜尋，在圖表中移動時，不斷尋找最接近查詢向量的鄰項，直到找到最佳結果為止。與 IVF 相比，這種方法可加快查詢效能，但建構時間較慢。

如要進一步瞭解 HNSW 演算法，請參閱「階層式可導覽小型世界圖形」。

如要建立 hnsw 索引，請執行下列查詢：

CREATE INDEX INDEX_NAME ON TABLE
  USING hnsw (EMBEDDING_COLUMN DISTANCE_FUNCTION)
  WITH (m = NUMBER_OF_CONNECTIONS, ef_construction = 'CANDIDATE_LIST_SIZE');

更改下列內容：

INDEX_NAME：要建立的索引名稱，例如 my-hnsw-index。
TABLE：要新增索引的資料表。
EMBEDDING_COLUMN：儲存 vector 資料的資料欄。
DISTANCE_FUNCTION：要用於這個索引的距離函式。選擇下列其中一個選項：
- L2 距離： vector_l2_ops
- 內積： vector_ip_ops
- 餘弦距離： vector_cosine_ops
NUMBER_OF_CONNECTIONS：圖表中每個節點的連線數量上限。您可以先將預設值設為 16，然後根據資料集大小，嘗試使用較高的值。
CANDIDATE_LIST_SIZE：圖表建構期間維護的候選清單大小，會不斷更新節點最近鄰居的目前最佳候選項目。請將這個值設為高於 m 值兩倍的任何值，例如 64。

如要查看索引建立進度，請使用 pg_stat_progress_create_index 檢視畫面：

SELECT * FROM pg_stat_progress_create_index;

「phase」欄會顯示目前建立索引的狀態，而「building graph」階段會在索引建立完成後消失。

如要調整索引，以達到目標召回率和每秒查詢次數平衡，請參閱「調整 hnsw 索引」。

執行查詢

將嵌入內容儲存並編入資料庫索引後，即可開始使用pgvector查詢功能進行查詢。

如要找出嵌入向量最鄰近的語意鄰項，可以執行下列查詢範例，並設定與建立索引時相同的距離函式。

  SELECT * FROM TABLE
    ORDER BY EMBEDDING_COLUMN DISTANCE_FUNCTION_QUERY ['EMBEDDING']
    LIMIT ROW_COUNT

更改下列內容：

TABLE：包含要與文字比較的嵌入內容的資料表。
INDEX_NAME：要使用的索引名稱，例如 my-hnsw-index。
EMBEDDING_COLUMN：包含儲存的嵌入內容的資料欄。
DISTANCE_FUNCTION_QUERY：要用於這項查詢的距離函式。根據建立索引時使用的距離函式，選擇下列其中一項：
- L2 距離： <->
- 內積： <#>
- 餘弦距離： <=>
EMBEDDING：您要找出最鄰近儲存語意鄰項的嵌入向量。
ROW_COUNT：要傳回的列數。

如只要取得最佳單一比對結果，請指定 1。

如要查看其他查詢範例，請參閱「查詢」。

您也可以使用 embedding() 函式將文字翻譯成向量。將向量套用至其中一個pgvector最鄰近運算子<-> (適用於 L2 距離)，找出具有語意最相似嵌入項目的資料庫列。

由於 embedding() 會傳回 real 陣列，您必須明確將 embedding() 呼叫轉換為 vector，才能搭配 pgvector 運算子使用這些值。

建立索引 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

事前準備

建立 HNSW 索引

執行查詢

後續步驟

建立索引

建立 `HNSW` 索引