建立索引

本頁說明如何使用儲存的嵌入項目產生索引,以及如何使用 HNSW 索引查詢 AlloyDB for PostgreSQL 的嵌入項目。如要進一步瞭解如何儲存嵌入內容,請參閱「儲存向量嵌入內容」。

事前準備

開始建立索引前,請先完成下列必要條件。

建立 HNSW 索引

AlloyDB 支援使用 AlloyDB pgvector 擴充功能,建立以圖形為基礎的hnsw索引 ,適用於pgvector。使用 hnsw 索引會產生貪婪搜尋,在圖表中移動時,不斷尋找最接近查詢向量的鄰項,直到找到最佳結果為止。與 IVF 相比,這種方法可加快查詢效能,但建構時間較慢。

如要進一步瞭解 HNSW 演算法,請參閱「階層式可導覽小型世界圖形」。

如要建立 hnsw 索引,請執行下列查詢:

CREATE INDEX INDEX_NAME ON TABLE
  USING hnsw (EMBEDDING_COLUMN DISTANCE_FUNCTION)
  WITH (m = NUMBER_OF_CONNECTIONS, ef_construction = 'CANDIDATE_LIST_SIZE');

更改下列內容:

  • INDEX_NAME:要建立的索引名稱,例如 my-hnsw-index

  • TABLE:要新增索引的資料表。

  • EMBEDDING_COLUMN:儲存 vector 資料的資料欄。

  • DISTANCE_FUNCTION:要用於這個索引的距離函式。選擇下列其中一個選項:

    • L2 距離: vector_l2_ops

    • 內積: vector_ip_ops

    • 餘弦距離: vector_cosine_ops

  • NUMBER_OF_CONNECTIONS:圖表中每個節點的連線數量上限。您可以先將預設值設為 16,然後根據資料集大小,嘗試使用較高的值。

  • CANDIDATE_LIST_SIZE:圖表建構期間維護的候選清單大小,會不斷更新節點最近鄰居的目前最佳候選項目。請將這個值設為高於 m 值兩倍的任何值,例如 64

如要查看索引建立進度,請使用 pg_stat_progress_create_index 檢視畫面:

SELECT * FROM pg_stat_progress_create_index;

phase」欄會顯示目前建立索引的狀態,而「building graph」階段會在索引建立完成後消失。

如要調整索引,以達到目標召回率和每秒查詢次數平衡,請參閱「調整 hnsw 索引」。

執行查詢

將嵌入內容儲存並編入資料庫索引後,即可開始使用pgvector查詢功能進行查詢。

如要找出嵌入向量最鄰近的語意鄰項,可以執行下列查詢範例,並設定與建立索引時相同的距離函式。

  SELECT * FROM TABLE
    ORDER BY EMBEDDING_COLUMN DISTANCE_FUNCTION_QUERY ['EMBEDDING']
    LIMIT ROW_COUNT

更改下列內容:

  • TABLE:包含要與文字比較的嵌入內容的資料表。

  • INDEX_NAME:要使用的索引名稱,例如 my-hnsw-index

  • EMBEDDING_COLUMN:包含儲存的嵌入內容的資料欄。

  • DISTANCE_FUNCTION_QUERY:要用於這項查詢的距離函式。根據建立索引時使用的距離函式,選擇下列其中一項:

    • L2 距離: <->

    • 內積: <#>

    • 餘弦距離: <=>

  • EMBEDDING:您要找出最鄰近儲存語意鄰項的嵌入向量。

  • ROW_COUNT:要傳回的列數。

    如只要取得最佳單一比對結果,請指定 1

如要查看其他查詢範例,請參閱「查詢」。

您也可以使用 embedding() 函式將文字翻譯成向量。將向量套用至其中一個pgvector最鄰近運算子<-> (適用於 L2 距離),找出具有語意最相似嵌入項目的資料庫列。

由於 embedding() 會傳回 real 陣列,您必須明確將 embedding() 呼叫轉換為 vector,才能搭配 pgvector 運算子使用這些值。

後續步驟