微調 RAG 轉換

擷取文件後,Vertex AI RAG Engine 會執行一連串的轉換作業,為資料建立索引。您可以使用下列參數控管用途:

參數 說明
chunk_size 將文件擷取至索引時,系統會將文件分割成多個區塊。chunk_size 參數 (以權杖為單位) 會指定區塊大小。預設的區塊大小為 1,024 個權杖。
chunk_overlap 根據預設,文件會分割成一定程度重疊的分塊,有助於提高關聯性和擷取品質。預設的區塊重疊部分為 256 個權杖。

分塊大小越小,表示嵌入項目的內容越精確。分塊越大,代表內容較為廣泛,不過可能會遺漏具體細節。

舉例來說,如果將 1,000 字的內容轉換為 200 字的嵌入陣列,可能會遺失詳細資料。每個區塊的嵌入容量都是固定的。如果文字量很大,可能無法放入小視窗模型。

後續步驟