文字嵌入總覽

嵌入是指以數值表示文字、圖像或影片，藉此掌握輸入內容之間的關係。機器學習模型 (尤其是生成式 AI 模型) 適合用來建立嵌入，方法是識別大型資料集中的模式。應用程式可使用嵌入項目處理及生成語言，辨識內容特有的複雜含意和語意關係。

Google Distributed Cloud (GDC) 氣隙隔離的 Vertex AI 支援英文和多語言文字輸入的 Text Embedding API。文字嵌入技術會將文字轉換為浮點數陣列 (稱為向量)，這些向量旨在擷取文字的意義。嵌入陣列的長度稱為向量的維度。舉例來說，一段文字可能以含有數百個維度的向量表示。接著，應用程式可以計算兩段文字向量表示法之間的數值距離，判斷物件之間的相似度。

如需支援的型號清單，請參閱「嵌入模型」。

如需支援的多語言清單，請參閱「支援的文字嵌入語言」。

文字嵌入的應用實例

文字嵌入的常見用途包括：

語意搜尋：搜尋按語意相似度排序的文字。
分類：傳回屬性與指定文字相似的項目類別。
分群：依據特定文字，將文字屬性相似的項目分群。
離群值偵測：傳回文字屬性與指定文字最不相關的項目。
對話式介面：將可產生類似回應的句子歸為一組，就像在對話層級的嵌入空間中一樣。

使用案例範例：開發書籍推薦聊天機器人

如要開發書籍推薦聊天機器人，首先要使用深層類神經網路 (DNN) 將每本書轉換為嵌入向量，其中一個嵌入向量代表一本書。您可以將書名或文字內容饋送到 DNN。或者，您也可以同時使用這兩項輸入內容，以及描述書籍的任何其他中繼資料，例如類型。

這個範例中的嵌入可能包含數千個書名、摘要和類型。例如，艾蜜莉勃朗特的《咆哮山莊》和珍奧斯汀的《勸服》可能會有相似的表示方式 (數值表示之間的距離很小)。相較之下，F. Scott Fitzgerald 的《大亨小傳》則是以數字表示。史考特費茲傑羅的距離會更遠，因為時間範圍、類型和摘要的相似度較低。

輸入內容是影響嵌入空間方向的主要因素。舉例來說，如果我們只有書籍標題輸入內容，那麼標題相似但摘要內容大相逕庭的兩本書，可能會彼此靠近。不過，如果我們加入書名和摘要，這些書籍在嵌入空間中的相似度就會降低 (距離較遠)。

這款書籍推薦聊天機器人運用生成式 AI，可根據你的查詢內容摘要、推薦及顯示你可能喜歡 (或不喜歡) 的書籍。

後續步驟

瞭解如何取得文字嵌入。