嵌入是指以數值表示文字、圖像或影片,藉此掌握輸入內容之間的關係。機器學習模型 (尤其是生成式 AI 模型) 適合用來建立嵌入,方法是識別大型資料集中的模式。應用程式可使用嵌入項目處理及生成語言,辨識內容特有的複雜含意和語意關係。
Google Distributed Cloud (GDC) 氣隙隔離的 Vertex AI 支援英文和多語言文字輸入的 Text Embedding API。文字嵌入技術會將文字轉換為浮點數陣列 (稱為向量),這些向量旨在擷取文字的意義。嵌入陣列的長度稱為向量的維度。 舉例來說,一段文字可能以含有數百個維度的向量表示。接著,應用程式可以計算兩段文字向量表示法之間的數值距離,判斷物件之間的相似度。
如需支援的型號清單,請參閱「嵌入模型」。
如需支援的多語言清單,請參閱「支援的文字嵌入語言」。
文字嵌入的應用實例
文字嵌入的常見用途包括:
- 語意搜尋:搜尋按語意相似度排序的文字。
- 分類:傳回屬性與指定文字相似的項目類別。
- 分群:依據特定文字,將文字屬性相似的項目分群。
- 離群值偵測:傳回文字屬性與指定文字最不相關的項目。
- 對話式介面:將可產生類似回應的句子歸為一組,就像在對話層級的嵌入空間中一樣。
使用案例範例:開發書籍推薦聊天機器人
如要開發書籍推薦聊天機器人,首先要使用深層類神經網路 (DNN) 將每本書轉換為嵌入向量,其中一個嵌入向量代表一本書。您可以將書名或文字內容饋送到 DNN。或者,您也可以同時使用這兩項輸入內容,以及描述書籍的任何其他中繼資料,例如類型。
這個範例中的嵌入可能包含數千個書名、摘要和類型。例如,艾蜜莉勃朗特的《咆哮山莊》和珍奧斯汀的《勸服》可能會有相似的表示方式 (數值表示之間的距離很小)。相較之下,F. Scott Fitzgerald 的《大亨小傳》則是以數字表示。史考特費茲傑羅的距離會更遠,因為時間範圍、類型和摘要的相似度較低。
輸入內容是影響嵌入空間方向的主要因素。舉例來說,如果我們只有書籍標題輸入內容,那麼標題相似但摘要內容大相逕庭的兩本書,可能會彼此靠近。不過,如果我們加入書名和摘要,這些書籍在嵌入空間中的相似度就會降低 (距離較遠)。
這款書籍推薦聊天機器人運用生成式 AI,可根據你的查詢內容摘要、推薦及顯示你可能喜歡 (或不喜歡) 的書籍。
後續步驟
- 瞭解如何取得文字嵌入。