嵌入是文本、图片或视频的数值表示法,可捕捉输入之间的关系。机器学习模型(尤其是生成式 AI 模型)适用于通过识别大型数据集中的模式来创建嵌入。应用可以使用嵌入来处理和生成语言,识别特定于内容的复杂含义和语义关系。
Google Distributed Cloud (GDC) air-gapped 上的 Vertex AI 支持文本嵌入 API,用于处理英语和多语言文本输入。 文本嵌入的工作原理是将文本转换为浮点数数组(称为向量)。这些向量旨在捕获文本的含义。嵌入数组的长度称为向量的维度。 例如,一个文本段落可能由包含数百个维度的向量表示。然后,通过计算两段文本的向量表示法之间的数值距离,应用可以确定对象之间的相似度。
如需查看支持的模型的列表,请参阅嵌入模型。
如需查看支持的多语言列表,请参阅支持的文本嵌入语言。
文本嵌入应用场景
文本嵌入的一些常见应用场景包括:
- 语义搜索:按语义相似度排序搜索文本。
- 分类:返回属性与给定文本类似的商品的类别。
- 聚类:将文本属性与给定文本类似的项聚类。
- 离群值检测:返回文本属性与给定文本相关性最低的项。
- 对话界面:将可能生成类似回复(例如在对话级嵌入空间中)的句子组聚类。
示例应用场景:开发图书推荐聊天机器人
如果您想开发图书推荐聊天机器人,首先需使用深度神经网络 (DNN) 将每本图书转换为嵌入向量,其中一个嵌入向量表示一本书。您可以将书名或文本内容作为输入提供给 DNN。或者,您可以将这两项输入以及描述图书的任何其他元数据(例如类型)结合使用。
此示例中的嵌入内容可能包括数千个带有摘要和流派的书名。它可能具有艾米莉·勃朗特的《呼啸山庄》和简·奥斯汀的《劝说》等书籍的相似表示形式(数值表示形式之间的距离较小)。相比之下,弗·斯科特·菲茨杰拉德的《了不起的盖茨比》距离较远,因为时期、类型和摘要不太相似。
输入是影响嵌入空间方向的主要因素。例如,如果我们只有书名输入,则书名相似但摘要却截然不同的两本书的位置靠得很近。但是,如果添加书名和摘要,则这些相同的图书在嵌入空间中不那么相似(距离较远)。
使用生成式 AI 时,此图书建议聊天机器人可以根据您的查询总结、建议并向您展示您可能喜欢(或不喜欢)的图书。
后续步骤
- 了解如何获取文本嵌入。