文本嵌入概览

嵌入是文本、图片或视频的数值表示法，可捕捉输入之间的关系。机器学习模型（尤其是生成式 AI 模型）适用于通过识别大型数据集中的模式来创建嵌入。应用可以使用嵌入来处理和生成语言，识别特定于内容的复杂含义和语义关系。

Google Distributed Cloud (GDC) air-gapped 上的 Vertex AI 支持文本嵌入 API，用于处理英语和多语言文本输入。文本嵌入的工作原理是将文本转换为浮点数数组（称为向量）。这些向量旨在捕获文本的含义。嵌入数组的长度称为向量的维度。例如，一个文本段落可能由包含数百个维度的向量表示。然后，通过计算两段文本的向量表示法之间的数值距离，应用可以确定对象之间的相似度。

如需查看支持的模型的列表，请参阅嵌入模型。

如需查看支持的多语言列表，请参阅支持的文本嵌入语言。

文本嵌入应用场景

文本嵌入的一些常见应用场景包括：

语义搜索：按语义相似度排序搜索文本。
分类：返回属性与给定文本类似的商品的类别。
聚类：将文本属性与给定文本类似的项聚类。
离群值检测：返回文本属性与给定文本相关性最低的项。
对话界面：将可能生成类似回复（例如在对话级嵌入空间中）的句子组聚类。

示例应用场景：开发图书推荐聊天机器人

如果您想开发图书推荐聊天机器人，首先需使用深度神经网络 (DNN) 将每本图书转换为嵌入向量，其中一个嵌入向量表示一本书。您可以将书名或文本内容作为输入提供给 DNN。或者，您可以将这两项输入以及描述图书的任何其他元数据（例如类型）结合使用。

此示例中的嵌入内容可能包括数千个带有摘要和流派的书名。它可能具有艾米莉·勃朗特的《呼啸山庄》和简·奥斯汀的《劝说》等书籍的相似表示形式（数值表示形式之间的距离较小）。相比之下，弗·斯科特·菲茨杰拉德的《了不起的盖茨比》距离较远，因为时期、类型和摘要不太相似。

输入是影响嵌入空间方向的主要因素。例如，如果我们只有书名输入，则书名相似但摘要却截然不同的两本书的位置靠得很近。但是，如果添加书名和摘要，则这些相同的图书在嵌入空间中不那么相似（距离较远）。

使用生成式 AI 时，此图书建议聊天机器人可以根据您的查询总结、建议并向您展示您可能喜欢（或不喜欢）的图书。

后续步骤

了解如何获取文本嵌入。