本页介绍了如何配置架构字段,以设置应用来处理结构化数据、包含元数据的非结构化数据,或包含自定义结构化属性的网站数据。
字段设置有助于确定 Vertex AI Search 如何在其结果中使用字段。您可以使用Google Cloud 控制台中的架构标签页来配置字段设置。
只有数据存储区包含结构化数据或包含带元数据的非结构化数据的应用才能配置字段设置。
字段设置
以下字段设置适用于搜索或推荐数据中的许多字段类型,但并非适用于所有数据类型。一个架构包含各个字段的多个字段设置,下表列出了可应用于架构中字段的设置。强烈建议为以下字段设置使用结构化数据:
设置 | 定义 | 用途 | 应用场景示例 |
---|---|---|---|
可编入索引 | 将字段设置为可编制索引后,便可对文档中的结构化字段执行过滤、提升和分面等操作。 类型为 |
将字段标记为 请注意,将字段标记为 | 在酒店数据存储区中,您可以将某个字段(例如 hotel_chain )设置为可编制索引。这样一来,您就可以对 hotel_chain 应用排名、过滤和加权操作。例如,您可以应用过滤条件,以便搜索仅显示包含过滤后的连锁酒店的搜索结果。 |
可搜索 | 最有可能与搜索相关的字段被指定为 只有包含文本值的字段才能标记为可搜索。因此,数字价格字段可以编入索引(用于过滤或分面),但不能作为全文进行搜索。 | 将字段设置为可搜索可提高该字段在搜索查询中的召回率,从而让用户能够通过查询这些字段中的文本来查找网页等内容。将字段标记为可搜索后,系统便可应用排名。因此,将过多的字段标记为可搜索可能会使排名算法过度饱和并返回过多的结果,从而对搜索精确度产生负面影响。这可能会导致搜索结果不相关。 | 某互联网服务提供商的支持服务工单系统将每个工单存储为结构化文档。如果这些文档包含可搜索的文本字段(例如 |
动态可分面 | 提供情境感知型过滤器,以便在搜索中更好地定位用户。将字段设置为 Dynamic Facetable 可让系统根据字段中存在的唯一值自动生成互动式过滤条件(分面)。 | 将某个字段设置为 Dynamic
facetable 后,用户可以直接选择从已提取的数据中派生的类别或属性,从而动态优化搜索结果,而无需手动预先定义每种可能的过滤条件。这样一来,用户便可将搜索范围缩小到高度特定的网络内容。 | 内部公司知识库(例如人力资源政策)中的网页会与 department 、document_type 或 last_modified_date 等数据一起被提取。如果这些字段标记为 dynamic facetable ,那么员工搜索“费用报销”等字词时,系统会根据找到的相关结果动态生成交互式过滤条件。在这种情况下,网页界面可以显示以下方面的分面:部门:财务、旅游、文档类型:政策、常见问题解答或上次修改日期:本季度、去年。 |
可检索 | 当搜索查询命中匹配内容时,搜索引擎可以提取可检索字段的值以供显示或在应用中使用,这意味着原始文档中的信息会显示为搜索结果的一部分。将键字段(文档的唯一标识符)设置为可检索。 | 可检索字段通过区分以下两种字段来提供搜索上下文:一种是其值可以显示的字段,另一种是仅用于搜索逻辑但其原始值不打算向最终用户显示的字段。 | 对于商家网站上的商品搜索,product_id 、name 、price 和 image_url 通常是您希望设置为可检索的字段。另一方面,internal_tracking_code 只能出于管理目的进行索引和过滤,但无法在公开搜索结果中检索。 |
可完成 | 允许将字段的内容用作搜索查询建议。如需了解详情,请参阅配置自动补全。 | 此设置可让系统在用户输入内容时使用相应字段中的值来提供实时查询建议。此功能可帮助引导用户找到相关内容,并加快搜索过程。某些因素(例如使用自然语言过滤)可能会影响此性能。 | 如果为 product_name 、brand 和 category 设置了 completable 字段,那么当用户输入 Tech 时,自动补全建议可以显示:
|
可过滤 | 允许推荐功能使用某个字段来过滤推荐结果,从而确定用户会看到哪些搜索结果。如需了解如何过滤建议,请参阅过滤建议。 | 将字段设置为 Filterable 有助于为用户自定义推荐内容。请注意,过滤条件存在限制。 |
按语言和戏剧过滤的过滤条件设置可能如下所示:language_code: ANY("en", "fr") OR categories: ANY("drama") 。 |
常用设置之间的区别
可编入索引、可搜索和可检索的字段设置之间存在一些主要区别。下表总结了这些差异。
功能 | 可编入索引 | 可搜索 | 可检索 |
---|---|---|---|
主要角色 | 使字段内容可供搜索引擎使用 | 允许针对字段内容进行全文查询 | 允许在搜索结果中返回字段的值 |
分析 | 内容经过处理后会放入索引中。 | 通常会进行广泛的词汇分析。 | 值按原样存储以供显示。 |
是否可以... | |||
...可搜索? | 是(通常是前提条件) | 无 | 不一定(即使无法搜索,也可以检索) |
…可检索? | 不一定 | 不一定 | 无 |
...是否可过滤/排序/用于生成商品详情? | 是(通常也是这些功能的先决条件) | 不能直接实现;这些是单独的属性,通常基于可编入索引的字段构建。 | 不能直接实现;这些属性与字段的索引和查询方式有关,而不仅仅是显示方式。 |
在实践中,许多对用户体验至关重要的字段(例如标题、说明和标识信息)通常设置为 indexable
、searchable
和 retrievable
。
限制
字段设置具有以下限制:
- 您最多可以将 50 个字段配置为可编入索引、可搜索或动态可分面。
- 您最多可以将 30 个字段配置为可检索。
- 如需将某个字段配置为动态可分面,必须先将其配置为可编入索引。
- 更改可编入索引的设置需要将数据重新编入索引,这可能需要数小时,尤其是对于大型数据存储区而言。
如果您要为媒体搜索应用配置字段,并希望详细了解架构中的字段,请参阅媒体文档和数据存储区简介。
更新字段设置
如需更新字段设置,请执行以下操作:
在 Google Cloud 控制台中,前往 AI Applications 页面。
点击要修改的应用的名称。
点击数据。
点击架构标签页。此标签页显示当前字段设置。
点击修改。
选择或清除需要更新的字段设置。不支持某些字段设置。例如,数值字段不能设置为可搜索。
点击保存以应用更改。