数据存储区

数据存储区处理脚本Playbook 数据存储区工具会使用数据存储区从您的数据中查找最终用户问题的解答。数据存储区是一系列网站和文档,其中每个网站和文档都会引用您的数据。

当最终用户向客服人员提问时,客服人员会从给定的来源内容中搜索答案,并将结果汇总为连贯的客服人员回答。它还提供指向回答来源的支持链接,供最终用户了解详情。客服人员最多可以针对一个给定问题提供 5 个回答摘要。

数据存储区来源

您可以为数据提供不同的来源:

网站内容

将网站内容添加为来源时,您可以添加和排除多个网站。指定网站时,您可以使用单个网页或 * 作为模式的通配符。系统会处理所有 HTML 和 PDF 内容。

使用网站内容作为来源时,您必须验证您的网域

限制:

  • 来自公共网址的文件必须已被 Google 搜索索引器抓取,因此存在于搜索索引中。您可以使用 Google Search Console 检查是否满足此项要求。
  • 最多可以为 20 万个网页编制索引。如果数据存储区包含更多网页,则索引编制会失败,并且系统会保留上次编入索引的内容。

导入数据

您可以从 BigQuery 或 Cloud Storage 导入数据。此类数据可以是结构化数据,也可以是非结构化数据,还可以包含元数据不包含元数据

您可以使用以下数据导入选项

  • 添加/更新数据:提供的文档会添加到数据存储区。如果新文档的 ID 与旧文档的 ID 相同,则新文档会替换旧文档。
  • 覆盖现有数据:系统会删除所有旧数据,然后上传新数据。此操作无法撤消。

结构化数据存储区

结构化数据存储区可以存储常见问题解答 (FAQ)。 如果用户问题与上传的问题高度匹配,客服人员会返回该问题的答案,而无需进行任何修改。您可以为客服人员显示的每个问题和答案对提供标题和网址。

将数据上传到数据存储区时,必须使用 CSV 格式。每个文件都必须包含用于描述列的标题行。

例如:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

titleurl 列是可选的,可以忽略:

"answer","question"
"42","What is the meaning of life?"

在上传过程中,您可以选择一个文件夹,系统会将该文件夹中的每个文件都视为 CSV 文件,无论其扩展名为何。

限制:

  • , 后面的多余空格字符会导致错误。
  • 空白行(即使在文件末尾)也会导致错误。

非结构化数据存储区

非结构化数据存储区可以包含以下格式的内容:

  • HTML
  • PDF
  • TXT
  • CSV

限制:

  • 基于文本的格式文件大小上限为 2.5MB,其他格式文件大小上限为 100MB。

包含元数据的数据存储区

您可以将标题和网址作为元数据提供。当客服人员与用户对话时,可以向用户提供此类信息。这有助于用户快速链接到 Google 搜索索引编制工具无法访问的内部网页。

如需导入包含元数据的内容,您需要提供一个或多个 JSON 行文件。该文件中的每一行都描述一个文档。您无需直接上传实际文档;JSON 行文件中会提供指向 Cloud Storage 路径的 URI。

提供 JSON 行文件时,您需要提供包含这些文件的 Cloud Storage 文件夹。请勿在此文件夹中放置任何其他文件。

字段说明:

字段 类型 说明
id 字符串 文档的唯一标识符。
content.mimeType 字符串 文档的 MIME 类型。支持“application/pdf”和“text/html”。
content.uri 字符串 Cloud Storage 中文档的 URI。
structData 字符串 包含可选 titleurl 字段的单行 JSON 对象。

例如:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

不含元数据的数据存储区

此类内容没有元数据。 只需提供要导入的文件即可。 内容类型由文件扩展名决定。

解析和分块配置

根据数据源,您或许可以配置 Vertex AI Search 定义的解析和分块设置

创建数据存储区

如需创建数据存储区,请执行以下操作:

  1. 前往 Agent Builder 控制台:

    Agent Builder 控制台

  2. 从控制台下拉菜单中选择您的项目。

  3. 阅读并同意服务条款,然后点击继续并激活 API

  4. 点击左侧导航栏中的数据存储空间

  5. 点击新建数据存储区

  6. 选择数据

  7. 启用高级网站索引编制。数据存储区代理需要此属性。

  8. 为您选择的数据存储区来源提供数据和配置。您的数据存储区位置应与代理位置相符。

  9. 点击创建以创建数据存储区。

  10. 可选择设置数据存储区语言

    1. 在数据存储区列表中,点击您刚刚创建的数据存储区。
    2. 点击语言设置对应的修改 按钮。
    3. 选择一种语言,然后点击对勾以应用。
  11. 验证您的网站域名

将 Cloud Storage 用于数据存储区文档

如果您的内容不是公开的,建议您将内容存储在 Cloud Storage 中。创建数据存储区文档时,您需要以以下格式提供 Cloud Storage 对象的网址:gs://bucket-name/folder-name。文件夹中的每个文档都会添加到数据存储区。

创建 Cloud Storage 存储分区时,请注意以下几点:

按照 Cloud Storage 快速入门中的说明创建存储分区并上传文件。

语言

如需了解支持的语言,请参阅语言参考中的数据存储区列。

为了获得最佳性能,建议使用单一语言创建数据存储区。

创建数据存储区后,您可以选择指定数据存储区语言。如果您设置了数据存储区语言,则可以将数据存储区连接到配置为使用其他语言的代理。例如,您可以创建一个法语数据存储区,并将其与英语客服人员相关联。

支持的区域

如需了解支持的区域,请参阅区域参考文档