数据存储区

数据存储区数据存储区代理 从您的数据中寻找最终用户问题的答案。 数据存储区是网站和文档的集合, 每个文件都会引用您的数据

当最终用户向客服人员提问时, 代理从指定的源内容中搜索答案 并将结果汇总为连贯的代理响应。 它还提供了一些指向资源来源的辅助性链接, 以便最终用户的响应。 代理最多可为给定问题提供五个答案片段。

数据存储区来源

您可以为数据提供不同的来源:

  • 网站网址: 自动从网域列表中抓取网站内容 或网页。
  • BigQuery: 从 BigQuery 表中导入数据
  • Cloud Storage: 从 Cloud Storage 存储桶导入数据

网站内容

将网站内容添加为来源时 您可以添加和排除多个网站。 指定网站时 您可以使用单个页面,也可以使用 * 作为模式的通配符。 系统会处理所有 HTML 和 PDF 内容。

您必须 验证域名

限制:

  • 来自公共网址的文件必须已被 Google 搜索索引器抓取, 以使它们存在于搜索索引中。 您可以使用 Google Search Console
  • 系统最多会将 20 万个网页编入索引。如果数据存储区包含 网页数增多时,索引编制会失败,但最后编入索引的内容仍会保留。

导入数据

您可以从 BigQuery 或 Cloud Storage 导入数据。 这些数据可以是结构化数据,也可以是非结构化数据。 也可以包含元数据不含元数据

您可以使用以下数据导入选项

  • 添加/更新数据: 提供的文档会添加到数据存储区中。 如果新文档的 ID 与旧文档的 ID 相同, 新文档将替换旧文档。
  • 覆盖现有数据: 所有旧数据都会被删除 系统就会上传新数据 此操作无法撤消。

结构化数据存储区

结构化数据存储区可以存储常见问题解答 (FAQ)。 当用户问题与上传的问题得到高置信度匹配的时, 代理会不做任何修改,直接返回该问题的答案。 您可以为每个问题和答案对提供标题和网址 显示的内容

将数据上传到数据存储区时,必须使用 CSV 格式。每个文件 必须具有描述列的标题行。

例如:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

titleurl 列是可选的,可以省略:

"answer","question"
"42","What is the meaning of life?"

在上传过程中 可以选择文件夹,其中每个文件都被视为 一个 CSV 文件(无论扩展名如何)。

限制:

  • , 后多余的空格字符会导致错误。
  • 空白行(即使是在文件末尾)会导致错误。

非结构化数据存储区

非结构化数据存储区可以包含以下格式的内容:

  • HTML
  • PDF
  • TXT
  • CSV

限制:

  • 对于基于文本的格式,文件大小上限为 2.5MB, 其他格式为 100 MB。

包含元数据的数据存储区

可以提供标题和网址作为元数据。 当代理与用户对话时 代理可以向用户提供这些信息。 这有助于用户 快速链接到 Google 搜索无法访问的内部网页 。

如需导入带有元数据的内容,请按以下步骤操作: 您需要提供一个或多个 JSON Lines 文件。 此文件中的每一行都描述一个文档。 您不能直接上传实际文件; 链接到 Cloud Storage 路径的 URI 在 JSON Lines 文件中提供。

提供 JSON Lines 文件时 您需要提供一个包含这些文件的 Cloud Storage 文件夹。 请勿将任何其他文件放入该文件夹中。

字段说明:

字段 类型 说明
id 字符串 文档的唯一标识符。
content.mimeType 字符串 文档的 MIME 类型。"application/pdf"和“text/html”。
content.uri 字符串 Cloud Storage 中文档的 URI。
content.structData 字符串 包含可选 titleurl 字段的单行 JSON 对象。

例如:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

不含元数据的数据存储区

此类内容没有元数据。 只需提供要导入的文档即可。 内容类型由文件扩展名决定。

解析和分块配置

根据具体的数据源 您或许能够将 解析和分块设置 Vertex AI Search 所定义。

创建数据存储区

如需创建数据存储区,请执行以下操作:

  1. 转到 Agent Builder 控制台:

    Agent Builder 控制台

  2. 从控制台下拉列表中选择您的项目。

  3. 阅读并同意服务条款,然后点击继续并激活 API

  4. 点击左侧导航栏中的数据存储区

  5. 点击 New Data Store(新建数据存储区)。

  6. 选择数据来源

  7. 启用 高级网站索引编制功能。 这是数据存储区代理所必需的。

  8. 提供数据和配置 为您选择的数据存储区来源创建文件。 您的数据存储区位置应与 代理位置

  9. 点击创建以创建数据存储区。

  10. (可选)设置数据存储区语言

    1. 在数据存储区列表中,点击您刚刚创建的数据存储区。
    2. 点击“修改” 按钮 来调整语言设置
    3. 选择一种语言,然后点击要应用的勾选。
  11. 验证您的网站域名

为数据存储区文档使用 Cloud Storage

如果您的内容不是公开的,建议您将内容存储在 Cloud Storage 中。在创建数据存储区文档时 您需要以如下形式提供 Cloud Storage 对象的网址: gs://bucket-name/folder-name. 文件夹中的每个文档都会添加到数据存储区。

创建 Cloud Storage 存储分区时,请注意以下几点:

按照 Cloud Storage 快速入门中的说明创建存储分区并上传文件。

语言

对于支持的语言, 请在数据存储区中 Dialogflow 语言参考

为获得最佳性能,建议使用单一语言创建数据存储区。

创建数据存储区后 您可以选择指定数据存储区语言 如果设置数据存储区语言 您可以将数据存储区连接到 数据存储区代理 针对其他语言进行了配置 例如: 您可以创建法语数据存储区 与英语客服人员联系。

支持的区域

对于受支持的区域: 请参阅 Dialogflow 区域参考