数据存储区供 数据存储区代理 从您的数据中寻找最终用户问题的答案。 数据存储区是网站和文档的集合, 每个文件都会引用您的数据
当最终用户向客服人员提问时, 代理从指定的源内容中搜索答案 并将结果汇总为连贯的代理响应。 它还提供了一些指向资源来源的辅助性链接, 以便最终用户的响应。 代理最多可为给定问题提供五个答案片段。
数据存储区来源
您可以为数据提供不同的来源:
网站内容
将网站内容添加为来源时
您可以添加和排除多个网站。
指定网站时
您可以使用单个页面,也可以使用 *
作为模式的通配符。
系统会处理所有 HTML 和 PDF 内容。
您必须 验证域名 。
限制:
- 来自公共网址的文件必须已被 Google 搜索索引器抓取, 以使它们存在于搜索索引中。 您可以使用 Google Search Console。
- 系统最多会将 20 万个网页编入索引。如果数据存储区包含 网页数增多时,索引编制会失败,但最后编入索引的内容仍会保留。
导入数据
您可以从 BigQuery 或 Cloud Storage 导入数据。 这些数据可以是结构化数据,也可以是非结构化数据。 也可以包含元数据或 不含元数据。
您可以使用以下数据导入选项:
- 添加/更新数据: 提供的文档会添加到数据存储区中。 如果新文档的 ID 与旧文档的 ID 相同, 新文档将替换旧文档。
- 覆盖现有数据: 所有旧数据都会被删除 系统就会上传新数据 此操作无法撤消。
结构化数据存储区
结构化数据存储区可以存储常见问题解答 (FAQ)。 当用户问题与上传的问题得到高置信度匹配的时, 代理会不做任何修改,直接返回该问题的答案。 您可以为每个问题和答案对提供标题和网址 显示的内容
将数据上传到数据存储区时,必须使用 CSV 格式。每个文件 必须具有描述列的标题行。
例如:
"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""
title
和 url
列是可选的,可以省略:
"answer","question"
"42","What is the meaning of life?"
在上传过程中 可以选择文件夹,其中每个文件都被视为 一个 CSV 文件(无论扩展名如何)。
限制:
,
后多余的空格字符会导致错误。- 空白行(即使是在文件末尾)会导致错误。
非结构化数据存储区
非结构化数据存储区可以包含以下格式的内容:
- HTML
- TXT
- CSV
限制:
- 对于基于文本的格式,文件大小上限为 2.5MB, 其他格式为 100 MB。
包含元数据的数据存储区
可以提供标题和网址作为元数据。 当代理与用户对话时 代理可以向用户提供这些信息。 这有助于用户 快速链接到 Google 搜索无法访问的内部网页 。
如需导入带有元数据的内容,请按以下步骤操作: 您需要提供一个或多个 JSON Lines 文件。 此文件中的每一行都描述一个文档。 您不能直接上传实际文件; 链接到 Cloud Storage 路径的 URI 在 JSON Lines 文件中提供。
提供 JSON Lines 文件时 您需要提供一个包含这些文件的 Cloud Storage 文件夹。 请勿将任何其他文件放入该文件夹中。
字段说明:
字段 | 类型 | 说明 |
---|---|---|
id | 字符串 | 文档的唯一标识符。 |
content.mimeType | 字符串 | 文档的 MIME 类型。"application/pdf"和“text/html”。 |
content.uri | 字符串 | Cloud Storage 中文档的 URI。 |
content.structData | 字符串 | 包含可选 title 和 url 字段的单行 JSON 对象。 |
例如:
{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }
不含元数据的数据存储区
此类内容没有元数据。 只需提供要导入的文档即可。 内容类型由文件扩展名决定。
解析和分块配置
根据具体的数据源 您或许能够将 解析和分块设置 Vertex AI Search 所定义。
创建数据存储区
如需创建数据存储区,请执行以下操作:
转到 Agent Builder 控制台:
从控制台下拉列表中选择您的项目。
阅读并同意服务条款,然后点击继续并激活 API。
点击左侧导航栏中的数据存储区。
点击 New Data Store(新建数据存储区)。
选择数据来源。
启用 高级网站索引编制功能。 这是数据存储区代理所必需的。
提供数据和配置 为您选择的数据存储区来源创建文件。 您的数据存储区位置应与 代理位置。
点击创建以创建数据存储区。
(可选)设置数据存储区语言:
- 在数据存储区列表中,点击您刚刚创建的数据存储区。
- 点击“修改” 按钮 来调整语言设置
- 选择一种语言,然后点击要应用的勾选。
为数据存储区文档使用 Cloud Storage
如果您的内容不是公开的,建议您将内容存储在 Cloud Storage 中。在创建数据存储区文档时
您需要以如下形式提供 Cloud Storage 对象的网址:
gs://bucket-name/folder-name
.
文件夹中的每个文档都会添加到数据存储区。
创建 Cloud Storage 存储分区时,请注意以下几点:
- 请确保您已选择要使用的项目 代理。
- 使用 Standard 存储类别。
- 设置存储桶位置 与代理位于同一位置。
按照 Cloud Storage 快速入门中的说明创建存储分区并上传文件。
语言
对于支持的语言, 请在数据存储区中 Dialogflow 语言参考。
为获得最佳性能,建议使用单一语言创建数据存储区。
创建数据存储区后 您可以选择指定数据存储区语言 如果设置数据存储区语言 您可以将数据存储区连接到 数据存储区代理 针对其他语言进行了配置 例如: 您可以创建法语数据存储区 与英语客服人员联系。
支持的区域
对于受支持的区域: 请参阅 Dialogflow 区域参考。