- 资源:DataStore
- JSON 表示法
- AdvancedSiteSearchConfig
- LanguageInfo
- NaturalLanguageQueryUnderstandingConfig
- Mode
- BillingEstimation
- WorkspaceConfig
- DocumentProcessingConfig
- ChunkingConfig
- LayoutBasedChunkingConfig
- ParsingConfig
- DigitalParsingConfig
- OcrParsingConfig
- LayoutParsingConfig
- ServingConfigDataStore
- ConfigurableBillingApproach
- 方法
资源:DataStore
DataStore 会在数据存储区级别捕获全局设置和配置。
| JSON 表示法 |
|---|
{ "name": string, "displayName": string, "industryVertical": enum ( |
| 字段 | |
|---|---|
name |
不可变。标识符。数据存储区的完整资源名称。格式: 此字段必须是采用 UTF-8 编码的字符串,长度上限为 1024 个字符。 |
displayName |
必需。数据存储区的显示名称。 此字段必须是采用 UTF-8 编码的字符串,长度上限为 128 个字符。否则,系统会返回 INVALID_ARGUMENT 错误。 |
industryVertical |
不可变。数据存储区所注册的垂直行业。 |
solutionTypes[] |
数据存储区所注册的解决方案。每种
|
defaultSchemaId |
仅限输出。与相应数据存储区关联的默认 |
contentConfig |
不可变。数据存储区的内容配置。如果未设置此字段,服务器行为将默认为 |
createTime |
仅限输出。创建 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
advancedSiteSearchConfig |
可选。高级网站搜索的配置。 |
languageInfo |
数据存储区的语言信息。 |
naturalLanguageQueryUnderstandingConfig |
可选。自然语言查询理解配置。 |
kmsKeyName |
仅限输入。创建相应数据存储区时设置的用于保护该数据存储区的 KMS 密钥。 必须针对需要遵守 CMEK 组织政策保护的请求进行设置。 如果此字段已成功设置并处理,则数据存储区将受 cmekConfig 字段中指定的 KMS 密钥保护。 |
cmekConfig |
仅限输出。数据存储区的 CMEK 相关信息。 |
idpConfig |
仅限输出。数据存储区级身份提供方配置。 |
billingEstimation |
仅限输出。用于结算用途的数据大小估算值。 |
aclEnabled |
不可变。指示 如果为 目前,ACL 仅在 |
workspaceConfig |
用于存储工作区数据的数据存储区类型配置的配置。当 |
documentProcessingConfig |
文档理解和丰富化功能的配置。 |
startingSchema |
在预配相应 此字段仅供 系统会根据有关架构的某些规则验证所提供的架构。如需了解详情,请参阅此文档。 |
healthcareFhirConfig |
可选。 |
servingConfigDataStore |
可选。在数据存储区级存储服务配置。 |
identityMappingStore |
不可变。所关联 |
isInfobotFaqDataStore |
可选。如果设置,则此数据存储区是一个 Infobot FAQ 数据存储区。 |
configurableBillingApproach |
可选。可配置结算方式的配置。请参阅 |
AdvancedSiteSearchConfig
高级网站搜索的配置数据。
| JSON 表示法 |
|---|
{ "disableInitialIndex": boolean, "disableAutomaticRefresh": boolean } |
| 字段 | |
|---|---|
disableInitialIndex |
如果设置为 true,则停用数据存储区的初始索引编制。 |
disableAutomaticRefresh |
如果设置为 true,则停用数据存储区的自动刷新。 |
LanguageInfo
数据存储区的语言信息。
| JSON 表示法 |
|---|
{ "languageCode": string, "normalizedLanguageCode": string, "language": string, "region": string } |
| 字段 | |
|---|---|
languageCode |
数据存储区的语言代码。 |
normalizedLanguageCode |
仅限输出。这是 languageCode 的标准化形式。例如: |
language |
仅限输出。normalizedLanguageCode 的语言部分。E.g.: |
region |
仅限输出。normalizedLanguageCode 的地区部分(如果有)。E.g.: |
NaturalLanguageQueryUnderstandingConfig
自然语言查询理解配置。
| JSON 表示法 |
|---|
{
"mode": enum ( |
| 字段 | |
|---|---|
mode |
自然语言查询理解模式。如果未设置此字段,行为将默认为 |
模式
自然语言查询理解模式。当 NaturalLanguageQueryUnderstandingConfig.Mode 为 ENABLED 时,如果 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 为 ENABLED,则会为搜索请求启用自然语言理解功能。
| 枚举 | |
|---|---|
MODE_UNSPECIFIED |
默认值。 |
DISABLED |
自然语言查询理解功能已停用。 |
ENABLED |
自然语言查询理解功能已启用。 |
BillingEstimation
每个数据存储区的数据大小估算。
| JSON 表示法 |
|---|
{ "structuredDataSize": string, "unstructuredDataSize": string, "websiteDataSize": string, "structuredDataUpdateTime": string, "unstructuredDataUpdateTime": string, "websiteDataUpdateTime": string } |
| 字段 | |
|---|---|
structuredDataSize |
结构化数据的大小(以字节为单位)。 |
unstructuredDataSize |
非结构化数据的大小(以字节为单位)。 |
websiteDataSize |
网站数据的大小(以字节为单位)。 |
structuredDataUpdateTime |
上次更新结构化数据时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
unstructuredDataUpdateTime |
上次更新非结构化数据时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
websiteDataUpdateTime |
上次更新网站数据时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
WorkspaceConfig
用于存储工作区数据的数据存储区类型配置的配置
| JSON 表示法 |
|---|
{
"type": enum ( |
| 字段 | |
|---|---|
type |
Google Workspace 数据源。 |
dasherCustomerId |
混淆处理后的 Dasher 客户 ID。 |
superAdminServiceAccount |
可选。用于生成访问令牌的 Workspace 超级用户服务账号。目前仅将其用于原生 Google 云端硬盘连接器的数据注入。 |
superAdminEmailAddress |
可选。用于生成访问令牌的 Workspace 超级用户邮箱。目前仅将其用于原生 Google 云端硬盘连接器的数据注入。 |
DocumentProcessingConfig
DataStore 的单例资源。如果在创建 DataStore 时该字段为空,且 DataStore 设置为 DataStore.ContentConfig.CONTENT_REQUIRED,则默认解析器将默认为数字解析器。
| JSON 表示法 |
|---|
{ "name": string, "chunkingConfig": { object ( |
| 字段 | |
|---|---|
name |
文档处理配置的完整资源名称。格式: |
chunkingConfig |
指示分块模式是否已启用。 |
defaultParsingConfig |
默认文档解析器的配置。如果未指定,我们会将其配置为默认的 DigitalParsingConfig,并且默认解析配置将应用于所有文件类型的文档解析。 |
parsingConfigOverrides |
从文件类型到基于文件类型替换默认解析配置的映射。支持的键:
|
ChunkingConfig
分块配置的配置。
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 chunk_mode。用于定义分块行为的其他配置。chunk_mode 只能是下列其中一项: |
|
layoutBasedChunkingConfig |
基于布局的分块的配置。 |
LayoutBasedChunkingConfig
基于布局的分块的配置。
| JSON 表示法 |
|---|
{ "chunkSize": integer, "includeAncestorHeadings": boolean } |
| 字段 | |
|---|---|
chunkSize |
每个块的 token 大小限制。 支持的值:100-500(含)。默认值:500。 |
includeAncestorHeadings |
指示是否包含将不同级别的标头附加到文档中间的块,以防止上下文丢失。 默认值:false。 |
ParsingConfig
应用于特定类型文档解析器的相关配置。
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 type_dedicated_config。文档处理类型的配置。type_dedicated_config 只能是下列其中一项: |
|
digitalParsingConfig |
应用于数字解析器的配置。 |
ocrParsingConfig |
应用于 OCR 解析器的配置。目前仅适用于 PDF。 |
layoutParsingConfig |
应用于布局解析器的配置。 |
DigitalParsingConfig
此类型没有字段。
文档的数字解析配置。
OcrParsingConfig
文档的 OCR 解析配置。
| JSON 表示法 |
|---|
{ "enhancedDocumentElements": [ string ], "useNativeText": boolean } |
| 字段 | |
|---|---|
enhancedDocumentElements[] |
[已弃用] 此字段已弃用。如需使用额外的增强文档元素处理,请切换到 |
useNativeText |
如果为 true,则在包含原生文本的页面上使用原生文本而不是 OCR 文本。 |
LayoutParsingConfig
文档的布局解析配置。
| JSON 表示法 |
|---|
{ "enableTableAnnotation": boolean, "enableImageAnnotation": boolean, "structuredContentTypes": [ string ], "excludeHtmlElements": [ string ], "excludeHtmlClasses": [ string ], "excludeHtmlIds": [ string ], "enableGetProcessedDocument": boolean } |
| 字段 | |
|---|---|
enableTableAnnotation |
可选。如果为 true,则在解析期间将基于 LLM 的注解添加到表中。 |
enableImageAnnotation |
可选。如果为 true,则在解析期间将基于 LLM 的注解添加到图片中。 |
structuredContentTypes[] |
可选。包含要从文档中提取的所需结构类型。支持的值:
|
excludeHtmlElements[] |
可选。要从解析内容中排除的 HTML 元素的列表。 |
excludeHtmlClasses[] |
可选。要从解析内容中排除的 HTML 类的列表。 |
excludeHtmlIds[] |
可选。要从解析内容中排除的 HTML ID 的列表。 |
enableGetProcessedDocument |
可选。如果为 true,则处理后的文档将可用于 GetProcessedDocument API。 |
ServingConfigDataStore
在数据存储区级别存储有关服务配置的信息。
| JSON 表示法 |
|---|
{ "disabledForServing": boolean } |
| 字段 | |
|---|---|
disabledForServing |
可选。如果设置为 true,则数据存储区将无法用于处理搜索请求。 |
ConfigurableBillingApproach
可配置结算方式的配置。
| 枚举 | |
|---|---|
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED |
默认值。用于 Spark 和非 Spark 不可配置结算方式。 |
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE |
对非嵌入存储的索引核心使用“基本订阅 + 超额费用”的结算方式。 |
CONFIGURABLE_CONSUMPTION_EMBEDDING |
对嵌入存储插件使用按用量随用随付的结算方式。 |
方法 |
|
|---|---|
|
使用“建议的关键字”功能补全指定用户输入。 |
|
创建 DataStore。 |
|
删除一个 DataStore。 |
|
获取 DataStore。 |
|
获取一个 CompletionConfig |
|
获取 DocumentProcessingConfig。 |
|
获取 SiteSearchEngine。 |
|
列出与项目关联的所有 DataStore。 |
|
更新一个 DataStore |
|
训练一个自定义模型。 |
|
更新 CompletionConfig。 |
|
更新 DocumentProcessingConfig。 |