REST Resource: projects.locations.collections.dataStores

资源：DataStore
方法

资源：DataStore

DataStore 会在数据存储区级别捕获全局设置和配置。

JSON 表示法

JSON 表示法
{ "name": string, "displayName": string, "industryVertical": enum (`IndustryVertical`), "solutionTypes": [ enum (`SolutionType`) ], "defaultSchemaId": string, "contentConfig": enum (`ContentConfig`), "createTime": string, "advancedSiteSearchConfig": { object (`AdvancedSiteSearchConfig`) }, "languageInfo": { object (`LanguageInfo`) }, "naturalLanguageQueryUnderstandingConfig": { object (`NaturalLanguageQueryUnderstandingConfig`) }, "kmsKeyName": string, "cmekConfig": { object (`CmekConfig`) }, "idpConfig": { object (`IdpConfig`) }, "billingEstimation": { object (`BillingEstimation`) }, "aclEnabled": boolean, "workspaceConfig": { object (`WorkspaceConfig`) }, "documentProcessingConfig": { object (`DocumentProcessingConfig`) }, "startingSchema": { object (`Schema`) }, "healthcareFhirConfig": { object (`HealthcareFhirConfig`) }, "servingConfigDataStore": { object (`ServingConfigDataStore`) }, "identityMappingStore": string, "isInfobotFaqDataStore": boolean, "configurableBillingApproach": enum (`ConfigurableBillingApproach`) }

{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "idpConfig": {
    object (IdpConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}

字段
`name`	`string` 不可变。标识符。数据存储区的完整资源名称。格式：`projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}`。此字段必须是采用 UTF-8 编码的字符串，长度上限为 1024 个字符。
`displayName`	`string` 必需。数据存储区的显示名称。此字段必须是采用 UTF-8 编码的字符串，长度上限为 128 个字符。否则，系统会返回 INVALID_ARGUMENT 错误。
`industryVertical`	`enum (IndustryVertical)` 不可变。数据存储区所注册的垂直行业。
`solutionTypes[]`	`enum (SolutionType)` 数据存储区所注册的解决方案。每种 `industryVertical` 的可用解决方案： `MEDIA`：`SOLUTION_TYPE_RECOMMENDATION` 和 `SOLUTION_TYPE_SEARCH`。 `SITE_SEARCH`：系统会自动注册 `SOLUTION_TYPE_SEARCH`；无法注册其他解决方案。
`defaultSchemaId`	`string` 仅限输出。与相应数据存储区关联的默认 `Schema` 的 ID。
`contentConfig`	`enum (ContentConfig)` 不可变。数据存储区的内容配置。如果未设置此字段，服务器行为将默认为 `ContentConfig.NO_CONTENT`。
`createTime`	`string (Timestamp format)` 仅限输出。创建 `DataStore` 时的时间戳。采用 RFC 3339 标准，生成的输出将始终进行 Z 规范化（即转换为 UTC 零时区格式并在末尾附加 Z），并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例：`"2014-10-02T15:01:23Z"`、`"2014-10-02T15:01:23.045123456Z"` 或 `"2014-10-02T15:01:23+05:30"`
`advancedSiteSearchConfig`	`object (AdvancedSiteSearchConfig)` 可选。高级网站搜索的配置。
`languageInfo`	`object (LanguageInfo)` 数据存储区的语言信息。
`naturalLanguageQueryUnderstandingConfig`	`object (NaturalLanguageQueryUnderstandingConfig)` 可选。自然语言查询理解配置。
`kmsKeyName`	`string` 仅限输入。创建相应数据存储区时设置的用于保护该数据存储区的 KMS 密钥。必须针对需要遵守 CMEK 组织政策保护的请求进行设置。如果此字段已成功设置并处理，则数据存储区将受 cmekConfig 字段中指定的 KMS 密钥保护。
`cmekConfig`	`object (CmekConfig)` 仅限输出。数据存储区的 CMEK 相关信息。
`idpConfig`	`object (IdpConfig)` 仅限输出。数据存储区级身份提供方配置。
`billingEstimation`	`object (BillingEstimation)` 仅限输出。用于结算用途的数据大小估算值。
`aclEnabled`	`boolean` 不可变。指示 `DataStore` 中的数据是否包含 ACL 信息。如果设置为 `true`，则源数据必须包含 ACL。当通过 `DocumentService.ImportDocuments` 方法提取数据时，ACL 会一并提取。如果为 `DataStore` 启用了 ACL，则无法通过调用 `DocumentService.GetDocument` 或 `DocumentService.ListDocuments` 来访问 `Document`。目前，ACL 仅在 `GENERIC` 垂直行业受支持，且内容配置需要为非 `PUBLIC_WEBSITE`。
`workspaceConfig`	`object (WorkspaceConfig)` 用于存储工作区数据的数据存储区类型配置的配置。当 `DataStore.content_config` 设置为 `DataStore.ContentConfig.GOOGLE_WORKSPACE` 时，必须设置此字段。
`documentProcessingConfig`	`object (DocumentProcessingConfig)` 文档理解和丰富化功能的配置。
`startingSchema`	`object (Schema)` 在预配相应 `DataStore` 时要使用的初始架构。如果未设置，系统将使用相应垂直领域默认的专用架构。此字段仅供 `dataStores.create` API 使用，在其他 API 中使用时将被忽略。在所有 API 响应中（包括 `dataStores.create` API 的响应），此字段都将被省略。如要检索 `DataStore` 的架构，请改用 `SchemaService.GetSchema` API。系统会根据有关架构的某些规则验证所提供的架构。如需了解详情，请参阅此文档。
`healthcareFhirConfig`	`object (HealthcareFhirConfig)` 可选。`HEALTHCARE_FHIR` 垂直领域的配置。
`servingConfigDataStore`	`object (ServingConfigDataStore)` 可选。在数据存储区级存储服务配置。
`identityMappingStore`	`string` 不可变。所关联 `IdentityMappingStore` 的完全限定资源名称。此字段只能针对具有 `THIRD_PARTY` 或 `GSUITE` IdP 的 aclEnabled 数据存储区进行设置。格式：`projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}`。
`isInfobotFaqDataStore`	`boolean` 可选。如果设置，则此数据存储区是一个 Infobot FAQ 数据存储区。
`configurableBillingApproach`	`enum (ConfigurableBillingApproach)` 可选。可配置结算方式的配置。请参阅

AdvancedSiteSearchConfig

高级网站搜索的配置数据。

JSON 表示法
{ "disableInitialIndex": boolean, "disableAutomaticRefresh": boolean }

字段

字段
`disableInitialIndex`	`boolean` 如果设置为 true，则停用数据存储区的初始索引编制。
`disableAutomaticRefresh`	`boolean` 如果设置为 true，则停用数据存储区的自动刷新。

disableInitialIndex

boolean

如果设置为 true，则停用数据存储区的初始索引编制。

disableAutomaticRefresh

boolean

如果设置为 true，则停用数据存储区的自动刷新。

LanguageInfo

数据存储区的语言信息。

JSON 表示法
{ "languageCode": string, "normalizedLanguageCode": string, "language": string, "region": string }

字段
`languageCode`	`string` 数据存储区的语言代码。
`normalizedLanguageCode`	`string` 仅限输出。这是 languageCode 的标准化形式。例如：`en-GB`、`en_GB`、`en-UK` 或 `en-gb` 的 languageCode 将具有 `en-GB` 的 normalizedLanguageCode。
`language`	`string` 仅限输出。normalizedLanguageCode 的语言部分。E.g.: `en-US` -> `en`、`zh-Hans-HK` -> `zh`、`en` -> `en`。
`region`	`string` 仅限输出。normalizedLanguageCode 的地区部分（如果有）。E.g.: `en-US` -> `US`、`zh-Hans-HK` -> `HK`、`en` -> ``。

NaturalLanguageQueryUnderstandingConfig

自然语言查询理解配置。

JSON 表示法
{ "mode": enum (`Mode`) }

字段

字段
`mode`	`enum (Mode)` 自然语言查询理解模式。如果未设置此字段，行为将默认为 `NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED`。

mode

enum (Mode)

自然语言查询理解模式。如果未设置此字段，行为将默认为 NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED。

模式

自然语言查询理解模式。当 NaturalLanguageQueryUnderstandingConfig.Mode 为 ENABLED 时，如果 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 为 ENABLED，则会为搜索请求启用自然语言理解功能。

枚举
`MODE_UNSPECIFIED`	默认值。
`DISABLED`	自然语言查询理解功能已停用。
`ENABLED`	自然语言查询理解功能已启用。

BillingEstimation

每个数据存储区的数据大小估算。

JSON 表示法
{ "structuredDataSize": string, "unstructuredDataSize": string, "websiteDataSize": string, "structuredDataUpdateTime": string, "unstructuredDataUpdateTime": string, "websiteDataUpdateTime": string }

字段
`structuredDataSize`	`string (int64 format)` 结构化数据的大小（以字节为单位）。
`unstructuredDataSize`	`string (int64 format)` 非结构化数据的大小（以字节为单位）。
`websiteDataSize`	`string (int64 format)` 网站数据的大小（以字节为单位）。
`structuredDataUpdateTime`	`string (Timestamp format)` 上次更新结构化数据时的时间戳。采用 RFC 3339 标准，生成的输出将始终进行 Z 规范化（即转换为 UTC 零时区格式并在末尾附加 Z），并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例：`"2014-10-02T15:01:23Z"`、`"2014-10-02T15:01:23.045123456Z"` 或 `"2014-10-02T15:01:23+05:30"`。
`unstructuredDataUpdateTime`	`string (Timestamp format)` 上次更新非结构化数据时的时间戳。采用 RFC 3339 标准，生成的输出将始终进行 Z 规范化（即转换为 UTC 零时区格式并在末尾附加 Z），并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例：`"2014-10-02T15:01:23Z"`、`"2014-10-02T15:01:23.045123456Z"` 或 `"2014-10-02T15:01:23+05:30"`。
`websiteDataUpdateTime`	`string (Timestamp format)` 上次更新网站数据时的时间戳。采用 RFC 3339 标准，生成的输出将始终进行 Z 规范化（即转换为 UTC 零时区格式并在末尾附加 Z），并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例：`"2014-10-02T15:01:23Z"`、`"2014-10-02T15:01:23.045123456Z"` 或 `"2014-10-02T15:01:23+05:30"`。

WorkspaceConfig

用于存储工作区数据的数据存储区类型配置的配置

JSON 表示法
{ "type": enum (`Type`), "dasherCustomerId": string, "superAdminServiceAccount": string, "superAdminEmailAddress": string }

字段
`type`	`enum (Type)` Google Workspace 数据源。
`dasherCustomerId`	`string` 混淆处理后的 Dasher 客户 ID。
`superAdminServiceAccount`	`string` 可选。用于生成访问令牌的 Workspace 超级用户服务账号。目前仅将其用于原生 Google 云端硬盘连接器的数据注入。
`superAdminEmailAddress`	`string` 可选。用于生成访问令牌的 Workspace 超级用户邮箱。目前仅将其用于原生 Google 云端硬盘连接器的数据注入。

DocumentProcessingConfig

DataStore 的单例资源。如果在创建 DataStore 时该字段为空，且 DataStore 设置为 DataStore.ContentConfig.CONTENT_REQUIRED，则默认解析器将默认为数字解析器。

JSON 表示法
{ "name": string, "chunkingConfig": { object (`ChunkingConfig`) }, "defaultParsingConfig": { object (`ParsingConfig`) }, "parsingConfigOverrides": { string: { object (`ParsingConfig`) }, ... } }

字段
`name`	`string` 文档处理配置的完整资源名称。格式：`projects//locations//collections//dataStores//documentProcessingConfig`。
`chunkingConfig`	`object (ChunkingConfig)` 指示分块模式是否已启用。
`defaultParsingConfig`	`object (ParsingConfig)` 默认文档解析器的配置。如果未指定，我们会将其配置为默认的 DigitalParsingConfig，并且默认解析配置将应用于所有文件类型的文档解析。
`parsingConfigOverrides`	`map (key: string, value: object (ParsingConfig))` 从文件类型到基于文件类型替换默认解析配置的映射。支持的键： `pdf`：替换 PDF 文件的解析配置，支持数字解析、OCR 解析或布局解析。 `html`：替换 HTML 文件的解析配置，仅支持数字解析和布局解析。 `docx`：替换 DOCX 文件的解析配置，仅支持数字解析和布局解析。 `pptx`：替换 PPTX 文件的解析配置，仅支持数字解析和布局解析。 `xlsm`：替换 XLSM 文件的解析配置，仅支持数字解析和布局解析。 `xlsx`：替换 XLSX 文件的解析配置，仅支持数字解析和布局解析。

ChunkingConfig

分块配置的配置。

JSON 表示法
{ // Union field `chunk_mode` can be only one of the following: "layoutBasedChunkingConfig": { object (`LayoutBasedChunkingConfig`) } // End of list of possible types for union field `chunk_mode`. }

字段

字段
联合字段 `chunk_mode`。用于定义分块行为的其他配置。`chunk_mode` 只能是下列其中一项：
`layoutBasedChunkingConfig`	`object (LayoutBasedChunkingConfig)` 基于布局的分块的配置。

联合字段 chunk_mode。用于定义分块行为的其他配置。chunk_mode 只能是下列其中一项：

layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

基于布局的分块的配置。

LayoutBasedChunkingConfig

基于布局的分块的配置。

JSON 表示法
{ "chunkSize": integer, "includeAncestorHeadings": boolean }

字段

字段
`chunkSize`	`integer` 每个块的 token 大小限制。支持的值：100-500（含）。默认值：500。
`includeAncestorHeadings`	`boolean` 指示是否包含将不同级别的标头附加到文档中间的块，以防止上下文丢失。默认值：false。

chunkSize

integer

每个块的 token 大小限制。

支持的值：100-500（含）。默认值：500。

includeAncestorHeadings

boolean

指示是否包含将不同级别的标头附加到文档中间的块，以防止上下文丢失。

默认值：false。

ParsingConfig

应用于特定类型文档解析器的相关配置。

JSON 表示法

JSON 表示法
{ // Union field `type_dedicated_config` can be only one of the following: "digitalParsingConfig": { object (`DigitalParsingConfig`) }, "ocrParsingConfig": { object (`OcrParsingConfig`) }, "layoutParsingConfig": { object (`LayoutParsingConfig`) } // End of list of possible types for union field `type_dedicated_config`. }

{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}

字段
联合字段 `type_dedicated_config`。文档处理类型的配置。`type_dedicated_config` 只能是下列其中一项：
`digitalParsingConfig`	`object (DigitalParsingConfig)` 应用于数字解析器的配置。
`ocrParsingConfig`	`object (OcrParsingConfig)` 应用于 OCR 解析器的配置。目前仅适用于 PDF。
`layoutParsingConfig`	`object (LayoutParsingConfig)` 应用于布局解析器的配置。

DigitalParsingConfig

此类型没有字段。

文档的数字解析配置。

OcrParsingConfig

文档的 OCR 解析配置。

JSON 表示法
{ "enhancedDocumentElements": [ string ], "useNativeText": boolean }

字段

字段
`enhancedDocumentElements[] (deprecated)`	`string` 此项已弃用！ [已弃用] 此字段已弃用。如需使用额外的增强文档元素处理，请切换到 `layoutParsingConfig`。
`useNativeText`	`boolean` 如果为 true，则在包含原生文本的页面上使用原生文本而不是 OCR 文本。

enhancedDocumentElements[]
(deprecated)

string

[已弃用] 此字段已弃用。如需使用额外的增强文档元素处理，请切换到 layoutParsingConfig。

useNativeText

boolean

如果为 true，则在包含原生文本的页面上使用原生文本而不是 OCR 文本。

LayoutParsingConfig

文档的布局解析配置。

JSON 表示法
{ "enableTableAnnotation": boolean, "enableImageAnnotation": boolean, "structuredContentTypes": [ string ], "excludeHtmlElements": [ string ], "excludeHtmlClasses": [ string ], "excludeHtmlIds": [ string ], "enableGetProcessedDocument": boolean }

JSON 表示法

{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}

字段
`enableTableAnnotation`	`boolean` 可选。如果为 true，则在解析期间将基于 LLM 的注解添加到表中。
`enableImageAnnotation`	`boolean` 可选。如果为 true，则在解析期间将基于 LLM 的注解添加到图片中。
`structuredContentTypes[]`	`string` 可选。包含要从文档中提取的所需结构类型。支持的值： `shareholder-structure`
`excludeHtmlElements[]`	`string` 可选。要从解析内容中排除的 HTML 元素的列表。
`excludeHtmlClasses[]`	`string` 可选。要从解析内容中排除的 HTML 类的列表。
`excludeHtmlIds[]`	`string` 可选。要从解析内容中排除的 HTML ID 的列表。
`enableGetProcessedDocument`	`boolean` 可选。如果为 true，则处理后的文档将可用于 GetProcessedDocument API。

ServingConfigDataStore

在数据存储区级别存储有关服务配置的信息。

JSON 表示法
{ "disabledForServing": boolean }

字段

字段
`disabledForServing`	`boolean` 可选。如果设置为 true，则数据存储区将无法用于处理搜索请求。

disabledForServing

boolean

可选。如果设置为 true，则数据存储区将无法用于处理搜索请求。

ConfigurableBillingApproach

可配置结算方式的配置。

枚举
`CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED`	默认值。用于 Spark 和非 Spark 不可配置结算方式。
`CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE`	对非嵌入存储的索引核心使用“基本订阅 + 超额费用”的结算方式。
`CONFIGURABLE_CONSUMPTION_EMBEDDING`	对嵌入存储插件使用按用量随用随付的结算方式。

方法
`completeQuery`	使用“建议的关键字”功能补全指定用户输入。
`create`	创建 `DataStore`。
`delete`	删除一个 `DataStore`。
`get`	获取 `DataStore`。
`getCompletionConfig`	获取一个 `CompletionConfig`
`getDocumentProcessingConfig`	获取 `DocumentProcessingConfig`。
`getSiteSearchEngine`	获取 `SiteSearchEngine`。
`list`	列出与项目关联的所有 `DataStore`。
`patch`	更新一个 `DataStore`
`trainCustomModel`	训练一个自定义模型。
`updateCompletionConfig`	更新 `CompletionConfig`。
`updateDocumentProcessingConfig`	更新 `DocumentProcessingConfig`。

REST Resource: projects.locations.collections.dataStores

资源：DataStore

AdvancedSiteSearchConfig

LanguageInfo

NaturalLanguageQueryUnderstandingConfig

模式

BillingEstimation

WorkspaceConfig

DocumentProcessingConfig

ChunkingConfig

LayoutBasedChunkingConfig

ParsingConfig

DigitalParsingConfig

OcrParsingConfig

LayoutParsingConfig

ServingConfigDataStore

ConfigurableBillingApproach

方法

`completeQuery`

`create`

`delete`

`get`

`getCompletionConfig`

`getDocumentProcessingConfig`

`getSiteSearchEngine`

`list`

`patch`

`trainCustomModel`

`updateCompletionConfig`

`updateDocumentProcessingConfig`