此页面由 Cloud Translation API 翻译。

REST Resource: projects.locations.collections.dataStores

资源：DataStore
方法

资源：DataStore

DataStore 在 DataStore 级别捕获全局设置和配置。

JSON 表示法

JSON 表示法
{ "name": string, "displayName": string, "industryVertical": enum (`IndustryVertical`), "solutionTypes": [ enum (`SolutionType`) ], "defaultSchemaId": string, "contentConfig": enum (`ContentConfig`), "createTime": string, "advancedSiteSearchConfig": { object (`AdvancedSiteSearchConfig`) }, "languageInfo": { object (`LanguageInfo`) }, "naturalLanguageQueryUnderstandingConfig": { object (`NaturalLanguageQueryUnderstandingConfig`) }, "kmsKeyName": string, "cmekConfig": { object (`CmekConfig`) }, "billingEstimation": { object (`BillingEstimation`) }, "aclEnabled": boolean, "workspaceConfig": { object (`WorkspaceConfig`) }, "documentProcessingConfig": { object (`DocumentProcessingConfig`) }, "startingSchema": { object (`Schema`) }, "healthcareFhirConfig": { object (`HealthcareFhirConfig`) }, "servingConfigDataStore": { object (`ServingConfigDataStore`) }, "identityMappingStore": string, "isInfobotFaqDataStore": boolean, "configurableBillingApproach": enum (`ConfigurableBillingApproach`) }

{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}

字段
`name`	`string` 不可变。标识符。数据存储区的完整资源名称。格式：`projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}`。此字段必须是采用 UTF-8 编码的字符串，长度上限为 1024 个字符。
`displayName`	`string` 必需。数据存储区显示名。此字段必须是 UTF-8 编码的字符串，长度限制为 128 个字符。否则，系统会返回 INVALID_ARGUMENT 错误。
`industryVertical`	`enum (IndustryVertical)` 不可变。数据存储区注册的行业垂直领域。
`solutionTypes[]`	`enum (SolutionType)` 数据存储区注册的解决方案。每种 `industryVertical` 的可用解决方案： `MEDIA`：`SOLUTION_TYPE_RECOMMENDATION` 和 `SOLUTION_TYPE_SEARCH`。 `SITE_SEARCH`：系统会自动注册 `SOLUTION_TYPE_SEARCH`。其他解决方案无法加入。
`defaultSchemaId`	`string` 仅限输出。与此数据存储区关联的默认 `Schema` 的 ID。
`contentConfig`	`enum (ContentConfig)` 不可变。数据存储区的内容配置。如果未设置此字段，服务器行为将默认为 `ContentConfig.NO_CONTENT`。
`createTime`	`string (Timestamp format)` 仅限输出。`DataStore` 的创建时间戳。采用 RFC 3339 标准，生成的输出将始终进行 Z 规范化（即转换为 UTC 零时区格式并在末尾附加 Z），并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例：`"2014-10-02T15:01:23Z"`、`"2014-10-02T15:01:23.045123456Z"` 或 `"2014-10-02T15:01:23+05:30"`
`advancedSiteSearchConfig`	`object (AdvancedSiteSearchConfig)` 可选。高级网站搜索的配置。
`languageInfo`	`object (LanguageInfo)` DataStore 的语言信息。
`naturalLanguageQueryUnderstandingConfig`	`object (NaturalLanguageQueryUnderstandingConfig)` 可选。自然语言查询理解的配置。
`kmsKeyName`	`string` 仅限输入。创建时用于保护此 DataStore 的 KMS 密钥。必须针对需要遵守 CMEK 组织政策保护的请求进行设置。如果此字段已设置并成功处理，则 DataStore 将受 cmekConfig 字段中指示的 KMS 密钥保护。
`cmekConfig`	`object (CmekConfig)` 仅限输出。DataStore 的 CMEK 相关信息。
`billingEstimation`	`object (BillingEstimation)` 仅限输出。用于结算的数据大小估算。
`aclEnabled`	`boolean` 不可变。`DataStore` 中的数据是否具有 ACL 信息。如果设置为 `true`，则源数据必须具有 ACL。当通过 `DocumentService.ImportDocuments` 方法提取数据时，系统会提取 ACL。当为 `DataStore` 启用 ACL 时，无法通过调用 `DocumentService.GetDocument` 或 `DocumentService.ListDocuments` 来访问 `Document`。目前，ACL 仅在 `GENERIC` 行业垂直领域中支持，且内容配置为非 `PUBLIC_WEBSITE`。
`workspaceConfig`	`object (WorkspaceConfig)` 用于存储工作区数据的数据存储区类型配置的配置。当 `DataStore.content_config` 设置为 `DataStore.ContentConfig.GOOGLE_WORKSPACE` 时，必须设置此参数。
`documentProcessingConfig`	`object (DocumentProcessingConfig)` 文档理解和丰富功能的配置。
`startingSchema`	`object (Schema)` 在配置 `DataStore` 时要使用的起始架构。如果未设置，系统将使用默认的垂直专业化架构。此字段仅供 `dataStores.create` API 使用，如果用于其他 API，则会被忽略。此字段将从所有 API 响应（包括 `dataStores.create` API）中省略。如需检索 `DataStore` 的架构，请改用 `SchemaService.GetSchema` API。系统会根据有关架构的某些规则验证所提供的架构。如需了解详情，请参阅此文档。
`healthcareFhirConfig`	`object (HealthcareFhirConfig)` 可选。`HEALTHCARE_FHIR` 垂直领域的配置。
`servingConfigDataStore`	`object (ServingConfigDataStore)` 可选。在 DataStore 级层存储投放配置。
`identityMappingStore`	`string` 不可变。关联的 `IdentityMappingStore` 的完全限定资源名称。此字段只能针对具有 `THIRD_PARTY` 或 `GSUITE` IdP 的 aclEnabled DataStore 进行设置。格式：`projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}`。
`isInfobotFaqDataStore`	`boolean` 可选。如果设置，则此 DataStore 为 Infobot FAQ DataStore。
`configurableBillingApproach`	`enum (ConfigurableBillingApproach)` 可选。可配置结算方式的配置。请参阅

ContentConfig

数据存储区的内容配置。

枚举
`CONTENT_CONFIG_UNSPECIFIED`	默认值。
`NO_CONTENT`	仅包含没有任何 `Document.content` 的文档。
`CONTENT_REQUIRED`	仅包含具有 `Document.content` 的文档。
`PUBLIC_WEBSITE`	数据存储区用于公开网站搜索。
`GOOGLE_WORKSPACE`	数据存储区用于工作区搜索。工作区数据存储区的详细信息在 `WorkspaceConfig` 中指定。

AdvancedSiteSearchConfig

高级网站搜索的配置数据。

JSON 表示法
{ "disableInitialIndex": boolean, "disableAutomaticRefresh": boolean }

字段

字段
`disableInitialIndex`	`boolean` 如果设置为 true，则为 DataStore 停用初始索引编制。
`disableAutomaticRefresh`	`boolean` 如果设置为 true，则会为 DataStore 停用自动刷新。

disableInitialIndex

boolean

如果设置为 true，则为 DataStore 停用初始索引编制。

disableAutomaticRefresh

boolean

如果设置为 true，则会为 DataStore 停用自动刷新。

LanguageInfo

DataStore 的语言信息。

JSON 表示法
{ "languageCode": string, "normalizedLanguageCode": string, "language": string, "region": string }

字段
`languageCode`	`string` DataStore 的语言代码。
`normalizedLanguageCode`	`string` 仅限输出。这是 languageCode 的规范化形式。例如：`en-GB`、`en_GB`、`en-UK` 或 `en-gb` 的 languageCode 将具有 `en-GB` 的 normalizedLanguageCode。
`language`	`string` 仅限输出。normalizedLanguageCode 的语言部分。例如：`en-US` -> `en`、`zh-Hans-HK` -> `zh`、`en` -> `en`。
`region`	`string` 仅限输出。标准化 languageCode 的地区部分（如果有）。例如：`en-US` -> `US`、`zh-Hans-HK` -> `HK`、`en` -> ``。

NaturalLanguageQueryUnderstandingConfig

自然语言查询理解的配置。

JSON 表示法
{ "mode": enum (`Mode`) }

字段

字段
`mode`	`enum (Mode)` 自然语言查询理解模式。如果此字段未设置，行为将默认为 `NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED`。

mode

enum (Mode)

自然语言查询理解模式。如果此字段未设置，行为将默认为 NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED。

模式

自然语言查询理解模式。当 NaturalLanguageQueryUnderstandingConfig.Mode 为 ENABLED 时，如果 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 为 ENABLED，则会为搜索请求启用自然语言理解功能。

枚举
`MODE_UNSPECIFIED`	默认值。
`DISABLED`	自然语言查询理解功能已停用。
`ENABLED`	自然语言查询理解已启用。

BillingEstimation

每个数据存储区的数据大小估计值。

JSON 表示法
{ "structuredDataSize": string, "unstructuredDataSize": string, "websiteDataSize": string, "structuredDataUpdateTime": string, "unstructuredDataUpdateTime": string, "websiteDataUpdateTime": string }

字段
`structuredDataSize`	`string (int64 format)` 结构化数据的数据大小（以字节为单位）。
`unstructuredDataSize`	`string (int64 format)` 非结构化数据的数据大小（以字节为单位）。
`websiteDataSize`	`string (int64 format)` 网站的数据大小（以字节为单位）。
`structuredDataUpdateTime`	`string (Timestamp format)` 结构化数据的上次更新时间戳。采用 RFC 3339 标准，生成的输出将始终进行 Z 规范化（即转换为 UTC 零时区格式并在末尾附加 Z），并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例：`"2014-10-02T15:01:23Z"`、`"2014-10-02T15:01:23.045123456Z"` 或 `"2014-10-02T15:01:23+05:30"`。
`unstructuredDataUpdateTime`	`string (Timestamp format)` 非结构化数据的上次更新时间戳。采用 RFC 3339 标准，生成的输出将始终进行 Z 规范化（即转换为 UTC 零时区格式并在末尾附加 Z），并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例：`"2014-10-02T15:01:23Z"`、`"2014-10-02T15:01:23.045123456Z"` 或 `"2014-10-02T15:01:23+05:30"`。
`websiteDataUpdateTime`	`string (Timestamp format)` 网站的上次更新时间戳。采用 RFC 3339 标准，生成的输出将始终进行 Z 规范化（即转换为 UTC 零时区格式并在末尾附加 Z），并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例：`"2014-10-02T15:01:23Z"`、`"2014-10-02T15:01:23.045123456Z"` 或 `"2014-10-02T15:01:23+05:30"`。

WorkspaceConfig

用于存储工作区数据的数据存储区类型配置的配置

JSON 表示法
{ "type": enum (`Type`), "dasherCustomerId": string, "superAdminServiceAccount": string, "superAdminEmailAddress": string }

字段
`type`	`enum (Type)` Google Workspace 数据源。
`dasherCustomerId`	`string` 模糊处理的 Dasher 客户 ID。
`superAdminServiceAccount`	`string` 可选。将用于生成访问令牌的工作区的超级用户服务账号。目前，我们仅将其用于原生 Google 云端硬盘连接器数据注入。
`superAdminEmailAddress`	`string` 可选。将用于生成访问令牌的工作区的超级管理员电子邮件地址。目前，我们仅将其用于原生 Google 云端硬盘连接器数据注入。

类型

指定相应 DataStore 支持的 Workspace 应用类型

枚举
`TYPE_UNSPECIFIED`	默认值为未指定的工作区类型。
`GOOGLE_DRIVE`	Workspace 数据存储区包含云端硬盘数据
`GOOGLE_MAIL`	Workspace 数据存储区包含邮件数据
`GOOGLE_SITES`	Workspace 数据存储区包含 Google 协作平台数据
`GOOGLE_CALENDAR`	Workspace 数据存储区包含日历数据
`GOOGLE_CHAT`	Workspace 数据存储区包含 Chat 数据
`GOOGLE_GROUPS`	Workspace 数据存储区包含 Google 群组数据
`GOOGLE_KEEP`	Workspace 数据存储区包含 Keep 数据
`GOOGLE_PEOPLE`	Workspace 数据存储区包含人员数据

DocumentProcessingConfig

DataStore 的单例资源。如果在创建 DataStore 时该字段为空，且 DataStore 设置为 DataStore.ContentConfig.CONTENT_REQUIRED，则默认解析器将默认使用数字解析器。

JSON 表示法
{ "name": string, "chunkingConfig": { object (`ChunkingConfig`) }, "defaultParsingConfig": { object (`ParsingConfig`) }, "parsingConfigOverrides": { string: { object (`ParsingConfig`) }, ... } }

字段
`name`	`string` 文档处理配置的完整资源名称。格式：`projects//locations//collections//dataStores//documentProcessingConfig`。
`chunkingConfig`	`object (ChunkingConfig)` 分块模式是否已启用。
`defaultParsingConfig`	`object (ParsingConfig)` 默认文档解析器的配置。如果未指定，我们将按默认 DigitalParsingConfig 进行配置，并且默认解析配置将应用于文档解析的所有文件类型。
`parsingConfigOverrides`	`map (key: string, value: object (ParsingConfig))` 从文件类型到覆盖默认解析配置的映射（基于文件类型）。支持的密钥： `pdf`：替换 PDF 文件的解析配置，支持数字解析、OCR 解析或布局解析。 `html`：替换 HTML 文件的解析配置，仅支持数字解析和布局解析。 `docx`：替换 DOCX 文件的解析配置，仅支持数字解析和布局解析。 `pptx`：替换 PPTX 文件的解析配置，仅支持数字解析和布局解析。 `xlsm`：替换 XLSM 文件的解析配置，仅支持数字解析和布局解析。 `xlsx`：替换 XLSX 文件的解析配置，仅支持数字解析和布局解析。

ChunkingConfig

分块配置的配置。

JSON 表示法
{ // Union field `chunk_mode` can be only one of the following: "layoutBasedChunkingConfig": { object (`LayoutBasedChunkingConfig`) } // End of list of possible types for union field `chunk_mode`. }

字段

字段
联合字段 `chunk_mode`。用于定义分块行为的其他配置。`chunk_mode` 只能是下列其中一项：
`layoutBasedChunkingConfig`	`object (LayoutBasedChunkingConfig)` 基于布局的分块的配置。

联合字段 chunk_mode。用于定义分块行为的其他配置。chunk_mode 只能是下列其中一项：

layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

基于布局的分块的配置。

LayoutBasedChunkingConfig

基于布局的分块的配置。

JSON 表示法
{ "chunkSize": integer, "includeAncestorHeadings": boolean }

字段

字段
`chunkSize`	`integer` 每个块的令牌大小限制。支持的值：100-500（含）。默认值：500。
`includeAncestorHeadings`	`boolean` 是否在从文档中间部分创建的分块中附加不同级别的标题，以防止丢失上下文。默认值：False。

chunkSize

integer

每个块的令牌大小限制。

支持的值：100-500（含）。默认值：500。

includeAncestorHeadings

boolean

是否在从文档中间部分创建的分块中附加不同级别的标题，以防止丢失上下文。

默认值：False。

ParsingConfig

应用于特定类型的文档解析器的相关配置。

JSON 表示法

JSON 表示法
{ // Union field `type_dedicated_config` can be only one of the following: "digitalParsingConfig": { object (`DigitalParsingConfig`) }, "ocrParsingConfig": { object (`OcrParsingConfig`) }, "layoutParsingConfig": { object (`LayoutParsingConfig`) } // End of list of possible types for union field `type_dedicated_config`. }

{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}

字段
联合字段 `type_dedicated_config`。文档处理类型的配置。`type_dedicated_config` 只能是下列其中一项：
`digitalParsingConfig`	`object (DigitalParsingConfig)` 已应用于数字解析器的配置。
`ocrParsingConfig`	`object (OcrParsingConfig)` 应用于 OCR 解析器的配置。目前，此功能仅适用于 PDF 文件。
`layoutParsingConfig`	`object (LayoutParsingConfig)` 应用于布局解析器的配置。

DigitalParsingConfig

此类型没有字段。

文档的数字化解析配置。

OcrParsingConfig

文档的 OCR 解析配置。

JSON 表示法
{ "enhancedDocumentElements": [ string ], "useNativeText": boolean }

字段

字段
`enhancedDocumentElements[] (deprecated)`	`string` 此项已弃用！ [已弃用] 此字段已弃用。如需使用其他增强型文档元素处理功能，请切换到 `layoutParsingConfig`。
`useNativeText`	`boolean` 如果为 true，则在包含原生文本的网页上使用原生文本，而不是 OCR 文本。

enhancedDocumentElements[]
(deprecated)

string

[已弃用] 此字段已弃用。如需使用其他增强型文档元素处理功能，请切换到 layoutParsingConfig。

useNativeText

boolean

如果为 true，则在包含原生文本的网页上使用原生文本，而不是 OCR 文本。

LayoutParsingConfig

文档的布局解析配置。

JSON 表示法
{ "enableTableAnnotation": boolean, "enableImageAnnotation": boolean, "structuredContentTypes": [ string ], "excludeHtmlElements": [ string ], "excludeHtmlClasses": [ string ], "excludeHtmlIds": [ string ], "enableGetProcessedDocument": boolean }

JSON 表示法

{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}

字段
`enableTableAnnotation`	`boolean` 可选。如果为 true，系统会在解析期间，将基于 LLM 的注解添加到表格。
`enableImageAnnotation`	`boolean` 可选。如果为 true，系统会在解析期间，将基于 LLM 的注解添加到图片。
`structuredContentTypes[]`	`string` 可选。包含要从文档中提取的必需结构类型。支持的值： `shareholder-structure`
`excludeHtmlElements[]`	`string` 可选。要从已解析的内容中排除的 HTML 元素的列表。
`excludeHtmlClasses[]`	`string` 可选。要从解析的内容中排除的 HTML 类列表。
`excludeHtmlIds[]`	`string` 可选。要从已解析的内容中排除的 HTML ID 列表。
`enableGetProcessedDocument`	`boolean` 可选。如果为 true，则处理后的文档将可用于 GetProcessedDocument API。

HealthcareFhirConfig

针对 HEALTHCARE_FHIR 垂直行业的数据存储区配置。

JSON 表示法
{ "enableConfigurableSchema": boolean, "enableStaticIndexingForBatchIngestion": boolean }

字段

字段
`enableConfigurableSchema`	`boolean` 是否为 `HEALTHCARE_FHIR` 纵向启用可配置的架构。如果设置为 `true`，则可以扩展预定义的医疗保健 FHIR 架构，以实现更自定义的搜索和过滤。
`enableStaticIndexingForBatchIngestion`	`boolean` 是否为 `HEALTHCARE_FHIR` 批次提取启用静态索引。如果设置为 `true`，批量提取将以静态索引模式处理，这种模式速度较慢，但能够处理更大的量。

enableConfigurableSchema

boolean

是否为 HEALTHCARE_FHIR 纵向启用可配置的架构。

如果设置为 true，则可以扩展预定义的医疗保健 FHIR 架构，以实现更自定义的搜索和过滤。

enableStaticIndexingForBatchIngestion

boolean

是否为 HEALTHCARE_FHIR 批次提取启用静态索引。

如果设置为 true，批量提取将以静态索引模式处理，这种模式速度较慢，但能够处理更大的量。

ServingConfigDataStore

在 DataStore 级别存储有关服务配置的信息。

JSON 表示法
{ "disabledForServing": boolean }

字段

字段
`disabledForServing`	`boolean` 可选。如果设置为 true，则 DataStore 将无法用于处理搜索请求。

disabledForServing

boolean

可选。如果设置为 true，则 DataStore 将无法用于处理搜索请求。

ConfigurableBillingApproach

可配置结算方式的配置。

枚举
`CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED`	默认值。适用于 Spark 和非 Spark 不可配置的结算方式。
`CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE`	对于非嵌入存储空间，使用订阅基础费用 + 超额使用费结算方式来结算索引核心费用。
`CONFIGURABLE_CONSUMPTION_EMBEDDING`	使用按用量付费的嵌入式存储空间加购项。

方法
`completeQuery`	使用关键字建议补全指定的用户输入内容。
`create`	创建 `DataStore`。
`delete`	删除 `DataStore`。
`get`	获取 `DataStore`。
`getSiteSearchEngine`	获取 `SiteSearchEngine`。
`list`	列出与项目关联的所有 `DataStore`。
`patch`	更新 `DataStore`
`trainCustomModel`	训练自定义模型。

REST Resource: projects.locations.collections.dataStores

资源：DataStore

ContentConfig

AdvancedSiteSearchConfig

LanguageInfo

NaturalLanguageQueryUnderstandingConfig

模式

BillingEstimation

WorkspaceConfig

类型

DocumentProcessingConfig

ChunkingConfig

LayoutBasedChunkingConfig

ParsingConfig

DigitalParsingConfig

OcrParsingConfig

LayoutParsingConfig

HealthcareFhirConfig

ServingConfigDataStore

ConfigurableBillingApproach

方法

`completeQuery`

`create`

`delete`

`get`

`getSiteSearchEngine`

`list`

`patch`

`trainCustomModel`