REST Resource: projects.locations.collections.dataStores

资源:DataStore

DataStore 会在数据存储区级别捕获全局设置和配置。

JSON 表示法
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
字段
name

string

不可变。标识符。数据存储区的完整资源名称。格式:projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}

此字段必须是采用 UTF-8 编码的字符串,长度上限为 1024 个字符。

displayName

string

必需。数据存储区的显示名称。

此字段必须是采用 UTF-8 编码的字符串,长度上限为 128 个字符。否则,系统会返回 INVALID_ARGUMENT 错误。

industryVertical

enum (IndustryVertical)

不可变。数据存储区所注册的垂直行业。

solutionTypes[]

enum (SolutionType)

数据存储区所注册的解决方案。每种 industryVertical 的可用解决方案:

  • MEDIASOLUTION_TYPE_RECOMMENDATIONSOLUTION_TYPE_SEARCH
  • SITE_SEARCH:系统会自动注册 SOLUTION_TYPE_SEARCH;无法注册其他解决方案。
defaultSchemaId

string

仅限输出。与相应数据存储区关联的默认 Schema 的 ID。

contentConfig

enum (ContentConfig)

不可变。数据存储区的内容配置。如果未设置此字段,服务器行为将默认为 ContentConfig.NO_CONTENT

createTime

string (Timestamp format)

仅限输出。创建 DataStore 时的时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

可选。高级网站搜索的配置。

kmsKeyName

string

仅限输入。创建相应数据存储区时设置的用于保护该数据存储区的 KMS 密钥。

必须针对需要遵守 CMEK 组织政策保护的请求进行设置。

如果此字段已成功设置并处理,则数据存储区将受 cmekConfig 字段中指定的 KMS 密钥保护。

cmekConfig

object (CmekConfig)

仅限输出。数据存储区的 CMEK 相关信息。

billingEstimation

object (BillingEstimation)

仅限输出。用于结算用途的数据大小估算值。

aclEnabled

boolean

不可变。指示 DataStore 中的数据是否包含 ACL 信息。如果设置为 true,则源数据必须包含 ACL。当通过 DocumentService.ImportDocuments 方法提取数据时,ACL 会一并提取。

如果为 DataStore 启用了 ACL,则无法通过调用 DocumentService.GetDocumentDocumentService.ListDocuments 来访问 Document

目前,ACL 仅在 GENERIC 垂直行业受支持,且内容配置需要为非 PUBLIC_WEBSITE

workspaceConfig

object (WorkspaceConfig)

用于存储工作区数据的数据存储区类型配置的配置。当 DataStore.content_config 设置为 DataStore.ContentConfig.GOOGLE_WORKSPACE 时,必须设置此字段。

documentProcessingConfig

object (DocumentProcessingConfig)

文档理解和丰富化功能的配置。

startingSchema

object (Schema)

在预配相应 DataStore 时要使用的初始架构。如果未设置,系统将使用相应垂直领域默认的专用架构。

此字段仅供 dataStores.create API 使用,在其他 API 中使用时将被忽略。在所有 API 响应中(包括 dataStores.create API 的响应),此字段都将被省略。如要检索 DataStore 的架构,请改用 SchemaService.GetSchema API。

系统会根据有关架构的某些规则验证所提供的架构。如需了解详情,请参阅此文档

healthcareFhirConfig

object (HealthcareFhirConfig)

可选。HEALTHCARE_FHIR 垂直领域的配置。

servingConfigDataStore

object (ServingConfigDataStore)

可选。在数据存储区级存储服务配置。

identityMappingStore

string

不可变。所关联 IdentityMappingStore 的完全限定资源名称。此字段只能针对具有 THIRD_PARTYGSUITE IdP 的 aclEnabled 数据存储区进行设置。格式:projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}

isInfobotFaqDataStore

boolean

可选。如果设置,则此数据存储区是一个 Infobot FAQ 数据存储区。

configurableBillingApproach

enum (ConfigurableBillingApproach)

可选。可配置结算方式的配置。请参阅

ContentConfig

数据存储区的内容配置。

枚举
CONTENT_CONFIG_UNSPECIFIED 默认值。
NO_CONTENT 仅包含不含任何 Document.content 的文档。
CONTENT_REQUIRED 仅包含带有 Document.content 的文档。
PUBLIC_WEBSITE 数据存储区用于公开网站搜索。
GOOGLE_WORKSPACE 数据存储区用于工作区搜索。工作区数据存储区的详细信息在 WorkspaceConfig 中指定。

AdvancedSiteSearchConfig

高级网站搜索的配置数据。

JSON 表示法
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
字段
disableInitialIndex

boolean

如果设置为 true,则停用数据存储区的初始索引编制。

disableAutomaticRefresh

boolean

如果设置为 true,则停用数据存储区的自动刷新。

BillingEstimation

每个数据存储区的数据大小估算。

JSON 表示法
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
字段
structuredDataSize

string (int64 format)

结构化数据的大小(以字节为单位)。

unstructuredDataSize

string (int64 format)

非结构化数据的大小(以字节为单位)。

websiteDataSize

string (int64 format)

网站数据的大小(以字节为单位)。

structuredDataUpdateTime

string (Timestamp format)

上次更新结构化数据时的时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

unstructuredDataUpdateTime

string (Timestamp format)

上次更新非结构化数据时的时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

websiteDataUpdateTime

string (Timestamp format)

上次更新网站数据时的时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

WorkspaceConfig

用于存储工作区数据的数据存储区类型配置的配置

JSON 表示法
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
字段
type

enum (Type)

Google Workspace 数据源。

dasherCustomerId

string

混淆处理后的 Dasher 客户 ID。

superAdminServiceAccount

string

可选。用于生成访问令牌的 Workspace 超级用户服务账号。目前仅将其用于原生 Google 云端硬盘连接器的数据注入。

superAdminEmailAddress

string

可选。用于生成访问令牌的 Workspace 超级用户邮箱。目前仅将其用于原生 Google 云端硬盘连接器的数据注入。

类型

指定相应数据存储区支持的 Workspace 应用类型

枚举
TYPE_UNSPECIFIED 默认为 Workspace 类型未指定。
GOOGLE_DRIVE Workspace 数据存储区包含 Google 云端硬盘数据
GOOGLE_MAIL Workspace 数据存储区包含邮件数据
GOOGLE_SITES Workspace 数据存储区包含 Google 协作平台数据
GOOGLE_CALENDAR Workspace 数据存储区包含 Google 日历数据
GOOGLE_CHAT Workspace 数据存储区包含 Google Chat 数据
GOOGLE_GROUPS Workspace 数据存储区包含 Google 群组数据
GOOGLE_KEEP Workspace 数据存储区包含 Google Keep 数据
GOOGLE_PEOPLE Workspace 数据存储区包含人员数据

DocumentProcessingConfig

DataStore 的单例资源。如果在创建 DataStore 时该字段为空,且 DataStore 设置为 DataStore.ContentConfig.CONTENT_REQUIRED,则默认解析器将默认为数字解析器。

JSON 表示法
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
字段
name

string

文档处理配置的完整资源名称。格式:projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig

chunkingConfig

object (ChunkingConfig)

指示分块模式是否已启用。

defaultParsingConfig

object (ParsingConfig)

默认文档解析器的配置。如果未指定,我们会将其配置为默认的 DigitalParsingConfig,并且默认解析配置将应用于所有文件类型的文档解析。

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

从文件类型到基于文件类型替换默认解析配置的映射。支持的键:

  • pdf:替换 PDF 文件的解析配置,支持数字解析、OCR 解析或布局解析。
  • html:替换 HTML 文件的解析配置,仅支持数字解析和布局解析。
  • docx:替换 DOCX 文件的解析配置,仅支持数字解析和布局解析。
  • pptx:替换 PPTX 文件的解析配置,仅支持数字解析和布局解析。
  • xlsm:替换 XLSM 文件的解析配置,仅支持数字解析和布局解析。
  • xlsx:替换 XLSX 文件的解析配置,仅支持数字解析和布局解析。

ChunkingConfig

分块配置的配置。

JSON 表示法
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
字段
联合字段 chunk_mode。用于定义分块行为的其他配置。chunk_mode 只能是下列其中一项:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

基于布局的分块的配置。

LayoutBasedChunkingConfig

基于布局的分块的配置。

JSON 表示法
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
字段
chunkSize

integer

每个块的 token 大小限制。

支持的值:100-500(含)。默认值:500。

includeAncestorHeadings

boolean

指示是否包含将不同级别的标头附加到文档中间的块,以防止上下文丢失。

默认值:false。

ParsingConfig

应用于特定类型文档解析器的相关配置。

JSON 表示法
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
字段
联合字段 type_dedicated_config。文档处理类型的配置。type_dedicated_config 只能是下列其中一项:
digitalParsingConfig

object (DigitalParsingConfig)

应用于数字解析器的配置。

ocrParsingConfig

object (OcrParsingConfig)

应用于 OCR 解析器的配置。目前仅适用于 PDF。

layoutParsingConfig

object (LayoutParsingConfig)

应用于布局解析器的配置。

DigitalParsingConfig

此类型没有字段。

文档的数字解析配置。

OcrParsingConfig

文档的 OCR 解析配置。

JSON 表示法
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
字段
enhancedDocumentElements[]
(deprecated)

string

[已弃用] 此字段已弃用。如需使用额外的增强文档元素处理,请切换到 layoutParsingConfig

useNativeText

boolean

如果为 true,则在包含原生文本的页面上使用原生文本而不是 OCR 文本。

LayoutParsingConfig

文档的布局解析配置。

JSON 表示法
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
字段
enableTableAnnotation

boolean

可选。如果为 true,则在解析期间将基于 LLM 的注解添加到表中。

enableImageAnnotation

boolean

可选。如果为 true,则在解析期间将基于 LLM 的注解添加到图片中。

structuredContentTypes[]

string

可选。包含要从文档中提取的所需结构类型。支持的值:

  • shareholder-structure
excludeHtmlElements[]

string

可选。要从解析内容中排除的 HTML 元素的列表。

excludeHtmlClasses[]

string

可选。要从解析内容中排除的 HTML 类的列表。

excludeHtmlIds[]

string

可选。要从解析内容中排除的 HTML ID 的列表。

enableGetProcessedDocument

boolean

可选。如果为 true,则处理后的文档将可用于 GetProcessedDocument API。

HealthcareFhirConfig

用于 HEALTHCARE_FHIR 垂直行业的数据存储区的配置。

JSON 表示法
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
字段
enableConfigurableSchema

boolean

指示是否针对 HEALTHCARE_FHIR 垂直行业启用可配置的架构。

如果设置为 true,则可以扩展预定义的医疗保健 FHIR 架构,以实现自定义程度更高的搜索和过滤。

enableStaticIndexingForBatchIngestion

boolean

指示是否针对 HEALTHCARE_FHIR 批量注入启用静态索引编制。

如果设置为 true,则批量注入将以静态索引编制模式处理;这种模式速度较慢,但能够处理更大的数据量。

ServingConfigDataStore

在数据存储区级别存储有关服务配置的信息。

JSON 表示法
{
  "disabledForServing": boolean
}
字段
disabledForServing

boolean

可选。如果设置为 true,则数据存储区将无法用于处理搜索请求。

ConfigurableBillingApproach

可配置结算方式的配置。

枚举
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED 默认值。用于 Spark 和非 Spark 不可配置结算方式。
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE 对非嵌入存储的索引核心使用“基本订阅 + 超额费用”的结算方式。
CONFIGURABLE_CONSUMPTION_EMBEDDING 对嵌入存储插件使用按用量随用随付的结算方式。

方法

completeQuery

使用“建议的关键字”功能补全指定用户输入。

create

创建 DataStore

delete

删除一个 DataStore

get

获取 DataStore

getSiteSearchEngine

获取 SiteSearchEngine

list

列出与项目关联的所有 DataStore

patch

更新一个 DataStore

trainCustomModel

训练一个自定义模型。