REST Resource: projects.locations.collections.dataStores

资源:DataStore

DataStore 在 DataStore 级别捕获全局设置和配置。

JSON 表示法
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "languageInfo": {
    object (LanguageInfo)
  },
  "naturalLanguageQueryUnderstandingConfig": {
    object (NaturalLanguageQueryUnderstandingConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
字段
name

string

不可变。标识符。数据存储区的完整资源名称。格式:projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}

此字段必须是采用 UTF-8 编码的字符串,长度上限为 1024 个字符。

displayName

string

必需。数据存储区显示名。

此字段必须是 UTF-8 编码的字符串,长度限制为 128 个字符。否则,系统会返回 INVALID_ARGUMENT 错误。

industryVertical

enum (IndustryVertical)

不可变。数据存储区注册的行业垂直领域。

solutionTypes[]

enum (SolutionType)

数据存储区注册的解决方案。每种 industryVertical 的可用解决方案:

  • MEDIASOLUTION_TYPE_RECOMMENDATIONSOLUTION_TYPE_SEARCH
  • SITE_SEARCH:系统会自动注册 SOLUTION_TYPE_SEARCH。其他解决方案无法加入。
defaultSchemaId

string

仅限输出。与此数据存储区关联的默认 Schema 的 ID。

contentConfig

enum (ContentConfig)

不可变。数据存储区的内容配置。如果未设置此字段,服务器行为将默认为 ContentConfig.NO_CONTENT

createTime

string (Timestamp format)

仅限输出。DataStore 的创建时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

可选。高级网站搜索的配置。

languageInfo

object (LanguageInfo)

DataStore 的语言信息。

naturalLanguageQueryUnderstandingConfig

object (NaturalLanguageQueryUnderstandingConfig)

可选。自然语言查询理解的配置。

kmsKeyName

string

仅限输入。创建时用于保护此 DataStore 的 KMS 密钥。

必须针对需要遵守 CMEK 组织政策保护的请求进行设置。

如果此字段已设置并成功处理,则 DataStore 将受 cmekConfig 字段中指示的 KMS 密钥保护。

cmekConfig

object (CmekConfig)

仅限输出。DataStore 的 CMEK 相关信息。

billingEstimation

object (BillingEstimation)

仅限输出。用于结算的数据大小估算。

aclEnabled

boolean

不可变。DataStore 中的数据是否具有 ACL 信息。如果设置为 true,则源数据必须具有 ACL。当通过 DocumentService.ImportDocuments 方法提取数据时,系统会提取 ACL。

当为 DataStore 启用 ACL 时,无法通过调用 DocumentService.GetDocumentDocumentService.ListDocuments 来访问 Document

目前,ACL 仅在 GENERIC 行业垂直领域中支持,且内容配置为非 PUBLIC_WEBSITE

workspaceConfig

object (WorkspaceConfig)

用于存储工作区数据的数据存储区类型配置的配置。当 DataStore.content_config 设置为 DataStore.ContentConfig.GOOGLE_WORKSPACE 时,必须设置此参数。

documentProcessingConfig

object (DocumentProcessingConfig)

文档理解和丰富功能的配置。

startingSchema

object (Schema)

在配置 DataStore 时要使用的起始架构。如果未设置,系统将使用默认的垂直专业化架构。

此字段仅供 dataStores.create API 使用,如果用于其他 API,则会被忽略。此字段将从所有 API 响应(包括 dataStores.create API)中省略。如需检索 DataStore 的架构,请改用 SchemaService.GetSchema API。

系统会根据有关架构的某些规则验证所提供的架构。如需了解详情,请参阅此文档

healthcareFhirConfig

object (HealthcareFhirConfig)

可选。HEALTHCARE_FHIR 垂直领域的配置。

servingConfigDataStore

object (ServingConfigDataStore)

可选。在 DataStore 级层存储投放配置。

identityMappingStore

string

不可变。关联的 IdentityMappingStore 的完全限定资源名称。此字段只能针对具有 THIRD_PARTYGSUITE IdP 的 aclEnabled DataStore 进行设置。格式:projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}

isInfobotFaqDataStore

boolean

可选。如果设置,则此 DataStore 为 Infobot FAQ DataStore。

configurableBillingApproach

enum (ConfigurableBillingApproach)

可选。可配置结算方式的配置。请参阅

ContentConfig

数据存储区的内容配置。

枚举
CONTENT_CONFIG_UNSPECIFIED 默认值。
NO_CONTENT 仅包含没有任何 Document.content 的文档。
CONTENT_REQUIRED 仅包含具有 Document.content 的文档。
PUBLIC_WEBSITE 数据存储区用于公开网站搜索。
GOOGLE_WORKSPACE 数据存储区用于工作区搜索。工作区数据存储区的详细信息在 WorkspaceConfig 中指定。

AdvancedSiteSearchConfig

高级网站搜索的配置数据。

JSON 表示法
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
字段
disableInitialIndex

boolean

如果设置为 true,则为 DataStore 停用初始索引编制。

disableAutomaticRefresh

boolean

如果设置为 true,则会为 DataStore 停用自动刷新。

LanguageInfo

DataStore 的语言信息。

JSON 表示法
{
  "languageCode": string,
  "normalizedLanguageCode": string,
  "language": string,
  "region": string
}
字段
languageCode

string

DataStore 的语言代码。

normalizedLanguageCode

string

仅限输出。这是 languageCode 的规范化形式。例如:en-GBen_GBen-UKen-gb 的 languageCode 将具有 en-GB 的 normalizedLanguageCode。

language

string

仅限输出。normalizedLanguageCode 的语言部分。例如:en-US -> enzh-Hans-HK -> zhen -> en

region

string

仅限输出。标准化 languageCode 的地区部分(如果有)。例如:en-US -> USzh-Hans-HK -> HKen -> ``。

NaturalLanguageQueryUnderstandingConfig

自然语言查询理解的配置。

JSON 表示法
{
  "mode": enum (Mode)
}
字段
mode

enum (Mode)

自然语言查询理解模式。如果此字段未设置,行为将默认为 NaturalLanguageQueryUnderstandingConfig.Mode.DISABLED

模式

自然语言查询理解模式。当 NaturalLanguageQueryUnderstandingConfig.Mode 为 ENABLED 时,如果 SearchRequest 中的 NaturalLanguageQueryUnderstandingSpec.FilterExtractionCondition 为 ENABLED,则会为搜索请求启用自然语言理解功能。

枚举
MODE_UNSPECIFIED 默认值。
DISABLED 自然语言查询理解功能已停用。
ENABLED 自然语言查询理解已启用。

BillingEstimation

每个数据存储区的数据大小估计值。

JSON 表示法
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
字段
structuredDataSize

string (int64 format)

结构化数据的数据大小(以字节为单位)。

unstructuredDataSize

string (int64 format)

非结构化数据的数据大小(以字节为单位)。

websiteDataSize

string (int64 format)

网站的数据大小(以字节为单位)。

structuredDataUpdateTime

string (Timestamp format)

结构化数据的上次更新时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

unstructuredDataUpdateTime

string (Timestamp format)

非结构化数据的上次更新时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

websiteDataUpdateTime

string (Timestamp format)

网站的上次更新时间戳。

采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例:"2014-10-02T15:01:23Z""2014-10-02T15:01:23.045123456Z""2014-10-02T15:01:23+05:30"

WorkspaceConfig

用于存储工作区数据的数据存储区类型配置的配置

JSON 表示法
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
字段
type

enum (Type)

Google Workspace 数据源。

dasherCustomerId

string

模糊处理的 Dasher 客户 ID。

superAdminServiceAccount

string

可选。将用于生成访问令牌的工作区的超级用户服务账号。目前,我们仅将其用于原生 Google 云端硬盘连接器数据注入。

superAdminEmailAddress

string

可选。将用于生成访问令牌的工作区的超级管理员电子邮件地址。目前,我们仅将其用于原生 Google 云端硬盘连接器数据注入。

类型

指定相应 DataStore 支持的 Workspace 应用类型

枚举
TYPE_UNSPECIFIED 默认值为未指定的工作区类型。
GOOGLE_DRIVE Workspace 数据存储区包含云端硬盘数据
GOOGLE_MAIL Workspace 数据存储区包含邮件数据
GOOGLE_SITES Workspace 数据存储区包含 Google 协作平台数据
GOOGLE_CALENDAR Workspace 数据存储区包含日历数据
GOOGLE_CHAT Workspace 数据存储区包含 Chat 数据
GOOGLE_GROUPS Workspace 数据存储区包含 Google 群组数据
GOOGLE_KEEP Workspace 数据存储区包含 Keep 数据
GOOGLE_PEOPLE Workspace 数据存储区包含人员数据

DocumentProcessingConfig

DataStore 的单例资源。如果在创建 DataStore 时该字段为空,且 DataStore 设置为 DataStore.ContentConfig.CONTENT_REQUIRED,则默认解析器将默认使用数字解析器。

JSON 表示法
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
字段
name

string

文档处理配置的完整资源名称。格式:projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig

chunkingConfig

object (ChunkingConfig)

分块模式是否已启用。

defaultParsingConfig

object (ParsingConfig)

默认文档解析器的配置。如果未指定,我们将按默认 DigitalParsingConfig 进行配置,并且默认解析配置将应用于文档解析的所有文件类型。

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

从文件类型到覆盖默认解析配置的映射(基于文件类型)。支持的密钥:

  • pdf:替换 PDF 文件的解析配置,支持数字解析、OCR 解析或布局解析。
  • html:替换 HTML 文件的解析配置,仅支持数字解析和布局解析。
  • docx:替换 DOCX 文件的解析配置,仅支持数字解析和布局解析。
  • pptx:替换 PPTX 文件的解析配置,仅支持数字解析和布局解析。
  • xlsm:替换 XLSM 文件的解析配置,仅支持数字解析和布局解析。
  • xlsx:替换 XLSX 文件的解析配置,仅支持数字解析和布局解析。

ChunkingConfig

分块配置的配置。

JSON 表示法
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
字段
联合字段 chunk_mode。用于定义分块行为的其他配置。chunk_mode 只能是下列其中一项:
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

基于布局的分块的配置。

LayoutBasedChunkingConfig

基于布局的分块的配置。

JSON 表示法
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
字段
chunkSize

integer

每个块的令牌大小限制。

支持的值:100-500(含)。默认值:500。

includeAncestorHeadings

boolean

是否在从文档中间部分创建的分块中附加不同级别的标题,以防止丢失上下文。

默认值:False。

ParsingConfig

应用于特定类型的文档解析器的相关配置。

JSON 表示法
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
字段
联合字段 type_dedicated_config。文档处理类型的配置。type_dedicated_config 只能是下列其中一项:
digitalParsingConfig

object (DigitalParsingConfig)

已应用于数字解析器的配置。

ocrParsingConfig

object (OcrParsingConfig)

应用于 OCR 解析器的配置。目前,此功能仅适用于 PDF 文件。

layoutParsingConfig

object (LayoutParsingConfig)

应用于布局解析器的配置。

DigitalParsingConfig

此类型没有字段。

文档的数字化解析配置。

OcrParsingConfig

文档的 OCR 解析配置。

JSON 表示法
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
字段
enhancedDocumentElements[]
(deprecated)

string

[已弃用] 此字段已弃用。如需使用其他增强型文档元素处理功能,请切换到 layoutParsingConfig

useNativeText

boolean

如果为 true,则在包含原生文本的网页上使用原生文本,而不是 OCR 文本。

LayoutParsingConfig

文档的布局解析配置。

JSON 表示法
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
字段
enableTableAnnotation

boolean

可选。如果为 true,系统会在解析期间,将基于 LLM 的注解添加到表格。

enableImageAnnotation

boolean

可选。如果为 true,系统会在解析期间,将基于 LLM 的注解添加到图片。

structuredContentTypes[]

string

可选。包含要从文档中提取的必需结构类型。支持的值:

  • shareholder-structure
excludeHtmlElements[]

string

可选。要从已解析的内容中排除的 HTML 元素的列表。

excludeHtmlClasses[]

string

可选。要从解析的内容中排除的 HTML 类列表。

excludeHtmlIds[]

string

可选。要从已解析的内容中排除的 HTML ID 列表。

enableGetProcessedDocument

boolean

可选。如果为 true,则处理后的文档将可用于 GetProcessedDocument API。

HealthcareFhirConfig

针对 HEALTHCARE_FHIR 垂直行业的数据存储区配置。

JSON 表示法
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
字段
enableConfigurableSchema

boolean

是否为 HEALTHCARE_FHIR 纵向启用可配置的架构。

如果设置为 true,则可以扩展预定义的医疗保健 FHIR 架构,以实现更自定义的搜索和过滤。

enableStaticIndexingForBatchIngestion

boolean

是否为 HEALTHCARE_FHIR 批次提取启用静态索引。

如果设置为 true,批量提取将以静态索引模式处理,这种模式速度较慢,但能够处理更大的量。

ServingConfigDataStore

在 DataStore 级别存储有关服务配置的信息。

JSON 表示法
{
  "disabledForServing": boolean
}
字段
disabledForServing

boolean

可选。如果设置为 true,则 DataStore 将无法用于处理搜索请求。

ConfigurableBillingApproach

可配置结算方式的配置。

枚举
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED 默认值。适用于 Spark 和非 Spark 不可配置的结算方式。
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE 对于非嵌入存储空间,使用订阅基础费用 + 超额使用费结算方式来结算索引核心费用。
CONFIGURABLE_CONSUMPTION_EMBEDDING 使用按用量付费的嵌入式存储空间加购项。

方法

completeQuery

使用关键字建议补全指定的用户输入内容。

create

创建 DataStore

delete

删除 DataStore

get

获取 DataStore

getSiteSearchEngine

获取 SiteSearchEngine

list

列出与项目关联的所有 DataStore

patch

更新 DataStore

trainCustomModel

训练自定义模型。