- 资源:DataStore
- 方法
资源:DataStore
DataStore 会在数据存储区级别捕获全局设置和配置。
| JSON 表示法 |
|---|
{ "name": string, "displayName": string, "industryVertical": enum ( |
| 字段 | |
|---|---|
name |
不可变。标识符。数据存储区的完整资源名称。格式: 此字段必须是采用 UTF-8 编码的字符串,长度上限为 1024 个字符。 |
displayName |
必需。数据存储区的显示名称。 此字段必须是采用 UTF-8 编码的字符串,长度上限为 128 个字符。否则,系统会返回 INVALID_ARGUMENT 错误。 |
industryVertical |
不可变。数据存储区所注册的垂直行业。 |
solutionTypes[] |
数据存储区所注册的解决方案。每种
|
defaultSchemaId |
仅限输出。与相应数据存储区关联的默认 |
contentConfig |
不可变。数据存储区的内容配置。如果未设置此字段,服务器行为将默认为 |
createTime |
仅限输出。创建 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
advancedSiteSearchConfig |
可选。高级网站搜索的配置。 |
kmsKeyName |
仅限输入。创建相应数据存储区时设置的用于保护该数据存储区的 KMS 密钥。 必须针对需要遵守 CMEK 组织政策保护的请求进行设置。 如果此字段已成功设置并处理,则数据存储区将受 cmekConfig 字段中指定的 KMS 密钥保护。 |
cmekConfig |
仅限输出。数据存储区的 CMEK 相关信息。 |
billingEstimation |
仅限输出。用于结算用途的数据大小估算值。 |
aclEnabled |
不可变。指示 如果为 目前,ACL 仅在 |
workspaceConfig |
用于存储工作区数据的数据存储区类型配置的配置。当 |
documentProcessingConfig |
文档理解和丰富化功能的配置。 |
startingSchema |
在预配相应 此字段仅供 系统会根据有关架构的某些规则验证所提供的架构。如需了解详情,请参阅此文档。 |
healthcareFhirConfig |
可选。 |
servingConfigDataStore |
可选。在数据存储区级存储服务配置。 |
identityMappingStore |
不可变。所关联 |
isInfobotFaqDataStore |
可选。如果设置,则此数据存储区是一个 Infobot FAQ 数据存储区。 |
configurableBillingApproach |
可选。可配置结算方式的配置。请参阅 |
ContentConfig
数据存储区的内容配置。
| 枚举 | |
|---|---|
CONTENT_CONFIG_UNSPECIFIED |
默认值。 |
NO_CONTENT |
仅包含不含任何 Document.content 的文档。 |
CONTENT_REQUIRED |
仅包含带有 Document.content 的文档。 |
PUBLIC_WEBSITE |
数据存储区用于公开网站搜索。 |
GOOGLE_WORKSPACE |
数据存储区用于工作区搜索。工作区数据存储区的详细信息在 WorkspaceConfig 中指定。 |
AdvancedSiteSearchConfig
高级网站搜索的配置数据。
| JSON 表示法 |
|---|
{ "disableInitialIndex": boolean, "disableAutomaticRefresh": boolean } |
| 字段 | |
|---|---|
disableInitialIndex |
如果设置为 true,则停用数据存储区的初始索引编制。 |
disableAutomaticRefresh |
如果设置为 true,则停用数据存储区的自动刷新。 |
BillingEstimation
每个数据存储区的数据大小估算。
| JSON 表示法 |
|---|
{ "structuredDataSize": string, "unstructuredDataSize": string, "websiteDataSize": string, "structuredDataUpdateTime": string, "unstructuredDataUpdateTime": string, "websiteDataUpdateTime": string } |
| 字段 | |
|---|---|
structuredDataSize |
结构化数据的大小(以字节为单位)。 |
unstructuredDataSize |
非结构化数据的大小(以字节为单位)。 |
websiteDataSize |
网站数据的大小(以字节为单位)。 |
structuredDataUpdateTime |
上次更新结构化数据时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
unstructuredDataUpdateTime |
上次更新非结构化数据时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
websiteDataUpdateTime |
上次更新网站数据时的时间戳。 采用 RFC 3339 标准,生成的输出将始终进行 Z 规范化(即转换为 UTC 零时区格式并在末尾附加 Z),并使用 0、3、6 或 9 个小数位。不带“Z”的偏差时间也是可以接受的。示例: |
WorkspaceConfig
用于存储工作区数据的数据存储区类型配置的配置
| JSON 表示法 |
|---|
{
"type": enum ( |
| 字段 | |
|---|---|
type |
Google Workspace 数据源。 |
dasherCustomerId |
混淆处理后的 Dasher 客户 ID。 |
superAdminServiceAccount |
可选。用于生成访问令牌的 Workspace 超级用户服务账号。目前仅将其用于原生 Google 云端硬盘连接器的数据注入。 |
superAdminEmailAddress |
可选。用于生成访问令牌的 Workspace 超级用户邮箱。目前仅将其用于原生 Google 云端硬盘连接器的数据注入。 |
类型
指定相应数据存储区支持的 Workspace 应用类型
| 枚举 | |
|---|---|
TYPE_UNSPECIFIED |
默认为 Workspace 类型未指定。 |
GOOGLE_DRIVE |
Workspace 数据存储区包含 Google 云端硬盘数据 |
GOOGLE_MAIL |
Workspace 数据存储区包含邮件数据 |
GOOGLE_SITES |
Workspace 数据存储区包含 Google 协作平台数据 |
GOOGLE_CALENDAR |
Workspace 数据存储区包含 Google 日历数据 |
GOOGLE_CHAT |
Workspace 数据存储区包含 Google Chat 数据 |
GOOGLE_GROUPS |
Workspace 数据存储区包含 Google 群组数据 |
GOOGLE_KEEP |
Workspace 数据存储区包含 Google Keep 数据 |
GOOGLE_PEOPLE |
Workspace 数据存储区包含人员数据 |
DocumentProcessingConfig
DataStore 的单例资源。如果在创建 DataStore 时该字段为空,且 DataStore 设置为 DataStore.ContentConfig.CONTENT_REQUIRED,则默认解析器将默认为数字解析器。
| JSON 表示法 |
|---|
{ "name": string, "chunkingConfig": { object ( |
| 字段 | |
|---|---|
name |
文档处理配置的完整资源名称。格式: |
chunkingConfig |
指示分块模式是否已启用。 |
defaultParsingConfig |
默认文档解析器的配置。如果未指定,我们会将其配置为默认的 DigitalParsingConfig,并且默认解析配置将应用于所有文件类型的文档解析。 |
parsingConfigOverrides |
从文件类型到基于文件类型替换默认解析配置的映射。支持的键:
|
ChunkingConfig
分块配置的配置。
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 chunk_mode。用于定义分块行为的其他配置。chunk_mode 只能是下列其中一项: |
|
layoutBasedChunkingConfig |
基于布局的分块的配置。 |
LayoutBasedChunkingConfig
基于布局的分块的配置。
| JSON 表示法 |
|---|
{ "chunkSize": integer, "includeAncestorHeadings": boolean } |
| 字段 | |
|---|---|
chunkSize |
每个块的 token 大小限制。 支持的值:100-500(含)。默认值:500。 |
includeAncestorHeadings |
指示是否包含将不同级别的标头附加到文档中间的块,以防止上下文丢失。 默认值:false。 |
ParsingConfig
应用于特定类型文档解析器的相关配置。
| JSON 表示法 |
|---|
{ // Union field |
| 字段 | |
|---|---|
联合字段 type_dedicated_config。文档处理类型的配置。type_dedicated_config 只能是下列其中一项: |
|
digitalParsingConfig |
应用于数字解析器的配置。 |
ocrParsingConfig |
应用于 OCR 解析器的配置。目前仅适用于 PDF。 |
layoutParsingConfig |
应用于布局解析器的配置。 |
DigitalParsingConfig
此类型没有字段。
文档的数字解析配置。
OcrParsingConfig
文档的 OCR 解析配置。
| JSON 表示法 |
|---|
{ "enhancedDocumentElements": [ string ], "useNativeText": boolean } |
| 字段 | |
|---|---|
enhancedDocumentElements[] |
[已弃用] 此字段已弃用。如需使用额外的增强文档元素处理,请切换到 |
useNativeText |
如果为 true,则在包含原生文本的页面上使用原生文本而不是 OCR 文本。 |
LayoutParsingConfig
文档的布局解析配置。
| JSON 表示法 |
|---|
{ "enableTableAnnotation": boolean, "enableImageAnnotation": boolean, "structuredContentTypes": [ string ], "excludeHtmlElements": [ string ], "excludeHtmlClasses": [ string ], "excludeHtmlIds": [ string ], "enableGetProcessedDocument": boolean } |
| 字段 | |
|---|---|
enableTableAnnotation |
可选。如果为 true,则在解析期间将基于 LLM 的注解添加到表中。 |
enableImageAnnotation |
可选。如果为 true,则在解析期间将基于 LLM 的注解添加到图片中。 |
structuredContentTypes[] |
可选。包含要从文档中提取的所需结构类型。支持的值:
|
excludeHtmlElements[] |
可选。要从解析内容中排除的 HTML 元素的列表。 |
excludeHtmlClasses[] |
可选。要从解析内容中排除的 HTML 类的列表。 |
excludeHtmlIds[] |
可选。要从解析内容中排除的 HTML ID 的列表。 |
enableGetProcessedDocument |
可选。如果为 true,则处理后的文档将可用于 GetProcessedDocument API。 |
HealthcareFhirConfig
用于 HEALTHCARE_FHIR 垂直行业的数据存储区的配置。
| JSON 表示法 |
|---|
{ "enableConfigurableSchema": boolean, "enableStaticIndexingForBatchIngestion": boolean } |
| 字段 | |
|---|---|
enableConfigurableSchema |
指示是否针对 如果设置为 |
enableStaticIndexingForBatchIngestion |
指示是否针对 如果设置为 |
ServingConfigDataStore
在数据存储区级别存储有关服务配置的信息。
| JSON 表示法 |
|---|
{ "disabledForServing": boolean } |
| 字段 | |
|---|---|
disabledForServing |
可选。如果设置为 true,则数据存储区将无法用于处理搜索请求。 |
ConfigurableBillingApproach
可配置结算方式的配置。
| 枚举 | |
|---|---|
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED |
默认值。用于 Spark 和非 Spark 不可配置结算方式。 |
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE |
对非嵌入存储的索引核心使用“基本订阅 + 超额费用”的结算方式。 |
CONFIGURABLE_CONSUMPTION_EMBEDDING |
对嵌入存储插件使用按用量随用随付的结算方式。 |
方法 |
|
|---|---|
|
使用“建议的关键字”功能补全指定用户输入。 |
|
创建 DataStore。 |
|
删除一个 DataStore。 |
|
获取 DataStore。 |
|
获取 SiteSearchEngine。 |
|
列出与项目关联的所有 DataStore。 |
|
更新一个 DataStore |
|
训练一个自定义模型。 |