REST Resource: projects.locations.collections.dataStores

리소스: DataStore

DataStore는 DataStore 수준에서 전역 설정과 구성을 캡처합니다.

JSON 표현
{
  "name": string,
  "displayName": string,
  "industryVertical": enum (IndustryVertical),
  "solutionTypes": [
    enum (SolutionType)
  ],
  "defaultSchemaId": string,
  "contentConfig": enum (ContentConfig),
  "createTime": string,
  "advancedSiteSearchConfig": {
    object (AdvancedSiteSearchConfig)
  },
  "kmsKeyName": string,
  "cmekConfig": {
    object (CmekConfig)
  },
  "billingEstimation": {
    object (BillingEstimation)
  },
  "aclEnabled": boolean,
  "workspaceConfig": {
    object (WorkspaceConfig)
  },
  "documentProcessingConfig": {
    object (DocumentProcessingConfig)
  },
  "startingSchema": {
    object (Schema)
  },
  "healthcareFhirConfig": {
    object (HealthcareFhirConfig)
  },
  "servingConfigDataStore": {
    object (ServingConfigDataStore)
  },
  "identityMappingStore": string,
  "isInfobotFaqDataStore": boolean,
  "configurableBillingApproach": enum (ConfigurableBillingApproach)
}
필드
name

string

변경할 수 없습니다. 식별자. 데이터 스토어의 전체 리소스 이름입니다. 형식은 projects/{project}/locations/{location}/collections/{collectionId}/dataStores/{dataStoreId}입니다.

이 필드는 UTF-8로 인코딩된 문자열이어야 하며 길이 제한은 1,024자(영문 기준)입니다.

displayName

string

필수 항목입니다. 데이터 스토어 표시 이름입니다.

이 필드는 UTF-8로 인코딩된 문자열이어야 하며 길이 제한은 128자(영문 기준)입니다. 그렇지 않으면 INVALID_ARGUMENT 오류가 반환됩니다.

industryVertical

enum (IndustryVertical)

변경할 수 없습니다. 데이터 스토어가 등록하는 업종입니다.

solutionTypes[]

enum (SolutionType)

데이터 스토어가 등록되는 솔루션입니다. 각 industryVertical에 사용할 수 있는 솔루션:

  • MEDIA: SOLUTION_TYPE_RECOMMENDATIONSOLUTION_TYPE_SEARCH
  • SITE_SEARCH: SOLUTION_TYPE_SEARCH이 자동으로 등록됩니다. 다른 솔루션은 등록할 수 없습니다.
defaultSchemaId

string

출력 전용입니다. 이 데이터 저장소와 연결된 기본 Schema의 ID입니다.

contentConfig

enum (ContentConfig)

변경할 수 없습니다. 데이터 스토어의 콘텐츠 구성입니다. 이 필드를 설정하지 않으면 서버 동작은 기본적으로 ContentConfig.NO_CONTENT입니다.

createTime

string (Timestamp format)

출력 전용입니다. DataStore이 생성된 타임스탬프입니다.

생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" 또는 "2014-10-02T15:01:23+05:30"입니다.

advancedSiteSearchConfig

object (AdvancedSiteSearchConfig)

(선택사항) 고급 사이트 검색 구성입니다.

kmsKeyName

string

입력 전용입니다. 생성 시 이 데이터 스토어를 보호하는 데 사용되는 KMS 키입니다.

CMEK 조직 정책 보호를 준수해야 하는 요청에 대해 설정해야 합니다.

이 필드가 설정되고 성공적으로 처리되면 cmekConfig 필드에 표시된 대로 데이터 스토어가 KMS 키로 보호됩니다.

cmekConfig

object (CmekConfig)

출력 전용입니다. DataStore의 CMEK 관련 정보입니다.

billingEstimation

object (BillingEstimation)

출력 전용입니다. 청구를 위한 데이터 크기 추정치입니다.

aclEnabled

boolean

변경할 수 없습니다. DataStore의 데이터에 ACL 정보가 있는지 여부 true로 설정하면 소스 데이터에 ACL이 있어야 합니다. ACL은 DocumentService.ImportDocuments 메서드로 데이터를 수집할 때 수집됩니다.

DataStore에 ACL이 사용 설정된 경우 DocumentService.GetDocument 또는 DocumentService.ListDocuments를 호출하여 Document에 액세스할 수 없습니다.

현재 ACL은 PUBLIC_WEBSITE 콘텐츠 구성이 아닌 GENERIC 업종에서만 지원됩니다.

workspaceConfig

object (WorkspaceConfig)

작업공간 데이터의 데이터 스토어 유형 구성을 저장하는 구성입니다. DataStore.content_configDataStore.ContentConfig.GOOGLE_WORKSPACE로 설정된 경우 설정해야 합니다.

documentProcessingConfig

object (DocumentProcessingConfig)

문서 이해 및 보강을 위한 구성입니다.

startingSchema

object (Schema)

DataStore를 프로비저닝할 때 사용할 시작 스키마입니다. 설정하지 않으면 기본 업종별 스키마가 사용됩니다.

이 필드는 dataStores.create API에서만 사용되며 다른 API에서 사용하면 무시됩니다. 이 필드는 dataStores.create API를 비롯한 모든 API 응답에서 생략됩니다. DataStore의 스키마를 가져오려면 SchemaService.GetSchema API를 대신 사용하세요.

제공된 스키마는 스키마에 관한 특정 규칙에 따라 검증됩니다. 이 문서에서 자세히 알아보세요.

healthcareFhirConfig

object (HealthcareFhirConfig)

(선택사항) HEALTHCARE_FHIR 세로의 구성입니다.

servingConfigDataStore

object (ServingConfigDataStore)

(선택사항) DataStore 수준에서 서빙 구성을 저장합니다.

identityMappingStore

string

변경할 수 없습니다. 연결된 IdentityMappingStore의 정규화된 리소스 이름입니다. 이 필드는 THIRD_PARTY 또는 GSUITE IdP가 있는 aclEnabled DataStore에만 설정할 수 있습니다. 형식은 projects/{project}/locations/{location}/identityMappingStores/{identityMappingStore}입니다.

isInfobotFaqDataStore

boolean

(선택사항) 설정된 경우 이 데이터 스토어는 Infobot FAQ 데이터 스토어입니다.

configurableBillingApproach

enum (ConfigurableBillingApproach)

(선택사항) 구성 가능한 결제 접근 방식의 구성입니다. 다음과 같이 표시됩니다.

ContentConfig

데이터 스토어의 콘텐츠 구성입니다.

열거형
CONTENT_CONFIG_UNSPECIFIED 기본값
NO_CONTENT Document.content이 없는 문서만 포함합니다.
CONTENT_REQUIRED Document.content이(가) 있는 문서만 포함합니다.
PUBLIC_WEBSITE 데이터 스토어는 공개 웹사이트 검색에 사용됩니다.
GOOGLE_WORKSPACE 데이터 스토어는 작업공간 검색에 사용됩니다. 작업공간 데이터 저장소의 세부정보는 WorkspaceConfig에 명시되어 있습니다.

AdvancedSiteSearchConfig

고급 사이트 검색의 구성 데이터입니다.

JSON 표현
{
  "disableInitialIndex": boolean,
  "disableAutomaticRefresh": boolean
}
필드
disableInitialIndex

boolean

true로 설정하면 DataStore의 초기 색인 생성이 사용 중지됩니다.

disableAutomaticRefresh

boolean

true로 설정하면 DataStore의 자동 새로고침이 사용 중지됩니다.

BillingEstimation

데이터 스토어별 데이터 크기 추정치입니다.

JSON 표현
{
  "structuredDataSize": string,
  "unstructuredDataSize": string,
  "websiteDataSize": string,
  "structuredDataUpdateTime": string,
  "unstructuredDataUpdateTime": string,
  "websiteDataUpdateTime": string
}
필드
structuredDataSize

string (int64 format)

구조화된 데이터의 데이터 크기(바이트)입니다.

unstructuredDataSize

string (int64 format)

비정형 데이터의 데이터 크기(바이트)입니다.

websiteDataSize

string (int64 format)

웹사이트의 데이터 크기(바이트)입니다.

structuredDataUpdateTime

string (Timestamp format)

구조화된 데이터의 마지막 업데이트 타임스탬프입니다.

생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" 또는 "2014-10-02T15:01:23+05:30"입니다.

unstructuredDataUpdateTime

string (Timestamp format)

비정형 데이터의 마지막 업데이트 타임스탬프입니다.

생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" 또는 "2014-10-02T15:01:23+05:30"입니다.

websiteDataUpdateTime

string (Timestamp format)

웹사이트의 마지막 업데이트 타임스탬프입니다.

생성된 출력은 항상 Z-정규화되고 소수점 이하 0, 3, 6 또는 9자리인 RFC 3339를 사용합니다. 'Z' 이외의 오프셋도 허용됩니다. 예를 들면 "2014-10-02T15:01:23Z", "2014-10-02T15:01:23.045123456Z" 또는 "2014-10-02T15:01:23+05:30"입니다.

WorkspaceConfig

작업공간 데이터의 데이터 스토어 유형 구성을 저장하는 구성

JSON 표현
{
  "type": enum (Type),
  "dasherCustomerId": string,
  "superAdminServiceAccount": string,
  "superAdminEmailAddress": string
}
필드
type

enum (Type)

Google Workspace 데이터 소스입니다.

dasherCustomerId

string

난독화된 Dasher 고객 ID입니다.

superAdminServiceAccount

string

(선택사항) 액세스 토큰 생성에 사용될 워크스페이스의 최고 관리자 서비스 계정입니다. 현재는 네이티브 Google Drive 커넥터 데이터 수집에만 사용됩니다.

superAdminEmailAddress

string

(선택사항) 액세스 토큰 생성에 사용될 워크스페이스의 최고 관리자 이메일 주소입니다. 현재는 네이티브 Google Drive 커넥터 데이터 수집에만 사용됩니다.

유형

이 DataStore에서 지원하는 Workspace 앱의 유형을 지정합니다.

열거형
TYPE_UNSPECIFIED 기본값은 지정되지 않은 Workspace 유형입니다.
GOOGLE_DRIVE Workspace 데이터 저장소에 Drive 데이터가 포함됨
GOOGLE_MAIL Workspace 데이터 저장소에 메일 데이터가 포함됨
GOOGLE_SITES Workspace 데이터 스토어에 사이트 데이터가 포함됨
GOOGLE_CALENDAR Workspace 데이터 스토어에 Calendar 데이터가 포함됨
GOOGLE_CHAT Workspace 데이터 저장소에 Chat 데이터가 포함됨
GOOGLE_GROUPS Workspace 데이터 스토어에 그룹 데이터가 포함됨
GOOGLE_KEEP Workspace 데이터 스토어에 Keep 데이터가 포함됨
GOOGLE_PEOPLE Workspace 데이터 스토어에 사용자 데이터가 포함됨

DocumentProcessingConfig

DataStore의 싱글톤 리소스입니다. DataStore이 생성되고 DataStoreDataStore.ContentConfig.CONTENT_REQUIRED로 설정될 때 비어 있으면 기본 파서는 디지털 파서로 기본 설정됩니다.

JSON 표현
{
  "name": string,
  "chunkingConfig": {
    object (ChunkingConfig)
  },
  "defaultParsingConfig": {
    object (ParsingConfig)
  },
  "parsingConfigOverrides": {
    string: {
      object (ParsingConfig)
    },
    ...
  }
}
필드
name

string

문서 처리 구성의 전체 리소스 이름입니다. 형식은 projects/*/locations/*/collections/*/dataStores/*/documentProcessingConfig입니다.

chunkingConfig

object (ChunkingConfig)

청크 모드 사용 설정 여부입니다.

defaultParsingConfig

object (ParsingConfig)

기본 문서 파서의 구성입니다. 지정하지 않으면 기본 DigitalParsingConfig로 구성되며 기본 파싱 구성이 문서 파싱의 모든 파일 형식에 적용됩니다.

parsingConfigOverrides

map (key: string, value: object (ParsingConfig))

파일 형식에 따라 기본 파싱 구성을 재정의하는 파일 형식의 매핑입니다. 지원되는 키:

  • pdf: PDF 파일의 파싱 구성을 재정의합니다. 디지털 파싱, OCR 파싱 또는 레이아웃 파싱이 지원됩니다.
  • html: HTML 파일의 파싱 구성을 재정의합니다. 디지털 파싱과 레이아웃 파싱만 지원됩니다.
  • docx: DOCX 파일의 파싱 구성을 재정의합니다. 디지털 파싱과 레이아웃 파싱만 지원됩니다.
  • pptx: PPTX 파일의 파싱 구성을 재정의합니다. 디지털 파싱과 레이아웃 파싱만 지원됩니다.
  • xlsm: XLSM 파일의 파싱 구성을 재정의합니다. 디지털 파싱과 레이아웃 파싱만 지원됩니다.
  • xlsx: XLSX 파일의 파싱 구성을 재정의합니다. 디지털 파싱과 레이아웃 파싱만 지원됩니다.

ChunkingConfig

청크 생성 구성의 구성입니다.

JSON 표현
{

  // Union field chunk_mode can be only one of the following:
  "layoutBasedChunkingConfig": {
    object (LayoutBasedChunkingConfig)
  }
  // End of list of possible types for union field chunk_mode.
}
필드
통합 필드 chunk_mode. 청크의 동작을 정의하는 추가 구성입니다. chunk_mode은 다음 중 하나여야 합니다.
layoutBasedChunkingConfig

object (LayoutBasedChunkingConfig)

레이아웃 기반 청킹의 구성입니다.

LayoutBasedChunkingConfig

레이아웃 기반 청킹의 구성입니다.

JSON 표현
{
  "chunkSize": integer,
  "includeAncestorHeadings": boolean
}
필드
chunkSize

integer

각 청크의 토큰 크기 제한입니다.

지원되는 값: 100~500 (양 끝값 포함) 기본값: 500

includeAncestorHeadings

boolean

컨텍스트 손실을 방지하기 위해 문서 중간에서 청크에 여러 수준의 제목을 추가할지 여부입니다.

기본값은 False입니다.

ParsingConfig

특정 유형의 문서 파서에 적용되는 관련 구성입니다.

JSON 표현
{

  // Union field type_dedicated_config can be only one of the following:
  "digitalParsingConfig": {
    object (DigitalParsingConfig)
  },
  "ocrParsingConfig": {
    object (OcrParsingConfig)
  },
  "layoutParsingConfig": {
    object (LayoutParsingConfig)
  }
  // End of list of possible types for union field type_dedicated_config.
}
필드
통합 필드 type_dedicated_config. 문서 처리 유형의 구성입니다. type_dedicated_config은 다음 중 하나여야 합니다.
digitalParsingConfig

object (DigitalParsingConfig)

디지털 파서에 적용된 구성입니다.

ocrParsingConfig

object (OcrParsingConfig)

OCR 파서에 적용된 구성입니다. 현재는 PDF에만 적용됩니다.

layoutParsingConfig

object (LayoutParsingConfig)

레이아웃 파서에 적용된 구성입니다.

DigitalParsingConfig

이 유형에는 필드가 없습니다.

문서의 디지털 파싱 구성입니다.

OcrParsingConfig

문서의 OCR 파싱 구성입니다.

JSON 표현
{
  "enhancedDocumentElements": [
    string
  ],
  "useNativeText": boolean
}
필드
enhancedDocumentElements[]
(deprecated)

string

[지원 중단됨] 이 필드는 지원 중단되었습니다. 추가 향상된 문서 요소 처리를 사용하려면 layoutParsingConfig로 전환하세요.

useNativeText

boolean

true인 경우 기본 텍스트가 포함된 페이지에서 OCR 텍스트 대신 기본 텍스트를 사용합니다.

LayoutParsingConfig

문서의 레이아웃 파싱 구성입니다.

JSON 표현
{
  "enableTableAnnotation": boolean,
  "enableImageAnnotation": boolean,
  "structuredContentTypes": [
    string
  ],
  "excludeHtmlElements": [
    string
  ],
  "excludeHtmlClasses": [
    string
  ],
  "excludeHtmlIds": [
    string
  ],
  "enableGetProcessedDocument": boolean
}
필드
enableTableAnnotation

boolean

(선택사항) true인 경우 파싱 중에 LLM 기반 주석이 표에 추가됩니다.

enableImageAnnotation

boolean

(선택사항) true인 경우 파싱 중에 LLM 기반 주석이 이미지에 추가됩니다.

structuredContentTypes[]

string

(선택사항) 문서에서 추출할 필수 구조 유형을 포함합니다. 지원되는 값:

  • shareholder-structure
excludeHtmlElements[]

string

(선택사항) 파싱된 콘텐츠에서 제외할 HTML 요소 목록입니다.

excludeHtmlClasses[]

string

(선택사항) 파싱된 콘텐츠에서 제외할 HTML 클래스 목록입니다.

excludeHtmlIds[]

string

(선택사항) 파싱된 콘텐츠에서 제외할 HTML ID 목록입니다.

enableGetProcessedDocument

boolean

(선택사항) true인 경우 처리된 문서를 GetProcessedDocument API에서 사용할 수 있습니다.

HealthcareFhirConfig

HEALTHCARE_FHIR 세로의 데이터 스토어 구성

JSON 표현
{
  "enableConfigurableSchema": boolean,
  "enableStaticIndexingForBatchIngestion": boolean
}
필드
enableConfigurableSchema

boolean

HEALTHCARE_FHIR 세로의 구성 가능한 스키마를 사용 설정할지 여부입니다.

true로 설정하면 사전 정의된 의료 fhir 스키마를 확장하여 더 맞춤화된 검색 및 필터링을 할 수 있습니다.

enableStaticIndexingForBatchIngestion

boolean

HEALTHCARE_FHIR 일괄 수집에 정적 색인 생성을 사용 설정할지 여부입니다.

true로 설정하면 일괄 수집이 정적 색인 모드로 처리됩니다. 이 모드는 속도는 느리지만 더 많은 양을 처리할 수 있습니다.

ServingConfigDataStore

DataStore 수준의 서빙 구성에 관한 정보를 저장합니다.

JSON 표현
{
  "disabledForServing": boolean
}
필드
disabledForServing

boolean

(선택사항) true로 설정하면 DataStore를 사용하여 검색 요청을 처리할 수 없습니다.

ConfigurableBillingApproach

구성 가능한 결제 접근 방식의 구성입니다.

열거형
CONFIGURABLE_BILLING_APPROACH_UNSPECIFIED 기본값 Spark 및 비Spark 구성 불가능한 결제 접근 방식
CONFIGURABLE_SUBSCRIPTION_INDEXING_CORE 비임베딩 스토리지를 위한 색인 코어에 구독 기본 요금 + 초과분 청구를 사용합니다.
CONFIGURABLE_CONSUMPTION_EMBEDDING 스토리지 부가기능을 삽입하는 데 사용량 기반 종량제 청구를 사용합니다.

메서드

completeQuery

키워드 추천으로 지정된 사용자 입력을 완료합니다.

create

DataStore를 만듭니다.

delete

DataStore를 삭제합니다.

get

DataStore을 가져옵니다.

getSiteSearchEngine

SiteSearchEngine를 가져옵니다.

list

프로젝트와 연결된 모든 DataStore를 나열합니다.

patch

DataStore 업데이트

trainCustomModel

커스텀 모델을 학습시킵니다.