Method: projects.locations.collections.dataStores.trainCustomModel

커스텀 모델을 학습시킵니다.

HTTP 요청

POST https://discoveryengine.googleapis.com/v1beta/{dataStore=projects/*/locations/*/collections/*/dataStores/*}:trainCustomModel

URL은 gRPC 트랜스코딩 문법을 사용합니다.

경로 매개변수

매개변수
dataStore

string

필수 항목입니다. 데이터 스토어의 리소스 이름입니다(예: projects/*/locations/global/collections/default_collection/dataStores/default_data_store). 이 필드는 모델을 학습시킬 데이터 스토어를 식별하는 데 사용됩니다.

요청 본문

요청 본문에는 다음과 같은 구조의 데이터가 포함됩니다.

JSON 표현
{
  "modelType": string,
  "errorConfig": {
    object (ImportErrorConfig)
  },
  "modelId": string,

  // Union field training_input can be only one of the following:
  "gcsTrainingInput": {
    object (GcsTrainingInput)
  }
  // End of list of possible types for union field training_input.
}
필드
modelType

string

학습할 모델입니다. 지원되는 값은 다음과 같습니다.

  • search-tuning: 제공된 데이터를 기반으로 검색 시스템을 미세 조정합니다.
errorConfig

object (ImportErrorConfig)

데이터 수집 및 학습 중에 발생하는 오류의 원하는 위치입니다.

modelId

string

제공하지 않으면 UUID가 생성됩니다.

통합 필드 training_input. 모델 학습 입력입니다. training_input은 다음 중 하나여야 합니다.
gcsTrainingInput

object (GcsTrainingInput)

Cloud Storage 학습 입력입니다.

응답 본문

성공한 경우 응답 본문에 Operation의 인스턴스가 포함됩니다.

승인 범위

다음 OAuth 범위 중 하나가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform
  • https://www.googleapis.com/auth/discoveryengine.readwrite

자세한 내용은 Authentication Overview를 참조하세요.

IAM 권한

dataStore 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • discoveryengine.dataStores.trainCustomModel

자세한 내용은 IAM 문서를 참조하세요.

GcsTrainingInput

Cloud Storage 학습 데이터 입력입니다.

JSON 표현
{
  "corpusDataPath": string,
  "queryDataPath": string,
  "trainDataPath": string,
  "testDataPath": string
}
필드
corpusDataPath

string

학습 데이터와 연결될 수 있는 Cloud Storage 말뭉치 데이터입니다. 데이터 경로 형식은 gs://<bucket_to_data>/<jsonl_file_name>입니다. 줄바꿈으로 구분된 jsonl/ndjson 파일입니다.

검색 조정 모델의 경우 각 줄에 ID, 제목, 텍스트가 있어야 합니다. 예: {"Id": "doc1", title: "relevant doc", "text": "relevant text"}

queryDataPath

string

학습 데이터와 연결될 수 있는 gcs 쿼리 데이터입니다. 데이터 경로 형식은 gs://<bucket_to_data>/<jsonl_file_name>입니다. 줄바꿈으로 구분된 jsonl/ndjson 파일입니다.

검색 조정 모델의 경우 각 줄에 ID와 텍스트가 있어야 합니다. 예: {"Id": "query1", "text": "example query"}

trainDataPath

string

형식이 gs://<bucket_to_data>/<tsv_file_name>인 Cloud Storage 학습 데이터 경로입니다. 파일은 tsv 형식이어야 합니다. 각 줄에는 docId, queryId, score (숫자)가 있어야 합니다.

검색 조정 모델의 경우 질문-ID 코퍼스-ID 점수가 TSV 파일 헤더로 있어야 합니다. 점수는 [0, inf+)의 숫자여야 합니다. 숫자가 클수록 쌍의 관련성이 높습니다. 예:

  • query-id\tcorpus-id\tscore
  • query1\tdoc1\t1
testDataPath

string

Cloud Storage 테스트 데이터입니다. trainDataPath와 동일한 형식입니다. 제공되지 않은 경우 trainDataPath에서 무작위 80/20 학습/테스트 분할이 실행됩니다.