이 페이지에서는 항목 추출 모델을 학습시키기 위해 Vertex AI 데이터 세트에서 사용할 텍스트 데이터를 준비하는 방법을 설명합니다.
항목 추출 학습 데이터는 모델에서 식별하려는 항목 유형을 식별하는 라벨로 주석이 추가된 문서로 구성됩니다. 예를 들어 법률 문서 또는 특허 서류에서 특별한 용어를 식별하기 위해 항목 추출 모델을 만들 수 있습니다. 주석은 라벨을 지정하는 항목의 위치 및 라벨 자체를 지정합니다.
송장 또는 계약서와 같이 AutoML 모델을 학습시키기 위해 사용되는 데이터 세트에 대해 구조화된 또는 반구조적인 문서에 주석을 추가하는 경우 Vertex AI는 페이지의 주석 위치를 적합한 라벨에 기여하는 요소로 고려할 수 있습니다. 예를 들어 부동산 계약에는 계약 수락 날짜와 계약 실행 날짜가 모두 포함되어 있습니다. Vertex AI는 주석의 공간 위치를 기준으로 각 항목을 구분하는 방법을 학습할 수 있습니다.
데이터 요구사항
- 학습 문서는 최소 50개에서 최대 100,000개까지 제공해야 합니다.
- 추출하려는 항목에 주석을 추가하려면 최소 1개에서 최대 100개의 고유 라벨을 제공해야 합니다.
- 라벨을 사용하여 1개에서 10개 사이의 단어에 주석을 추가할 수 있습니다.
- 라벨 이름은 2~30자 사이여야 합니다.
- JSON Lines 파일에 주석을 포함하거나 나중에 문서를 업로드한 후 Google Cloud Console을 사용하여 주석을 추가할 수 있습니다.
- 문서를 인라인으로 포함하거나 Cloud Storage 버킷에 있는 TXT 파일을 참조할 수 있습니다.
AutoML 모델 학습에 사용되는 텍스트 데이터를 위한 권장사항
다음 권장사항은 AutoML 모델 학습에 사용되는 데이터 세트에 적용됩니다.
- 각 라벨을 학습 데이터 세트에서 200회 이상 사용합니다.
- 모델에서 식별하려는 항목이 나올 때마다 여기에 주석을 추가합니다.
입력 파일
항목 추출의 입력 파일 유형은 JSON Lines여야 합니다. JSON Lines 파일의 형식, 필드 이름, 값 유형은 공개적으로 액세스할 수 있는 YAML 파일인 스키마 파일에 따라 결정됩니다.
다음 Cloud Storage 위치에서 항목 추출을 위한 스키마 파일을 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml.
다음 예시에서는 스키마를 사용하여 자체 JSON Lines 파일을 만드는 방법을 보여줍니다. 이 예시에는 가독성을 위해 줄바꿈을 사용했습니다. JSON 파일에서는 각 문서 뒤에만 줄바꿈을 사용하세요. dataItemResourceLabels
필드는 ml_use
등을 지정하며, 선택사항입니다.
{ "textSegmentAnnotations": [ { "startOffset":number, "endOffset":number, "displayName": "label" }, ... ], "textContent": "inline_text", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } } { "textSegmentAnnotations": [ { "startOffset":number, "endOffset":number, "displayName": "label" }, ... ], "textGcsUri": "gcs_uri_to_file", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } }
Google Cloud Console을 사용하여 문서에 주석을 추가할 수도 있습니다. textSegmentAnnotations
필드 없이 콘텐츠만으로 JSON Lines 파일을 만듭니다. 문서가 주석 없이 Vertex AI에 업로드됩니다.