감정 분석용 텍스트 학습 데이터 준비

이 페이지에서는 감정 분석 모델을 학습시키기 위해 Vertex AI 데이터 세트에서 사용할 텍스트 데이터를 준비하는 방법을 설명합니다.

감정 분석 학습 데이터는 콘텐츠의 감정을 나타내는 감정 값과 연관된 문서로 구성됩니다. 예를 들어 항공 여행과 같은 특정 도메인에 대한 트윗을 사용할 수 있습니다. 각 트윗은 해당 트윗이 긍정적, 부정적, 중립적인지를 나타내는 감정 값과 연관됩니다.

데이터 요구사항

  • 총 학습 문서를 최소 10개에서 최대 100,000개까지 제공해야 합니다.
  • 감정 값은 0~10 사이의 정수여야 합니다. 최대 감정 값은 사용자 선택에 따라 달라집니다. 예를 들어 감정이 부정적, 긍정적, 중립적인지를 식별하려는 경우 감정 점수 0(부정적), 1(중립적), 2(긍정적)를 사용하여 학습 데이터에 라벨을 지정할 수 있습니다. 이 데이터 세트에서 최대 감정 점수는 2입니다. 5개 수준의 감정과 같이 보다 세부적으로 감정을 포착하려면 0(가장 부정적)부터 4(가장 긍정적)까지 문서에 라벨을 지정할 수 있습니다.
  • 각 감정 값을 최소 10개 이상의 문서에 적용해야 합니다.
  • 감정 점수 값은 0부터 시작하는 연속된 정수여야 합니다. 점수 간 격차가 있거나 0부터 시작하지 않으면 0부터 시작하는 연속된 정수가 되도록 점수를 다시 매핑합니다.
  • 문서를 인라인으로 포함하거나 Cloud Storage 버킷에 있는 TXT 파일을 참조할 수 있습니다.

AutoML 모델 학습에 사용되는 텍스트 데이터를 위한 권장사항

다음 권장사항은 AutoML 모델 학습에 사용되는 데이터 세트에 적용됩니다.

  • 감정 값당 최소 100개 이상의 문서를 제공합니다.
  • 각 감정 점수에 대해 문서 수가 균형을 이루도록 합니다. 특정 감정 점수의 예시가 많으면 모델이 편향될 수 있습니다.

입력 파일

감정 분석을 위한 입력 파일 형식은 JSON Lines 또는 CSV일 수 있습니다.

JSON Lines

JSON Lines 파일의 형식, 필드 이름, 값 유형은 공개적으로 액세스할 수 있는 YAML 파일인 스키마 파일에 따라 결정됩니다.

다음 Cloud Storage 위치에서 감정 분석을 위한 스키마 파일을 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

JSON Lines 예시

다음 예시에서는 스키마를 사용하여 자체 JSON Lines 파일을 만드는 방법을 보여줍니다. 이 예시에는 가독성을 위해 줄바꿈을 사용했습니다. JSON Lines 파일에서 각 문서 뒤에만 줄바꿈을 포함합니다. dataItemResourceLabels 필드는 ml_use 등을 지정하며, 선택사항입니다.

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

CSV 파일의 각 행은 단일 문서를 나타냅니다. 다음 예시는 유효한 CSV 파일의 일반적인 형식을 보여줍니다. ml_use 열은 선택사항입니다.

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
  

다음 스니펫은 입력 CSV 파일의 예시입니다.

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value