감정 분석 학습 데이터는 콘텐츠의 감정을 나타내는 감정 값과 연관된 문서로 구성됩니다. 예를 들어 항공 여행과 같은 특정 도메인에 대한 트윗을 사용할 수 있습니다. 각 트윗은 해당 트윗이 긍정적, 부정적, 중립적인지를 나타내는 감정 값과 연관됩니다.
데이터 요구사항
- 총 학습 문서를 최소 10개에서 최대 100,000개까지 제공해야 합니다.
- 감정 값은 0~10 사이의 정수여야 합니다. 최대 감정 값은 사용자 선택에 따라 달라집니다. 예를 들어 감정이 부정적, 긍정적, 중립적인지를 식별하려는 경우 감정 점수 0(부정적), 1(중립적), 2(긍정적)를 사용하여 학습 데이터에 라벨을 지정할 수 있습니다. 이 데이터 세트에서 최대 감정 점수는 2입니다. 5개 수준의 감정과 같이 보다 세부적으로 감정을 포착하려면 0(가장 부정적)부터 4(가장 긍정적)까지 문서에 라벨을 지정할 수 있습니다.
- 각 감정 값을 최소 10개 이상의 문서에 적용해야 합니다.
- 감정 점수 값은 0부터 시작하는 연속된 정수여야 합니다. 점수 간 격차가 있거나 0부터 시작하지 않으면 0부터 시작하는 연속된 정수가 되도록 점수를 다시 매핑합니다.
- 문서를 인라인으로 포함하거나 Cloud Storage 버킷에 있는 TXT 파일을 참조할 수 있습니다.
AutoML 모델 학습에 사용되는 텍스트 데이터를 위한 권장사항
다음 권장사항은 AutoML 모델 학습에 사용되는 데이터 세트에 적용됩니다.
- 감정 값당 최소 100개 이상의 문서를 제공합니다.
- 각 감정 점수에 대해 문서 수가 균형을 이루도록 합니다. 특정 감정 점수의 예시가 많으면 모델이 편향될 수 있습니다.
입력 파일
감정 분석을 위한 입력 파일 형식은 JSON Lines 또는 CSV일 수 있습니다.
JSON Lines
JSON Lines 파일의 형식, 필드 이름, 값 유형은 공개적으로 액세스할 수 있는 YAML 파일인 스키마 파일에 따라 결정됩니다.
다음 Cloud Storage 위치에서 감정 분석을 위한 스키마 파일을 다운로드할 수 있습니다.
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml
JSON Lines 예시
다음 예시에서는 스키마를 사용하여 자체 JSON Lines 파일을 만드는 방법을 보여줍니다. 이 예시에는 가독성을 위해 줄바꿈을 사용했습니다.
JSON Lines 파일에서 각 문서 뒤에만 줄바꿈을 포함합니다. dataItemResourceLabels
필드는 ml_use
등을 지정하며, 선택사항입니다.
{ "sentimentAnnotation": { "sentiment": number, "sentimentMax": number }, "textContent": "inline_text", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } } { "sentimentAnnotation": { "sentiment": number, "sentimentMax": number }, "textGcsUri": "gcs_uri_to_file", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } }
CSV
CSV 파일의 각 행은 단일 문서를 나타냅니다. 다음 예시는 유효한 CSV 파일의 일반적인 형식을 보여줍니다. ml_use
열은 선택사항입니다.
[ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
다음 스니펫은 입력 CSV 파일의 예시입니다.
test,gs://path_to_file,sentiment_value,sentiment_max_value test,"inline_text",sentiment_value,sentiment_max_value training,gs://path_to_file,sentiment_value,sentiment_max_value validation,gs://path_to_file,sentiment_value,sentiment_max_value