Menyiapkan data pelatihan teks untuk analisis sentimen

Halaman ini menjelaskan cara menyiapkan data teks untuk digunakan dalam set data Vertex AI untuk melatih model analisis sentimen.

Data pelatihan analisis sentimen terdiri dari dokumen yang dikaitkan dengan nilai sentimen yang menunjukkan sentimen konten. Misalnya, Anda mungkin memiliki tweet tentang domain tertentu, seperti perjalanan udara. Setiap tweet dikaitkan dengan nilai sentimen yang menunjukkan apakah tweet tersebut positif, negatif, atau netral.

Persyaratan data

  • Anda harus memberikan minimal 10 dokumen pelatihan, tetapi totalnya tidak lebih dari 100.000.
  • Nilai sentimen harus berupa bilangan bulat antara 0 hingga 10. Nilai sentimen maksimumnya berdasarkan pilihan Anda. Misalnya, jika ingin mengidentifikasi apakah sentimen tersebut berupa negatif, positif, atau netral, Anda dapat memberi label pada data pelatihan dengan skor sentimen 0 (negatif), 1 (netral), dan 2 (positif). Skor sentimen maksimum untuk set data ini adalah 2. Jika ingin menangkap lebih banyak perincian, seperti sentimen lima tingkat, Anda dapat memberi label dokumen dari 0 (paling negatif), hingga 4 (paling positif).
  • Anda harus menerapkan setiap nilai sentimen tersebut ke minimal 10 dokumen.
  • Nilai skor sentimen harus berupa bilangan bulat secara berurutan, dimulai dari nol. Jika skor Anda tidak lengkap, atau tidak memulainya dari nol, petakan ulang skor Anda menjadi bilangan bulat secara berurutan, dimulai dari nol.
  • Anda dapat menyertakan inline dokumen, atau mereferensikan file TXT yang berada di dalam bucket Cloud Storage.

Praktik terbaik untuk data teks yang digunakan untuk melatih model AutoML

Rekomendasi berikut ini berlaku untuk set data yang digunakan untuk melatih model AutoML.

  • Berikan setidaknya 100 dokumen per nilai sentimen.
  • Gunakan jumlah dokumen yang seimbang untuk setiap skor sentimen. Memiliki lebih banyak contoh untuk skor sentimen tertentu dapat menimbulkan bias terhadap model tersebut.

File input

Jenis file input untuk analisis sentimen dapat berupa JSON Lines, atau CSV.

JSON Lines

Format, nama kolom, dan jenis nilai untuk file JSON Lines ditentukan oleh file skema, yang merupakan file YAML yang dapat diakses secara publik.

Anda dapat mendownload file skema untuk analisis sentimen dari lokasi Cloud Storage berikut ini:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml

Contoh JSON Lines

Contoh berikut ini menunjukkan bagaimana Anda dapat menggunakan skema untuk membuat file JSON Lines Anda sendiri. Contoh ini menyertakan baris baru agar lebih mudah untuk dibaca. Dalam file JSON Lines Anda, hanya sertakan jeda baris yang baru setelah setiap dokumen. Kolom dataItemResourceLabels menentukan, contohnya, ml_use dan bersifat opsional.

{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textContent": "inline_text",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}
{
  "sentimentAnnotation": {
    "sentiment": number,
    "sentimentMax": number
  },
  "textGcsUri": "gcs_uri_to_file",
  "dataItemResourceLabels": {
    "aiplatform.googleapis.com/ml_use": "training|test|validation"
  }
}

CSV

Setiap baris dalam file CSV mengacu pada satu dokumen. Contoh berikut ini menunjukkan format umum file CSV yang valid. Kolom ml_use bersifat opsional.

  [ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
  

Cuplikan berikut ini adalah contoh file CSV input.

  test,gs://path_to_file,sentiment_value,sentiment_max_value
  test,"inline_text",sentiment_value,sentiment_max_value
  training,gs://path_to_file,sentiment_value,sentiment_max_value
  validation,gs://path_to_file,sentiment_value,sentiment_max_value