Halaman ini menjelaskan cara menyiapkan data teks untuk digunakan dalam set data Vertex AI untuk melatih model analisis sentimen.
Data pelatihan analisis sentimen terdiri dari dokumen yang dikaitkan dengan nilai sentimen yang menunjukkan sentimen konten. Misalnya, Anda mungkin memiliki tweet tentang domain tertentu, seperti perjalanan udara. Setiap tweet dikaitkan dengan nilai sentimen yang menunjukkan apakah tweet tersebut positif, negatif, atau netral.
Persyaratan data
- Anda harus memberikan minimal 10 dokumen pelatihan, tetapi totalnya tidak lebih dari 100.000.
- Nilai sentimen harus berupa bilangan bulat antara 0 hingga 10. Nilai sentimen maksimumnya berdasarkan pilihan Anda. Misalnya, jika ingin mengidentifikasi apakah sentimen tersebut berupa negatif, positif, atau netral, Anda dapat memberi label pada data pelatihan dengan skor sentimen 0 (negatif), 1 (netral), dan 2 (positif). Skor sentimen maksimum untuk set data ini adalah 2. Jika ingin menangkap lebih banyak perincian, seperti sentimen lima tingkat, Anda dapat memberi label dokumen dari 0 (paling negatif), hingga 4 (paling positif).
- Anda harus menerapkan setiap nilai sentimen tersebut ke minimal 10 dokumen.
- Nilai skor sentimen harus berupa bilangan bulat secara berurutan, dimulai dari nol. Jika skor Anda tidak lengkap, atau tidak memulainya dari nol, petakan ulang skor Anda menjadi bilangan bulat secara berurutan, dimulai dari nol.
- Anda dapat menyertakan inline dokumen, atau mereferensikan file TXT yang berada di dalam bucket Cloud Storage.
Praktik terbaik untuk data teks yang digunakan untuk melatih model AutoML
Rekomendasi berikut ini berlaku untuk set data yang digunakan untuk melatih model AutoML.
- Berikan setidaknya 100 dokumen per nilai sentimen.
- Gunakan jumlah dokumen yang seimbang untuk setiap skor sentimen. Memiliki lebih banyak contoh untuk skor sentimen tertentu dapat menimbulkan bias terhadap model tersebut.
File input
Jenis file input untuk analisis sentimen dapat berupa JSON Lines, atau CSV.
JSON Lines
Format, nama kolom, dan jenis nilai untuk file JSON Lines ditentukan oleh file skema, yang merupakan file YAML yang dapat diakses secara publik.
Anda dapat mendownload file skema untuk analisis sentimen dari
lokasi Cloud Storage berikut ini:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_sentiment_io_format_1.0.0.yaml
Contoh JSON Lines
Contoh berikut ini menunjukkan bagaimana Anda dapat menggunakan skema untuk membuat
file JSON Lines Anda sendiri. Contoh ini menyertakan baris baru agar lebih mudah untuk dibaca.
Dalam file JSON Lines Anda, hanya sertakan jeda baris yang baru setelah setiap dokumen. Kolom
dataItemResourceLabels
menentukan, contohnya, ml_use
dan bersifat
opsional.
{ "sentimentAnnotation": { "sentiment": number, "sentimentMax": number }, "textContent": "inline_text", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } } { "sentimentAnnotation": { "sentiment": number, "sentimentMax": number }, "textGcsUri": "gcs_uri_to_file", "dataItemResourceLabels": { "aiplatform.googleapis.com/ml_use": "training|test|validation" } }
CSV
Setiap baris dalam file CSV mengacu pada satu dokumen. Contoh
berikut ini menunjukkan format umum file CSV yang valid. Kolom ml_use
bersifat opsional.
[ml_use],gcs_file_uri|"inline_text",sentiment,sentimentMax
Cuplikan berikut ini adalah contoh file CSV input.
test,gs://path_to_file,sentiment_value,sentiment_max_value test,"inline_text",sentiment_value,sentiment_max_value training,gs://path_to_file,sentiment_value,sentiment_max_value validation,gs://path_to_file,sentiment_value,sentiment_max_value