Menyiapkan data pelatihan

Cloud Translation melatih model kustom menggunakan pasangan segmen yang cocok dalam bahasa sumber dan bahasa target. Model ini memperlakukan setiap pasangan segmen sebagai item pelatihan independen, tanpa mengasumsikan korelasi apa pun di antara pasangan yang terpisah.

Pasangan segmen yang digunakan untuk melatih model kustom harus dalam format nilai yang dipisahkan tab (.tsv) atau Translation Memory eXchange (.tmx). Untuk mengetahui informasi selengkapnya, lihat Menyiapkan contoh terjemahan.

Pasangan segmen selalu dihapus duplikatnya di seluruh pasangan yang diimpor. Pasangan segmen adalah duplikat dari segmen lain jika segmen sumbernya cocok dengan segmen sumber lainnya. Cloud Translation tidak mengizinkan Anda untuk mengimpor file dengan konten yang sama.

Pembagian data

AutoML Translation menggunakan pasangan segmen yang Anda sediakan untuk berbagai tujuan saat membuat model kustom Anda:

  • Melatih - Pasangan segmen untuk melatih model. Alokasikan sebagian besar data Anda untuk tujuan ini.
  • Validasi - Pasangan segmen untuk memvalidasi hasil yang ditampilkan model selama pelatihan.
  • Pengujian - Pasangan segmen untuk menghasilkan metrik evaluasi akhir model Anda. Menunjukkan kemungkinan performa model dalam produksi.

Anda dapat mengontrol pasangan segmen yang digunakan AutoML Translation untuk setiap tujuan tersebut dengan mengupload file terpisah untuk set pelatihan, validasi, dan pengujian. Jika Anda tidak secara eksplisit menentukan file mana yang akan digunakan untuk masing-masing tiga tujuan ini, AutoML Translation secara otomatis membagi pasangan segmen Anda menjadi tiga set. AutoML Translation menggunakan sekitar 80% data Anda untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. AutoML Translation secara acak menetapkan pasangan segmen Anda menjadi tiga set. Anda dapat memiliki maksimal 10.000 pasangan segmen masing-masing untuk set validasi dan pengujian. Setelah 10.000 pasangan, pasangan segmen dikirim ke set pelatihan.

Jika melakukan beberapa impor data ke set data yang sama, Anda dapat menentukan pembagian data secara manual untuk satu impor data dan menggunakan pemisahan otomatis untuk impor data lainnya. Data selalu diseimbangkan kembali sehubungan dengan pembagian manual Anda setelah setiap impor dan penghapusan file.

Persyaratan data

Data pelatihan Anda harus sesuai dengan persyaratan berikut:

  • Jika mengizinkan AutoML Translation membagi data secara otomatis, Anda harus mengirimkan minimal 1.000 pasangan segmen untuk melatih model kustom.
  • Jika membagi data secara manual, Anda harus menyediakan minimal tiga pasangan segmen untuk set TRAIN, dan Anda harus memiliki minimal 100 pasangan segmen untuk masing-masing set VALIDATION dan TEST.
  • Anda harus menyediakan minimal tiga pasangan segmen untuk set TRAIN, dan Anda harus memiliki minimal 100 pasangan segmen untuk masing-masing set VALIDATION dan TEST.
  • Anda tidak dapat menyediakan lebih dari 10.000 pasangan segmen masing-masing untuk set VALIDATION dan set TEST.
  • Set data Anda tidak boleh melebihi jumlah maksimum 15 juta pasangan segmen.

Rekomendasi data

Rekomendasi berikut dapat membantu meningkatkan kualitas model Anda:

  • Gunakan minimal 5.000 pasangan segmen untuk TRAIN, 500 pasangan segmen untuk VALIDATION, dan 500 pasangan segmen untuk TEST. Meski demikian, gunakan lebih banyak data jika memungkinkan. Memiliki lebih banyak data untuk set TRAIN akan membantu model mempelajari pola, dan memiliki lebih banyak data untuk set VALIDATION serta TEST membantu memverifikasi bahwa model tersebut dapat digeneralisasi ke variasi skenario yang lebih luas di domain Anda.
  • Buat segmen berisi sekitar 200 kata atau kurang. AutoML Translation mungkin menghapus pasangan segmen yang lebih besar dari itu. Untuk mengetahui informasi selengkapnya, silakan melihat Masalah impor.
  • Memperbaiki masalah data sumber yang umum, seperti yang dijelaskan di bagian "Bersihkan data yang berantakan" di bagian persiapan data dalam ringkasan.

Langkah selanjutnya