Menyiapkan data pelatihan

Cloud Translation melatih model kustom menggunakan pasangan segmen yang cocok dalam bahasa sumber dan bahasa target. Model ini memperlakukan setiap pasangan segmen sebagai item pelatihan independen, tanpa mengasumsikan korelasi apa pun di antara pasangan yang terpisah.

Pasangan segmen yang digunakan untuk melatih model kustom harus dalam format nilai yang dipisahkan tab (.tsv ) atau dalam format Translation Memory eXchange (.tmx ). Anda dapat mengimpor masing-masing file TSV atau TMX menggunakan konsol Google Cloud.

Pasangan segmen selalu dihapus duplikatnya di seluruh pasangan yang diimpor. Pasangan segmen adalah duplikat dari segmen lain jika segmen sumbernya cocok dengan segmen sumber lainnya. Cloud Translation tidak mengizinkan Anda untuk mengimpor file dengan konten yang sama.

Untuk daftar pasangan bahasa yang didukung, silakan melihat Dukungan bahasa untuk model kustom.

Pembagian data

AutoML Translation menggunakan pasangan segmen yang Anda sediakan untuk berbagai tujuan saat membuat model kustom Anda:

  • Melatih - Pasangan segmen untuk melatih model. Alokasikan sebagian besar data Anda untuk tujuan ini.
  • Validasi - Pasangan segmen untuk memvalidasi hasil yang ditampilkan model selama pelatihan.
  • Pengujian - Pasangan segmen untuk menghasilkan metrik evaluasi akhir model Anda. Menunjukkan kemungkinan performa model dalam produksi.

Anda dapat mengontrol pasangan segmen yang digunakan AutoML Translation untuk setiap tujuan tersebut dengan mengupload file terpisah untuk set pelatihan, validasi, dan pengujian. Jika Anda tidak secara eksplisit menentukan file mana yang akan digunakan untuk masing-masing tiga tujuan ini, AutoML Translation secara otomatis membagi pasangan segmen Anda menjadi tiga set. AutoML Translation menggunakan sekitar 80% data Anda untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. AutoML Translation secara acak menetapkan pasangan segmen Anda menjadi tiga set. Anda dapat memiliki maksimal 10.000 pasangan segmen masing-masing untuk set validasi dan pengujian. Setelah 10.000 pasangan, pasangan segmen dikirim ke set pelatihan.

Jika melakukan beberapa impor data ke set data yang sama, Anda dapat menentukan pembagian data secara manual untuk satu impor data dan menggunakan pemisahan otomatis untuk impor data lainnya. Data selalu diseimbangkan kembali sehubungan dengan pembagian manual Anda setelah setiap impor dan penghapusan file.

Persyaratan data

Data pelatihan Anda harus sesuai dengan persyaratan berikut:

  • Jika mengizinkan AutoML Translation membagi data secara otomatis, Anda harus mengirimkan minimal 1.000 pasangan segmen untuk melatih model kustom.
  • Jika membagi data secara manual, Anda harus menyediakan minimal tiga pasangan segmen untuk set TRAIN, dan Anda harus memiliki minimal 100 pasangan segmen untuk masing-masing set VALIDATION dan TEST.
  • Anda harus menyediakan minimal tiga pasangan segmen untuk set TRAIN, dan Anda harus memiliki minimal 100 pasangan segmen untuk masing-masing set VALIDATION dan TEST.
  • Anda tidak dapat menyediakan lebih dari 10.000 pasangan segmen masing-masing untuk set VALIDATION dan set TEST.
  • Set data Anda tidak boleh melebihi jumlah maksimum 15 juta pasangan segmen.

Rekomendasi data

Rekomendasi berikut dapat membantu meningkatkan kualitas model Anda:

  • Gunakan minimal 5.000 pasangan segmen untuk TRAIN, 500 pasangan segmen untuk VALIDATION, dan 500 pasangan segmen untuk TEST. Meski demikian, gunakan lebih banyak data jika memungkinkan. Memiliki lebih banyak data untuk set TRAIN akan membantu model mempelajari pola, dan memiliki lebih banyak data untuk set VALIDATION serta TEST membantu memverifikasi bahwa model tersebut dapat digeneralisasi ke variasi skenario yang lebih luas di domain Anda.
  • Buat segmen berisi sekitar 200 kata atau kurang. AutoML Translation mungkin menghapus pasangan segmen yang lebih besar dari itu. Untuk mengetahui informasi selengkapnya, silakan melihat Masalah impor.
  • Memperbaiki masalah data sumber yang umum, seperti yang dijelaskan di bagian "Bersihkan data yang berantakan" di bagian persiapan data dalam ringkasan.

Nilai yang dipisahkan tab (TSV)

AutoML Translation mendukung file yang dipisahkan tab, yang setiap barisnya memiliki format berikut:

  • Source segment tab Translated segment

Contoh:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Semua konten dalam file TSV harus berupa teks biasa. Jika teks mencakup tag HTML atau markup lainnya, AutoML Translation memperlakukan markup sebagai teks biasa. Pada contoh sebelumnya, sumbernya adalah bahasa Inggris dan targetnya adalah bahasa Jerman.

Jangan sertakan baris header dengan kode bahasa untuk mengidentifikasi bahasa sumber dan bahasa target. Anda harus menentukan kode bahasa sumber dan target saat melatih model.

Translation Memory eXchange (TMX)

TMX adalah format XML standar untuk menyediakan segmen terjemahan sumber dan target. AutoML Translation mendukung file input dalam format berdasarkan TMX versi 1.4. Contoh berikut mengilustrasikan struktur yang diperlukan:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

Elemen<header> dari file TMX yang tersusun dengan baik harus mengidentifikasi bahasa sumber dengan menggunakan atribut srclang, dan setiap elemen <tuv> harus mengidentifikasi bahasa teks yang dimuat menggunakan atribut xml:lang.

Semua elemen <tu> harus berisi sepasang elemen <tuv> dengan bahasa sumber dan target yang sama. Jika elemen <tu> berisi lebih dari dua elemen <tuv>, AutoML Translation hanya memproses <tuv> pertama yang cocok dengan bahasa sumber dan elemen pertama yang cocok dengan bahasa target, lalu mengabaikan sisanya. Jika elemen <tu> tidak memiliki pasangan elemen <tuv> yang cocok, AutoML Translation akan melewati elemen <tu> yang tidak valid.

AutoML Translation menghilangkan tag markup dari sekeliling elemen <seg> sebelum memprosesnya. Jika elemen <tuv> berisi lebih dari satu elemen <seg>, AutoML Translation akan menggabungkan teksnya menjadi satu elemen yang dipisahkan dengan spasi.

Jika file berisi tag XML selain dari tag yang ditampilkan di atas, AutoML Translation akan mengabaikannya.

Jika file tidak mengikuti format XML dan TMX yang semestinya – misalnya, jika file tidak memiliki tag akhir atau elemen <tmx> – AutoML Translation akan membatalkan pemrosesannya. AutoML Translation juga membatalkan pemrosesan jika melewati lebih dari 1.024 elemen <tu> yang tidak valid.