Menyiapkan data pelatihan

AutoML Translation melatih model kustom menggunakan pasangan kalimat yang cocok dalam bahasa sumber dan target. AutoML Translation memperlakukan setiap pasangan kalimat sebagai item pelatihan independen, tanpa mengasumsikan korelasi apa pun di antara pasangan yang terpisah.

Pasangan kalimat yang digunakan untuk melatih model kustom harus dalam nilai yang dipisahkan tab (.tsv) atau format Translation Memory eXchange (.tmx). Anda dapat mengelompokkan beberapa file .tsv dan .tmx ke dalam file nilai yang dipisahkan koma (.csv). Anda dapat mengimpor masing-masing file .tsv atau .tmx menggunakan Konsol Google Cloud. Jika menggunakan AutoML API, Anda hanya dapat menggunakan file .csv.

Pasangan kalimat selalu dihapus duplikatnya di seluruh pasangan kalimat yang diimpor. Pasangan kalimat merupakan duplikat dari pasangan kalimat lainnya jika kalimat sumbernya cocok dengan kalimat sumber lainnya. Selain itu, AutoML Translation tidak memungkinkan Anda mengimpor file dengan konten yang sama.

Untuk daftar pasangan bahasa yang didukung, silakan melihat Dukungan bahasa untuk model kustom.

Pembagian data

AutoML Translation menggunakan pasangan kalimat yang Anda berikan untuk melatih, memvalidasi, dan menguji model kustom.

  • TRAIN - Gunakan sentence pairs untuk melatih model.
  • VALIDATION - Gunakan sentence pairs untuk memvalidasi hasil yang ditampilkan model selama pelatihan.
  • TEST - Gunakan sentence pairs untuk memverifikasi hasil model setelah model dilatih.

Anda dapat mengontrol pasangan kalimat yang digunakan AutoML Translation untuk setiap tujuan tersebut dengan mengupload file terpisah untuk set pelatihan, validasi, dan pengujian. Jika Anda tidak secara eksplisit menentukan file mana yang akan digunakan untuk ketiga tujuan ini, AutoML Translation secara otomatis membagi pasangan kalimat menjadi tiga set. AutoML Translation menggunakan sekitar 80% data Anda untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. AutoML Translation secara acak membagi data Anda menjadi tiga set. Anda dapat memiliki maksimal 10.000 pasangan kalimat untuk masing-masing set validasi dan pengujian. Setelah 10.000 pasangan, pasangan kalimat akan dikirim ke set pelatihan.

Jika melakukan beberapa impor data ke set data yang sama, Anda dapat menentukan pembagian data secara manual untuk satu impor dan menggunakan pemisahan otomatis untuk impor lainnya. Setelah setiap impor dan penghapusan file, data selalu diseimbangkan kembali sesuai dengan pembagian manual yang Anda lakukan.

Persyaratan data

Data pelatihan Anda harus sesuai dengan persyaratan berikut:

  • Jika mengizinkan AutoML Translation membagi data secara otomatis, Anda harus mengirimkan minimal 1.000 pasangan kalimat untuk melatih model kustom.
  • Jika membagi data secara manual, Anda harus menyediakan setidaknya tiga pasangan kalimat untuk set TRAIN, dan Anda harus memiliki minimal 100 pasangan kalimat untuk masing-masing set VALIDATION dan TEST.
  • Anda tidak dapat menyediakan lebih dari 10.000 pasangan kalimat untuk masing-masing set VALIDATION atau set TEST.
  • Set data Anda tidak boleh melebihi jumlah maksimum 15 juta pasangan kalimat.

Rekomendasi data

Rekomendasi berikut dapat membantu Anda meningkatkan kualitas set data pelatihan:

  • Gunakan setidaknya 5.000 pasangan kalimat untuk TRAIN, 500 pasangan kalimat untuk VALIDATION, dan 500 pasangan kalimat untuk TEST. Meski demikian, gunakan lebih banyak data jika memungkinkan. Memiliki lebih banyak data untuk set TRAIN akan membantu model mempelajari pola, dan memiliki lebih banyak data untuk set VALIDATION serta TEST membantu memverifikasi bahwa model tersebut dapat digeneralisasi ke variasi skenario yang lebih luas di domain Anda.
  • Batasi kalimat hingga sekitar 200 kata atau kurang. AutoML Translation dapat mengabaikan pasangan kalimat yang lebih besar dari itu. Untuk mengetahui informasi selengkapnya, silakan melihat Masalah impor.
  • Perbaiki masalah umum terkait data. Untuk informasi selengkapnya, silakan melihat bagian "Membersihkan data yang berantakan" di panduan pemula persiapan data.

Nilai yang dipisahkan tab (.tsv)

AutoML Translation mendukung file yang dipisahkan tab, yang setiap barisnya memiliki format berikut:

  • Source sentence tab Translated sentence

Contoh:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Semua teks dalam file .tsv harus berupa teks biasa. Jika teks mencakup tag HTML atau markup lainnya, AutoML Translation memperlakukan markup tersebut sebagai teks biasa.

Data sumber yang dipisahkan tab tidak menyertakan kode bahasa untuk mengidentifikasi bahasa sumber dan target. Anda mengidentifikasi kode bahasa sumber dan target saat mendeskripsikan model yang akan dilatih. AutoML Translation menafsirkan segmen pertama sebagai bahasa sumber, dan segmen kedua sebagai target bahasa. Pada contoh di atas, bahasa sumbernya adalah bahasa Inggris, dan targetnya adalah bahasa Jerman. 

Translation Memory eXchange (.tmx)

Translation Memory eXchange (TMX) adalah format XML standar untuk menyediakan kalimat terjemahan sumber dan target. AutoML Translation mendukung file input dalam format berdasarkan TMX versi 1.4. Contoh ini mengilustrasikan struktur yang diperlukan:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

Elemen <header> dari file .tmx yang tersusun dengan baik harus mengidentifikasi bahasa sumber menggunakan atribut srclang, dan setiap elemen <tuv> harus mengidentifikasi bahasa teks yang dimuat menggunakan atribut xml:lang.

Semua elemen <tu> harus berisi pasangan elemen <tuv> dengan bahasa sumber dan target bahasa yang sama. Jika elemen <tu> berisi lebih dari dua elemen <tuv>, AutoML Translation hanya akan memproses <tuv> pertama yang cocok dengan bahasa sumber dan yang pertama cocok dengan target bahasa, lalu mengabaikan yang lainnya. Jika elemen <tu> tidak memiliki pasangan elemen <tuv> yang cocok, AutoML Translation melewati elemen <tu> yang tidak valid.

AutoML Translation menghilangkan tag markup yang ada di sekeliling elemen <seg> sebelum memprosesnya. Jika elemen <tuv> berisi lebih dari satu elemen <seg>, AutoML Translation menggabungkan teksnya ke dalam satu elemen yang dipisahkan dengan spasi.

Jika file berisi tag XML selain dari tag yang ditampilkan di atas, AutoML Translation akan mengabaikannya.

Jika file tidak mengikuti format XML dan TMX yang semestinya – misalnya, jika file tidak memiliki tag akhir atau elemen <tmx> – AutoML Translation akan membatalkan pemrosesannya. AutoML Translation juga membatalkan pemrosesan jika sudah melewati lebih dari 1.024 elemen <tu> yang tidak valid.

Nilai yang dipisahkan koma (.csv)

Untuk mengupload pasangan kalimat menggunakan AutoML API, buat file nilai yang dipisahkan koma (.csv) yang mengidentifikasi file .tsv dan .tmx yang akan digunakan, serta yang dapat menunjukkan pasangan mana yang akan digunakan untuk pelatihan, validasi, dan pengujian. File .csv dapat memiliki nama file apa pun, harus berenkode UTF-8, dan harus diakhiri dengan ekstensi .csv. File ini memiliki satu baris untuk setiap file .tsv atau .tmx yang Anda upload, dengan dua kolom di setiap baris:

  • Pada set mana pasangan kalimat dalam file ini akan ditetapkan. Kolom ini bersifat opsional dan dapat berupa salah satu nilai berikut:

    • TRAIN
    • VALIDATION
    • TEST
    • UNASSIGNED

      Jika set data ditetapkan sebagai UNASSIGNED, AutoML Translation akan otomatis membaginya untuk memastikan bahwa tersedia konten pelatihan, validasi, dan pengujian yang cukup.

  • Jalur lengkap ke dokumen .tsv atau .tmx yang berisi pasangan kalimat.

Misalnya, Anda mungkin memiliki jalur berikut dalam file .csv Anda:

TRAIN,gs://my-project-vcm/csv/en-fr-train.tsv
VALIDATION,gs://my-project-vcm/csv/en-fr-validation.tsv
TEST,gs://my-project-vcm/csv/en-fr-test.tsv