Ringkasan terjemahan kustom
Model Terjemahan Mesin Neural (NMT) Google default mencakup berbagai bahasa dan berfungsi dengan baik untuk teks tujuan umum. Namun, jika Anda menerjemahkan teks khusus domain atau sensitif gaya, terjemahan kustom dapat membantu Anda mendapatkan terjemahan yang lebih relevan.
Terjemahan kustom mengharuskan Anda memberikan contoh terjemahan Anda sendiri. Kemudian, Cloud Translation dapat menghasilkan hasil yang sangat mengikuti gaya, nuansa, dan kosakata contoh Anda.
Cloud Translation menyediakan dua solusi untuk meminta terjemahan kustom: AutoML Translation untuk melatih model kustom atau terjemahan adaptif untuk memanfaatkan model bahasa besar (LLM) Google. Setiap fitur memiliki persyaratan data, kumpulan bahasa yang didukung, dan harga masing-masing.
AutoML Translation
Dengan AutoML Translation, Anda mengimpor data untuk melatih model kustom yang Anda miliki dan kelola. Setelah mem-build model kustom, Anda dapat meminta terjemahan yang menggunakan model Anda, bukan model NMT default. Dibandingkan dengan terjemahan adaptif, model kustom berfungsi baik untuk teks khusus domain dengan prioritas tertinggi Anda adalah mendapatkan terminologi yang benar. Anda juga diwajibkan untuk menyediakan set data yang lebih besar untuk pelatihan model.
Anda akan dikenai biaya berdasarkan waktu pelatihan model dan jumlah karakter input yang Anda kirim untuk terjemahan.
Terjemahan adaptif
Terjemahan adaptif menggunakan LLM yang dikombinasikan dengan set data kecil untuk memberikan terjemahan berkualitas tinggi, sering kali setara dengan model kustom AutoML Translation. Anda tidak melatih atau mengelola model apa pun. Dibandingkan dengan model kustom, terjemahan adaptif berfungsi dengan baik untuk mendapatkan respons yang mirip dalam gaya, nada, dan suara dengan input Anda.
Untuk terjemahan adaptif, Anda akan dikenai biaya berdasarkan jumlah karakter input dan output.
Menyiapkan contoh terjemahan
Siapkan contoh terjemahan sebagai pasangan segmen, yang terdiri dari satu kalimat dalam bahasa sumber dan kalimat yang sesuai yang diterjemahkan dalam bahasa target. Simpan pasangan segmen ini dalam file nilai yang dipisahkan tab (TSV) atau file Translation Memory eXchange (TMX).
Pilih contoh yang mewakili domain linguistik konten yang ingin Anda terjemahkan. Untuk panduan tambahan, lihat bagian Persiapan data di panduan pemula Terjemahan AutoML.
TSV
Untuk file yang dipisahkan tab, setiap barisnya memiliki format berikut:
Source segment
tabTranslated segment
Jangan sertakan baris header dengan kode bahasa untuk mengidentifikasi bahasa sumber dan bahasa target. Anda menentukan bahasa ini saat membuat set data. Contoh berikut menyertakan pasangan segmen untuk terjemahan bahasa Inggris ke bahasa Jerman:
It's a beautiful day.\tEs ist ein schöner Tag. Tomorrow it will rain.\tMorgen wird es regnen.
Semua konten dalam file TSV harus berupa teks biasa. Jika teks mencakup tag HTML atau markup lainnya, Cloud Translation memperlakukan markup sebagai teks biasa.
TMX
TMX adalah format XML standar untuk menyediakan segmen terjemahan sumber dan target. Cloud Translation mendukung file input dalam format berdasarkan TMX versi 1.4. Contoh berikut mengilustrasikan struktur yang diperlukan:
<?xml version='1.0' encoding='utf-8'?> <!DOCTYPE tmx SYSTEM "tmx14.dtd"> <tmx version="1.4"> <header segtype="sentence" o-tmf="UTF-8" adminlang="en" srclang="en" datatype="PlainText"/> <body> <tu> <tuv xml:lang="en"> <seg>It's a beautiful day.</seg> </tuv> <tuv xml:lang="de"> <seg>Es ist ein schöner Tag.</seg> </tuv> </tu> <tu> <tuv xml:lang="en"> <seg>Tomorrow it will rain.</seg> </tuv> <tuv xml:lang="de"> <seg>Morgen wird es regnen.</seg> </tuv> </tu> </body> </tmx>
Elemen <header>
dari file TMX yang tersusun dengan baik harus mengidentifikasi
bahasa sumber dengan menggunakan atribut srclang
, dan setiap
elemen <tuv>
harus mengidentifikasi bahasa teks
yang dimuat menggunakan atribut xml:lang
.
Semua elemen <tu>
harus berisi sepasang elemen <tuv>
dengan bahasa sumber dan target yang sama. Jika elemen <tu>
berisi lebih dari dua elemen <tuv>
, Cloud Translation hanya akan memproses <tuv>
pertama yang cocok dengan bahasa sumber dan elemen pertama yang cocok dengan target bahasa, lalu mengabaikan sisanya. Jika elemen <tu>
tidak memiliki pasangan elemen <tuv>
yang cocok, Cloud Translation akan melewati elemen <tu>
yang tidak valid.
Cloud Translation menghilangkan tag markup dari sekeliling elemen <seg>
sebelum memprosesnya. Jika elemen <tuv>
berisi lebih dari satu elemen <seg>
, Cloud Translation akan menggabungkan teksnya menjadi satu elemen yang dipisahkan dengan spasi.
Jika file berisi tag XML selain dari tag yang ditampilkan sebelumnya, Cloud Translation akan mengabaikannya.
Jika file tidak mengikuti format XML dan TMX yang semestinya – misalnya, jika file tidak memiliki tag akhir atau elemen <tmx>
– Cloud Translation akan membatalkan pemrosesannya. Cloud Translation juga membatalkan pemrosesan jika sudah melewati lebih dari 1.024 elemen <tu>
yang tidak valid.
Pasangan segmen jumlah minimum yang diperlukan dan maksimum yang diizinkan untuk setiap fitur berbeda. Untuk mengetahui informasi selengkapnya, lihat persiapan data AutoML Translation atau persyaratan data terjemahan adaptif.
Langkah selanjutnya
- Untuk mengetahui informasi selengkapnya tentang setiap fitur, lihat ringkasan Terjemahan AutoML atau Terjemahan adaptif.
- Untuk dukungan bahasa, lihat Bahasa yang didukung.
- Untuk mengetahui detail harganya, lihat Harga Cloud Translation.