Ringkasan terjemahan kustom

Model Terjemahan Mesin Neural Google (NMT) default mencakup berbagai bahasa dan berfungsi dengan baik untuk teks tujuan umum. Namun, dalam kasus di mana Anda menerjemahkan teks khusus domain atau yang peka gaya, terjemahan khusus dapat membantu Anda mendapatkan terjemahan yang lebih relevan.

Terjemahan kustom mengharuskan Anda memberikan contoh terjemahan sendiri. Lalu: {i>Cloud Translation<i} dapat memberikan hasil yang mengikuti gaya, nada, dan kosakata dari contoh Anda.

Cloud Translation menyediakan dua solusi untuk meminta permintaan terjemahan: AutoML Translation untuk melatih model kustom atau terjemahan adaptif untuk memanfaatkan model bahasa besar (LLM) Google. Masing-masing memiliki persyaratan data, rangkaian bahasa yang didukung, dan harganya sendiri.

AutoML Translation

Dengan AutoML Translation, Anda mengimpor data untuk melatih model kustom yang Anda miliki dan kelola. Setelah membuat model kustom, Anda kemudian dapat meminta terjemahan yang menggunakan model Anda, alih-alih model NMT default. Dibandingkan dengan terjemahan adaptif, model kustom bekerja dengan baik untuk teks khusus domain di mana mendapatkan terminologi yang benar adalah prioritas tertinggi Anda. Anda juga diwajibkan untuk menyediakan set data yang lebih besar untuk pelatihan model.

Anda dikenai biaya untuk waktu pelatihan model dan jumlah karakter input yang Anda kirimkan untuk diterjemahkan.

Terjemahan adaptif

Terjemahan adaptif menggunakan LLM yang digabungkan dengan set data kecil untuk memberikan terjemahan berkualitas tinggi, yang sering kali setara dengan AutoML Translation kustom jaringan. Anda tidak melatih atau mempertahankan model apa pun. Dibandingkan dengan model kustom, terjemahan adaptif bekerja dengan baik untuk mendapatkan respons yang mirip, nada, dan suara dengan masukan Anda.

Untuk terjemahan adaptif, Anda dikenai biaya berdasarkan jumlah input dan output karakter.

Menyiapkan contoh terjemahan

Menyiapkan contoh terjemahan sebagai pasangan segmen, yang terdiri dari satu kalimat dalam bahasa sumber dan kalimat yang sesuai yang diterjemahkan dalam target bahasa. Simpan pasangan segmen ini di file nilai yang dipisahkan tab (TSV) atau {i>Translation Memory eXchange<i} (TMX).

Pilih contoh yang mewakili domain linguistik dari konten yang Anda berencana untuk diterjemahkan. Untuk panduan tambahan, lihat Data persiapan di kursus bahasa Inggris pemula kami.

TSV

Untuk file yang dipisahkan tab, setiap baris memiliki format berikut:

  • Source segment tab Translated segment

Jangan sertakan baris header dengan kode bahasa untuk mengidentifikasi sumber dan target bahasa. Anda menentukan bahasa ini saat membuat set data. Contoh berikut menyertakan pasangan segmen untuk bahasa Inggris ke Jerman terjemahan:

It's a beautiful day.\tEs ist ein schöner Tag.
Tomorrow it will rain.\tMorgen wird es regnen.

Semua konten dalam file TSV harus berupa teks biasa. Jika teks menyertakan tag HTML atau lainnya, Cloud Translation memperlakukan markup sebagai teks biasa.

TMX

TMX adalah format XML standar untuk menyediakan segmen terjemahan sumber dan target. Cloud Translation mendukung file input dalam format berdasarkan TMX versi 1.4. Contoh berikut menggambarkan struktur yang diperlukan:

<?xml version='1.0' encoding='utf-8'?>
<!DOCTYPE tmx SYSTEM "tmx14.dtd">
<tmx version="1.4">
  <header segtype="sentence" o-tmf="UTF-8"
  adminlang="en" srclang="en" datatype="PlainText"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>It's a beautiful day.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Es ist ein schöner Tag.</seg>
      </tuv>
    </tu>
    <tu>
      <tuv xml:lang="en">
        <seg>Tomorrow it will rain.</seg>
      </tuv>
      <tuv xml:lang="de">
        <seg>Morgen wird es regnen.</seg>
      </tuv>
    </tu>
  </body>
</tmx>

Elemen <header> file TMX yang diformat dengan baik harus mengidentifikasi bahasa sumber menggunakan atribut srclang, dan setiap elemen <tuv> harus mengidentifikasi bahasa yang terdapat menggunakan atribut xml:lang.

Semua elemen <tu> harus berisi sepasang <tuv> elemen dengan bahasa sumber dan target yang sama. Jika elemen <tu> berisi lebih dari dua <tuv> Cloud Translation hanya memproses <tuv> cocok dengan bahasa sumber dan pencocokan pertama bahasa target dan mengabaikan sisanya. Jika elemen <tu> tidak memiliki pasangan elemen <tuv> yang cocok, Cloud Translation melewati elemen <tu> yang tidak valid.

Cloud Translation menghapus tag markup dari sekitar <seg> sebelum memprosesnya. Jika Elemen <tuv> berisi lebih dari satu <seg> Cloud Translation menggabungkan teksnya menjadi satu elemen dengan spasi di antaranya.

Jika file berisi tag XML selain yang ditampilkan sebelumnya, Cloud Translation mengabaikannya.

Jika file tidak sesuai dengan format XML dan TMX yang tepat – untuk contoh, jika tag akhir atau elemen <tmx> tidak ada – Cloud Translation membatalkan pemrosesannya. Terjemahan Cloud juga membatalkan pemrosesan jika melewati lebih dari 1024 Elemen <tu>.

Jumlah pasangan segmen minimum yang diwajibkan dan maksimum yang diizinkan untuk setiap fitur berbeda. Untuk mengetahui informasi selengkapnya, lihat data AutoML Translation persiapan atau data terjemahan adaptif persyaratan layanan.

Langkah selanjutnya