Mengevaluasi model terjemahan

Layanan evaluasi AI Generatif menawarkan metrik evaluasi tugas terjemahan berikut:

MetricX dan COMET adalah metrik berbasis model pointwise yang telah dilatih untuk tugas terjemahan. Anda dapat mengevaluasi kualitas dan akurasi hasil model terjemahan untuk konten Anda, baik itu output dari model NMT, TranslationLLM, atau Gemini.

Anda juga dapat menggunakan Gemini sebagai model juri untuk mengevaluasi kelancaran, koherensi, panjang kalimat, dan kualitas teks model Anda dalam kombinasi dengan MetricX, COMET, atau BLEU.

  • MetricX adalah metrik berbasis error yang dikembangkan oleh Google yang memprediksi skor floating point antara 0 dan 25 yang mewakili kualitas terjemahan. MetricX tersedia sebagai metode berbasis referensi dan bebas referensi (QE). Saat Anda menggunakan metrik ini, skor yang lebih rendah adalah skor yang lebih baik, karena berarti ada lebih sedikit error.

  • COMET menggunakan pendekatan regresi berbasis referensi yang memberikan skor mulai dari 0 hingga 1, dengan 1 menunjukkan terjemahan yang sempurna.

  • BLEU (Bilingual Evaluation Understudy) adalah metrik berbasis komputasi. Skor BLEU menunjukkan seberapa mirip teks kandidat dengan teks referensi. Nilai skor BLEU yang lebih dekat ke angka satu menunjukkan bahwa terjemahan lebih dekat dengan teks referensi.

Perhatikan bahwa skor BLEU tidak direkomendasikan untuk dibandingkan di berbagai korpus dan bahasa. Misalnya, skor BLEU bahasa Inggris ke bahasa Jerman sebesar 50 tidak sebanding dengan skor BLEU bahasa Jepang ke bahasa Inggris sebesar 50. Banyak pakar terjemahan telah beralih ke pendekatan metrik berbasis model, yang memiliki korelasi lebih tinggi dengan rating manusia dan lebih terperinci dalam mengidentifikasi skenario error.

Untuk mempelajari cara menjalankan evaluasi untuk model terjemahan, lihat Mengevaluasi model terjemahan.