Metode dan metrik evaluasi

Halaman ini menyediakan ringkasan tentang metrik evaluasi kami saat ini dan cara menggunakan setiap metrik.

{i>Pointwise<i} versus pairwise

Anda harus mengidentifikasi sasaran evaluasi sebelum menentukan metrik yang akan diterapkan. Hal ini termasuk menentukan apakah akan melakukan evaluasi secara pointwise atau berpasangan, seperti yang disebutkan dalam Paradigma evaluasi.

Baru Kapan digunakan
Sudut Memahami perilaku model Anda dalam produksi:
  • Mengeksplorasi kekuatan dan kelemahan model tunggal.
  • Mengidentifikasi perilaku yang harus difokuskan saat melakukan tuning.
  • Mendapatkan performa dasar pengukuran model.
Berpasangan Menentukan model yang akan dimasukkan ke produksi:
  • Pilih di antara jenis model. Misalnya, Gemini-Pro versus Claude 3.
  • Pilih di antara dialog yang berbeda.
  • Menentukan apakah penyesuaian menghasilkan peningkatan pada model dasar pengukuran.

Tugas dan Metrik

Untuk mengidentifikasi tugas dan metrik, lakukan hal berikut:

  1. Tentukan apakah Anda ingin melakukan evaluasi berpasangan atau secara bertahap.
  2. Pertimbangkan peran model Anda dan aspek mana yang lebih penting dari respons untuk membantu Anda mengidentifikasi tugas dan metrik evaluasi yang akan dihitung.

Gunakan pertanyaan-pertanyaan berikut sebagai panduan untuk membantu Anda dalam mengambil keputusan:

  1. Identifikasi tugas.
    • Apa fungsi model Anda?
    • Apakah model Anda akan menjawab pertanyaan?
    • Jika model Anda akan menjawab pertanyaan, pertimbangkan penawaran metrik jawaban pertanyaan kami.
  2. Identifikasi metrik.
    • Apakah Anda khawatir dengan keamanan respons atau kelancaran Anda? Kami memiliki metrik untuk respons dan kelancaran.

Paket metrik

Paket metrik menggabungkan metrik yang terkait secara umum untuk mempermudah proses evaluasi. Kombinasi tersebut menggunakan dimensi berikut:

  • Tugas evaluasi: peringkasan, menjawab pertanyaan, dan pembuatan teks
  • Perspektif evaluasi: kesamaan, keamanan, dan kualitas
  • Konsistensi input: Semua metrik dalam paket yang sama menggunakan input set data yang sama
  • Paradigma evaluasi: Pointwise versus pairwise

Paket metrik dapat langsung digunakan di SDK evaluasi online untuk membantu Anda mendapatkan insight dalam mengembangkan alur kerja evaluasi yang disesuaikan.

Tabel ini mencantumkan detail tentang paket metrik yang tersedia:

Nama paket metrik Nama metrik Input pengguna
text_generation_similarity exact match
bleu
rouge
Referensi
Prediksi
tool_call_quality tool_call_valid
tool_name_match
tool_parameter_key_match
tool_parameter_kv_match
Referensi
Prediksi
text_generation_quality coherence
fluency
Prediksi
text_generation_instruction_following fulfillment Referensi
Prediksi
text_generation_safety safety Prediksi
text_generation_factuality groundedness Konteks
Prediksi
summarization_pointwise_reference_free summarization_quality
summarization_helpfulness
summarization_verbosity
Petunjuk
Konteks
Prediksi
summary_pairwise_reference_free pairwise_summarization_quality Petunjuk
Konteks
Prediksi
qa_pointwise_reference_free question_answering_quality
question_answering_relevance
question_answering_helpfulness
Petunjuk
Konteks
Prediksi
qa_pointwise_reference_based question_answering_correctness Referensi
Konteks
Prediksi
qa_pairwise_reference_free pairwise_question_answering_quality Petunjuk
Konteks
Prediksi

Memahami hasil metrik

Metrik yang berbeda menghasilkan hasil output yang berbeda. Oleh karena itu, kami menjelaskan makna dan cara hasil tersebut dihasilkan sehingga Anda dapat menafsirkan evaluasi Anda.

Skor dan Pilihan Berpasangan

Berdasarkan paradigma evaluasi yang dipilih, Anda akan melihat score dalam hasil evaluasi pointwise atau pairwise_choice dalam hasil evaluasi berpasangan.

Untuk evaluasi pointwise, skor dalam hasil evaluasi adalah representasi numerik dari performa atau kualitas output model yang sedang dinilai. Skala skornya berbeda untuk setiap metrik: Skala dapat berupa biner (0 dan 1), skala Likert (1 hingga 5, atau -2 hingga 2), atau float (0,0 hingga 1,0). Lihat bagian tugas dan metrik untuk mengetahui deskripsi mendetail tentang nilai skor untuk setiap metrik.

Untuk metrik berpasangan, pairwise_choice dalam hasil evaluasi adalah enumerasi yang menunjukkan apakah prediksi kandidat atau prediksi dasar pengukuran lebih baik dengan nilai yang memungkinkan berikut:

  • BASELINE: prediksi dasar pengukuran lebih baik
  • CANDIDATE: prediksi kandidat lebih baik

Saat menjalankan evaluasi berpasangan dengan layanan pipeline evaluasi, 'A' dan 'B' adalah opsi pilihan output, bukan prediksi dasar pengukuran dan kandidat.

Penjelasan dan Skor Keyakinan

Penjelasan dan skor keyakinan adalah fitur evaluasi berbasis model.

Metrik Definisi Jenis Cara kerjanya
Penjelasan Alasan autorater dipilihnya. String Kami menggunakan rantai pemikiran untuk memandu AutoRater menjelaskan alasan di balik setiap verdict. Memaksa AutoRater untuk memberi alasan ditampilkan untuk meningkatkan akurasi evaluasi.
Skor keyakinan Skor antara 0 dan 1, yang menandakan seberapa yakin AutoRater dengan putusannya. Skor yang mendekati 1 berarti tingkat keyakinan yang lebih tinggi. Float Evaluasi berbasis model menggunakan strategi decoding konsistensi mandiri untuk menentukan hasil evaluasi, yang ditunjukkan untuk meningkatkan akurasi evaluasi. Oleh karena itu, untuk satu input evaluasi, kami mengambil sampel AutoRater beberapa kali dan menampilkan hasil konsensus. Variasi hasil sampel ini adalah ukuran keyakinan AutoRater terhadap verdictnya.

Contoh

Contoh ini memungkinkan Anda berlatih cara membaca dan memahami hasilnya.

Contoh 1

Pada contoh pertama, pertimbangkan untuk mengevaluasi instance evaluasi pointwise untuk summarizationQuality: Skor dari evaluasi pointwise metrik summarization_quality adalah 4 (dari skala 1 hingga 5), yang berarti prediksinya adalah ringkasan yang baik. Selain itu, explanation dalam hasil evaluasi menunjukkan alasan pembuat otomatis menganggap prediksi tersebut layak mendapatkan skor 4, dan bukan skor yang lebih tinggi atau lebih rendah. Skor confidence dari hasil evaluasi menunjukkan tingkat keyakinan autorater terhadap skor tersebut, dan skor keyakinan 0,8 (dari skala 0,0 hingga 1,0) berarti autorater yakin bahwa ringkasan bernilai 4.

Set data

  • instruction: "Rangkum teks dengan cara yang dapat dipahami oleh anak-anak berusia lima tahun."
  • context: "Platform Media Sosial Menghadapi Penolakan Atas Kebijakan Moderasi Konten \nSebuah platform media sosial terkemuka menghadapi kontroversi karena pengguna dan kreator konten menyatakan ketidakpuasan atas kebijakan moderasi kontennya. Dugaan penyensoran yang bias, penegakan yang tidak konsisten, dan penekanan terhadap sudut pandang tertentu telah memicu kemarahan di kalangan pengguna yang mengklaim bahwa platform ini menghambat kebebasan berbicara. Di sisi lain, platform menegaskan bahwa kebijakannya dirancang untuk menjaga lingkungan online yang aman dan inklusif. Kontroversi ini menimbulkan pertanyaan yang lebih luas tentang peran media sosial dalam membentuk wacana publik dan tanggung jawab platform dalam mengkurasi konten online."
  • prediction: "Orang-orang kesal dengan suatu situs karena mereka merasa tidak adil dengan informasi yang dapat diposting orang. Beberapa orang berkata bahwa {i>website<i} mencegah mereka mengatakan apa yang mereka inginkan. Tapi menurut situs web itu, upaya itu bertujuan untuk menjaga semua orang aman. Hal ini membuat orang bertanya-tanya apakah situs web harus mengontrol apa yang dapat dikatakan orang secara online."

Hasil

  • score: 4,
  • explanation: Ringkasan tersebut sebagai respons mengikuti petunjuk untuk meringkas konteks dengan cara yang dapat dipahami oleh anak berusia lima tahun. Pembahasan ini didasarkan pada konteks dan memberikan detail penting dalam ringkasannya. Namun, bahasa yang digunakan dalam respons agak panjang.
  • confidence: 0,8

Contoh 2

Contoh kedua adalah evaluasi perbandingan berpasangan secara berdampingan pada pairwiseQuestionAnsweringQuality: Hasil pairwiseChoice menunjukkan respons kandidat "France adalah negara yang berlokasi di Eropa Barat". Lebih disukai oleh autorater dibandingkan dengan respons dasar "Prancis adalah negara". untuk menjawab pertanyaan di instruction dengan informasi latar belakang dari context. Serupa dengan hasil pointwise, penjelasan dan skor keyakinan juga disediakan untuk menjelaskan mengapa respons kandidat lebih baik daripada respons dasar (respons kandidat lebih membantu dalam kasus ini) dan seberapa yakin autorater tentang pilihan ini (keyakinan 1 di sini berarti autorater seyakin mungkin tentang pilihan ini).

Set data

  • prediction: "Prancis adalah negara yang terletak di Eropa Barat.",
  • baseline_prediction: "Prancis adalah sebuah negara.",
  • instruction: "Di mana Prancis?",
  • context: "Prancis adalah negara yang terletak di Eropa Barat. Negara ini berbatasan dengan Belgia, Luksemburg, Jerman, Swiss, Italia, Monako, Spanyol, dan Andorra. Garis pantai Prancis membentang sepanjang Selat Inggris, Laut Utara, Samudra Atlantik, dan Laut Mediterania. Terkenal dengan sejarahnya yang kaya, bangunan terkenal yang ikonik seperti Menara Eiffel, dan masakan lezat, Prancis adalah kekuatan budaya dan ekonomi utama di Eropa dan di seluruh dunia.",

Hasil

  • pairwiseChoice: CANDIDATE,
  • explanation: Respons BASELINE didasarkan pada, tetapi tidak sepenuhnya menjawab pertanyaan. Namun, respons CANDIDATE benar dan memberikan detail yang berguna tentang lokasi Prancis.
  • confidence: 1

Langkah selanjutnya