Halaman ini menyediakan ringkasan tentang metrik evaluasi kami saat ini dan cara menggunakan setiap metrik.
{i>Pointwise<i} versus pairwise
Anda harus mengidentifikasi sasaran evaluasi sebelum menentukan metrik yang akan diterapkan. Hal ini termasuk menentukan apakah akan melakukan evaluasi secara pointwise atau berpasangan, seperti yang disebutkan dalam Paradigma evaluasi.
Baru | Kapan digunakan |
---|---|
Sudut | Memahami perilaku model Anda dalam produksi:
|
Berpasangan | Menentukan model yang akan dimasukkan ke produksi:
|
Tugas dan Metrik
Untuk mengidentifikasi tugas dan metrik, lakukan hal berikut:
- Tentukan apakah Anda ingin melakukan evaluasi berpasangan atau secara bertahap.
- Pertimbangkan peran model Anda dan aspek mana yang lebih penting dari respons untuk membantu Anda mengidentifikasi tugas dan metrik evaluasi yang akan dihitung.
Gunakan pertanyaan-pertanyaan berikut sebagai panduan untuk membantu Anda dalam mengambil keputusan:
- Identifikasi tugas.
- Apa fungsi model Anda?
- Apakah model Anda akan menjawab pertanyaan?
- Jika model Anda akan menjawab pertanyaan, pertimbangkan penawaran metrik jawaban pertanyaan kami.
- Identifikasi metrik.
- Apakah Anda khawatir dengan keamanan respons atau kelancaran Anda? Kami memiliki metrik untuk respons dan kelancaran.
Paket metrik
Paket metrik menggabungkan metrik yang terkait secara umum untuk mempermudah proses evaluasi. Kombinasi tersebut menggunakan dimensi berikut:
- Tugas evaluasi: peringkasan, menjawab pertanyaan, dan pembuatan teks
- Perspektif evaluasi: kesamaan, keamanan, dan kualitas
- Konsistensi input: Semua metrik dalam paket yang sama menggunakan input set data yang sama
- Paradigma evaluasi: Pointwise versus pairwise
Paket metrik dapat langsung digunakan di SDK evaluasi online untuk membantu Anda mendapatkan insight dalam mengembangkan alur kerja evaluasi yang disesuaikan.
Tabel ini mencantumkan detail tentang paket metrik yang tersedia:
Nama paket metrik | Nama metrik | Input pengguna |
---|---|---|
text_generation_similarity |
exact match bleu rouge |
Referensi Prediksi |
tool_call_quality |
tool_call_valid tool_name_match tool_parameter_key_match tool_parameter_kv_match |
Referensi Prediksi |
text_generation_quality |
coherence fluency |
Prediksi |
text_generation_instruction_following |
fulfillment |
Referensi Prediksi |
text_generation_safety |
safety |
Prediksi |
text_generation_factuality |
groundedness |
Konteks Prediksi |
summarization_pointwise_reference_free |
summarization_quality summarization_helpfulness summarization_verbosity |
Petunjuk Konteks Prediksi |
summary_pairwise_reference_free |
pairwise_summarization_quality |
Petunjuk Konteks Prediksi |
qa_pointwise_reference_free |
question_answering_quality question_answering_relevance question_answering_helpfulness |
Petunjuk Konteks Prediksi |
qa_pointwise_reference_based |
question_answering_correctness |
Referensi Konteks Prediksi |
qa_pairwise_reference_free |
pairwise_question_answering_quality |
Petunjuk Konteks Prediksi |
Memahami hasil metrik
Metrik yang berbeda menghasilkan hasil output yang berbeda. Oleh karena itu, kami menjelaskan makna dan cara hasil tersebut dihasilkan sehingga Anda dapat menafsirkan evaluasi Anda.
Skor dan Pilihan Berpasangan
Berdasarkan paradigma evaluasi yang dipilih, Anda akan melihat score
dalam hasil evaluasi pointwise atau pairwise_choice
dalam hasil evaluasi berpasangan.
Untuk evaluasi pointwise, skor dalam hasil evaluasi adalah representasi numerik dari performa atau kualitas output model yang sedang dinilai. Skala skornya berbeda untuk setiap metrik: Skala dapat berupa biner (0 dan 1), skala Likert (1 hingga 5, atau -2 hingga 2), atau float (0,0 hingga 1,0). Lihat bagian tugas dan metrik untuk mengetahui deskripsi mendetail tentang nilai skor untuk setiap metrik.
Untuk metrik berpasangan, pairwise_choice
dalam hasil evaluasi adalah
enumerasi yang menunjukkan apakah prediksi kandidat atau prediksi dasar pengukuran
lebih baik dengan nilai yang memungkinkan berikut:
- BASELINE: prediksi dasar pengukuran lebih baik
- CANDIDATE: prediksi kandidat lebih baik
Saat menjalankan evaluasi berpasangan dengan layanan pipeline evaluasi, 'A' dan 'B' adalah opsi pilihan output, bukan prediksi dasar pengukuran dan kandidat.
Penjelasan dan Skor Keyakinan
Penjelasan dan skor keyakinan adalah fitur evaluasi berbasis model.
Metrik | Definisi | Jenis | Cara kerjanya |
---|---|---|---|
Penjelasan | Alasan autorater dipilihnya. | String | Kami menggunakan rantai pemikiran untuk memandu AutoRater menjelaskan alasan di balik setiap verdict. Memaksa AutoRater untuk memberi alasan ditampilkan untuk meningkatkan akurasi evaluasi. |
Skor keyakinan | Skor antara 0 dan 1, yang menandakan seberapa yakin AutoRater dengan putusannya. Skor yang mendekati 1 berarti tingkat keyakinan yang lebih tinggi. | Float | Evaluasi berbasis model menggunakan strategi decoding konsistensi mandiri untuk menentukan hasil evaluasi, yang ditunjukkan untuk meningkatkan akurasi evaluasi. Oleh karena itu, untuk satu input evaluasi, kami mengambil sampel AutoRater beberapa kali dan menampilkan hasil konsensus. Variasi hasil sampel ini adalah ukuran keyakinan AutoRater terhadap verdictnya. |
Contoh
Contoh ini memungkinkan Anda berlatih cara membaca dan memahami hasilnya.
Contoh 1
Pada contoh pertama, pertimbangkan untuk mengevaluasi instance evaluasi pointwise untuk summarizationQuality
: Skor dari evaluasi pointwise metrik summarization_quality
adalah 4 (dari skala 1 hingga 5), yang berarti prediksinya adalah ringkasan yang baik. Selain itu, explanation
dalam hasil evaluasi
menunjukkan alasan pembuat otomatis menganggap prediksi tersebut layak mendapatkan skor 4, dan
bukan skor yang lebih tinggi atau lebih rendah. Skor confidence
dari hasil evaluasi
menunjukkan tingkat keyakinan autorater terhadap skor tersebut, dan skor keyakinan
0,8 (dari skala 0,0 hingga 1,0) berarti autorater yakin bahwa ringkasan
bernilai 4.
Set data
instruction
: "Rangkum teks dengan cara yang dapat dipahami oleh anak-anak berusia lima tahun."context
: "Platform Media Sosial Menghadapi Penolakan Atas Kebijakan Moderasi Konten \nSebuah platform media sosial terkemuka menghadapi kontroversi karena pengguna dan kreator konten menyatakan ketidakpuasan atas kebijakan moderasi kontennya. Dugaan penyensoran yang bias, penegakan yang tidak konsisten, dan penekanan terhadap sudut pandang tertentu telah memicu kemarahan di kalangan pengguna yang mengklaim bahwa platform ini menghambat kebebasan berbicara. Di sisi lain, platform menegaskan bahwa kebijakannya dirancang untuk menjaga lingkungan online yang aman dan inklusif. Kontroversi ini menimbulkan pertanyaan yang lebih luas tentang peran media sosial dalam membentuk wacana publik dan tanggung jawab platform dalam mengkurasi konten online."prediction
: "Orang-orang kesal dengan suatu situs karena mereka merasa tidak adil dengan informasi yang dapat diposting orang. Beberapa orang berkata bahwa {i>website<i} mencegah mereka mengatakan apa yang mereka inginkan. Tapi menurut situs web itu, upaya itu bertujuan untuk menjaga semua orang aman. Hal ini membuat orang bertanya-tanya apakah situs web harus mengontrol apa yang dapat dikatakan orang secara online."
Hasil
score
: 4,explanation
: Ringkasan tersebut sebagai respons mengikuti petunjuk untuk meringkas konteks dengan cara yang dapat dipahami oleh anak berusia lima tahun. Pembahasan ini didasarkan pada konteks dan memberikan detail penting dalam ringkasannya. Namun, bahasa yang digunakan dalam respons agak panjang.confidence
: 0,8
Contoh 2
Contoh kedua adalah evaluasi perbandingan berpasangan secara berdampingan pada
pairwiseQuestionAnsweringQuality
: Hasil pairwiseChoice
menunjukkan
respons kandidat "France adalah negara yang berlokasi di Eropa Barat". Lebih disukai oleh autorater dibandingkan dengan respons dasar "Prancis adalah negara". untuk
menjawab pertanyaan di instruction
dengan informasi latar belakang dari
context
. Serupa dengan hasil pointwise, penjelasan dan skor keyakinan
juga disediakan untuk menjelaskan mengapa respons kandidat lebih baik daripada respons
dasar (respons kandidat lebih membantu dalam kasus ini) dan seberapa yakin
autorater tentang pilihan ini (keyakinan 1 di sini berarti autorater seyakin
mungkin tentang pilihan ini).
Set data
prediction
: "Prancis adalah negara yang terletak di Eropa Barat.",baseline_prediction
: "Prancis adalah sebuah negara.",instruction
: "Di mana Prancis?",context
: "Prancis adalah negara yang terletak di Eropa Barat. Negara ini berbatasan dengan Belgia, Luksemburg, Jerman, Swiss, Italia, Monako, Spanyol, dan Andorra. Garis pantai Prancis membentang sepanjang Selat Inggris, Laut Utara, Samudra Atlantik, dan Laut Mediterania. Terkenal dengan sejarahnya yang kaya, bangunan terkenal yang ikonik seperti Menara Eiffel, dan masakan lezat, Prancis adalah kekuatan budaya dan ekonomi utama di Eropa dan di seluruh dunia.",
Hasil
pairwiseChoice
: CANDIDATE,explanation
: Respons BASELINE didasarkan pada, tetapi tidak sepenuhnya menjawab pertanyaan. Namun, respons CANDIDATE benar dan memberikan detail yang berguna tentang lokasi Prancis.confidence
: 1
Langkah selanjutnya
- Pelajari cara mulai mengevaluasi model dengan cepat.
- Pelajari evaluasi online versus pipeline.
- Pelajari evaluasi berbasis komputasi.
- Pelajari evaluasi berbasis model berpasangan.
- Pelajari cara menyesuaikan model dasar.