Melihat dan menafsirkan hasil evaluasi

Halaman ini menjelaskan cara melihat dan menafsirkan hasil evaluasi model setelah menjalankan evaluasi model.

Melihat hasil evaluasi

Setelah menentukan tugas evaluasi, jalankan tugas untuk mendapatkan hasil evaluasi, sebagai berikut:

eval_result: EvalResult = eval_task.evaluate(
  model=MODEL,
)

Class EvalResult mewakili hasil evaluasi yang dijalankan dengan atribut berikut:

  • metrics_table: hasil per instance.
  • summary_metrics: hasil gabungan untuk semua instance untuk semua metrik yang diminta.
  • metadata: nama eksperimen dan nama operasi eksperimen untuk operasi evaluasi.

Class EvalResult ditentukan sebagai berikut:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: The summary evaluation metrics for an evaluation run.
      metrics_table: A table containing eval inputs, ground truth, and metric
        results per row.
      metadata: The metadata for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Dengan penggunaan fungsi bantuan, hasil evaluasi dapat ditampilkan di notebook Colab sebagai berikut:

Tabel untuk metrik ringkasan dan metrik berbasis baris

Memvisualisasikan hasil evaluasi

Anda dapat memetakan metrik ringkasan dalam diagram radar atau batang untuk visualisasi dan perbandingan antara hasil dari berbagai operasi evaluasi. Visualisasi ini dapat membantu mengevaluasi berbagai model dan template perintah yang berbeda.

Pada contoh berikut, kami memvisualisasikan empat metrik (koherensi, kelancaran, kepatuhan terhadap petunjuk, dan kualitas teks secara keseluruhan) untuk respons yang dihasilkan menggunakan empat template perintah yang berbeda. Dari plot radar dan batang, kita dapat menyimpulkan bahwa template perintah #2 secara konsisten mengungguli template lainnya di keempat metrik. Hal ini terutama terlihat pada skornya yang jauh lebih tinggi untuk mengikuti petunjuk dan kualitas teks. Berdasarkan analisis ini, template perintah #2 tampaknya merupakan pilihan yang paling efektif di antara empat opsi.

Diagram radar yang menampilkan skor koherensi, instruction_following, text_quality, dan fluency untuk semua template perintah

Diagram batang yang menunjukkan nilai rata-rata untuk keruntutan, instruction_following, text_quality, dan kelancaran untuk semua template perintah

Memahami hasil metrik

Tabel berikut mencantumkan berbagai komponen hasil tingkat instance dan gabungan yang masing-masing disertakan dalam metrics_table dan summary_metrics untuk metrik PointwiseMetric, PairwiseMetric, dan berbasis komputasi:

PointwiseMetric

Hasil tingkat instance

Kolom Deskripsi
respons Respons yang dihasilkan untuk perintah oleh model.
skor Rating yang diberikan untuk respons sesuai dengan kriteria dan rubrik rating. Skor dapat berupa biner (0 dan 1), skala Likert (1 hingga 5, atau -2 hingga 2), atau float (0,0 hingga 1,0).
penjelasan Alasan model juri untuk skor. Kami menggunakan penalaran rantai pemikiran untuk memandu model hakim menjelaskan rasionalnya di balik setiap verdict. Memaksa model hakim untuk bernalar terbukti meningkatkan akurasi evaluasi.

Hasil gabungan

Kolom Deskripsi
skor rata-rata Skor rata-rata untuk semua instance.
simpangan baku Simpangan baku untuk semua skor.

PairwiseMetric

Hasil tingkat instance

Kolom Deskripsi
respons Respons yang dihasilkan untuk perintah oleh model kandidat.
baseline_model_response Respons yang dihasilkan untuk perintah oleh model dasar pengukuran.
pairwise_choice Model dengan respons yang lebih baik. Kemungkinan nilainya adalah CANDIDATE, BASELINE, atau TIE.
penjelasan Alasan model juri untuk memilih.

Hasil gabungan

Kolom Deskripsi
candidate_model_win_rate Rasio waktu model juri memutuskan bahwa model kandidat memiliki respons yang lebih baik terhadap total respons. Rentang antara 0 hingga 1.
baseline_model_win_rate Rasio waktu model juri memutuskan bahwa model dasar pengukuran memiliki respons yang lebih baik terhadap total respons. Rentang antara 0 hingga 1.

Metrik berbasis komputasi

Hasil tingkat instance

Kolom Deskripsi
respons Respons model sedang dievaluasi.
referensi Respons referensi.
skor Skor dihitung untuk setiap pasangan respons dan referensi.

Hasil gabungan

Kolom Deskripsi
skor rata-rata Skor rata-rata untuk semua instance.
simpangan baku Simpangan baku untuk semua skor.

Contoh

Contoh di bagian ini menunjukkan cara membaca dan memahami hasil evaluasi.

Contoh 1

Pada contoh pertama, pertimbangkan untuk mengevaluasi instance evaluasi pointwise untuk TEXT_QUALITY. Skor dari evaluasi pointwise metrik TEXT_QUALITY adalah 4 (dari skala 1 hingga 5), yang berarti responsnya baik. Selain itu, penjelasan dalam hasil evaluasi menunjukkan alasan model juri menganggap prediksi tersebut layak mendapatkan skor 4, dan bukan skor yang lebih tinggi atau lebih rendah.

Set data

  • prompt: "Ringkas teks berikut dengan cara yang dapat dipahami oleh anak berusia lima tahun: Platform Media Sosial Menghadapi Kecaman atas Kebijakan Moderasi Konten\nPlatform media sosial terkemuka terlibat dalam kontroversi karena pengguna dan kreator konten mengungkapkan ketidakpuasan atas kebijakan moderasi kontennya. Tuduhan tentang penyensoran yang bias, penegakan kebijakan yang tidak konsisten, dan penindasan terhadap sudut pandang tertentu telah memicu kemarahan di kalangan pengguna yang mengklaim bahwa platform ini mengekang kebebasan berbicara. Di sisi lain, platform tersebut menyatakan bahwa kebijakannya dirancang untuk menjaga lingkungan online yang aman dan inklusif. Kontroversi ini menimbulkan pertanyaan yang lebih luas tentang peran media sosial dalam membentuk wacana publik dan tanggung jawab platform dalam menyeleksi konten online."

  • response: "Orang-orang kesal dengan situs karena mereka merasa situs tersebut tidak adil dalam hal apa yang dapat diposting orang. Beberapa orang mengatakan bahwa situs tersebut mencegah mereka untuk mengatakan apa yang mereka inginkan. Namun, situs tersebut menyatakan bahwa mereka berusaha menjaga keamanan semua orang. Hal ini membuat orang bertanya-tanya apakah situs harus mengontrol apa yang dapat dikatakan orang secara online."

Hasil

  • score: 4,
  • explanation: Ringkasan sebagai respons mengikuti petunjuk untuk meringkas konteks dengan cara yang dapat dipahami oleh anak berusia lima tahun. Ringkasan ini didasarkan pada konteks dan memberikan detail penting dalam ringkasannya. Namun, bahasa yang digunakan dalam respons tersebut agak panjang.

Contoh 2

Contoh kedua adalah evaluasi perbandingan berpasangan pada PAIRWISE_QUESTION_ANSWERING_QUALITY. Hasil pairwise_choice menunjukkan respons kandidat "Prancis adalah negara yang terletak di Eropa Barat" lebih disukai oleh model juri dibandingkan dengan respons dasar pengukuran "Prancis adalah negara" untuk menjawab pertanyaan dalam perintah. Serupa dengan hasil pointwise, penjelasan juga diberikan untuk menjelaskan mengapa respons kandidat lebih baik daripada respons dasar pengukuran (respons kandidat lebih membantu dalam hal ini).

Set data

  • prompt: "Dapatkah Anda menjawab lokasi Prancis berdasarkan paragraf berikut? Prancis adalah negara yang terletak di Eropa Barat. Negara ini berbatasan dengan Belgia, Luksemburg, Jerman, Swiss, Italia, Monako, Spanyol, dan Andorra. Garis pantai Prancis membentang di sepanjang Selat Inggris, Laut Utara, Samudra Atlantik, dan Laut Mediterania. Terkenal dengan sejarahnya yang kaya, landmark ikonik seperti Menara Eiffel, dan masakan lezat, Prancis adalah kekuatan budaya dan ekonomi utama di Eropa dan di seluruh dunia."

  • response: "Prancis adalah negara yang terletak di Eropa Barat.",

  • baseline_model_response: "Prancis adalah sebuah negara".

Hasil

  • pairwise_choice: CANDIDATE,
  • explanation: Respons BASELINE didasarkan pada fakta, tetapi tidak sepenuhnya menjawab pertanyaan. Namun, respons CANDIDATE sudah benar dan memberikan detail yang bermanfaat tentang lokasi Prancis.

Langkah selanjutnya