Melihat dan menafsirkan hasil evaluasi

Halaman ini menjelaskan cara melihat dan menafsirkan hasil evaluasi model setelah menjalankan evaluasi model.

Lihat hasil evaluasi

Setelah menentukan tugas evaluasi, jalankan tugas untuk mendapatkan hasil evaluasi, sebagai berikut:

eval_result: EvalResult = eval_task.evaluate(
  model=MODEL,
)

Class EvalResult mewakili hasil evaluasi yang dijalankan dengan atribut berikut:

  • metrics_table: hasil per instance.
  • summary_metrics: hasil gabungan untuk semua instance untuk semua metrik yang diminta.
  • metadata: nama eksperimen dan nama eksperimen yang dijalankan untuk evaluasi yang berjalan.

Class EvalResult ditentukan sebagai berikut:

@dataclasses.dataclass
class EvalResult:
    """Evaluation result.

    Attributes:
      summary_metrics: The summary evaluation metrics for an evaluation run.
      metrics_table: A table containing eval inputs, ground truth, and metric
        results per row.
      metadata: The metadata for the evaluation run.
    """

    summary_metrics: Dict[str, float]
    metrics_table: Optional["pd.DataFrame"] = None
    metadata: Optional[Dict[str, str]] = None

Dengan menggunakan fungsi bantuan, hasil evaluasi dapat ditampilkan di notebook Colab sebagai berikut:

Tabel untuk metrik ringkasan dan metrik berbasis baris

Memvisualisasikan hasil evaluasi

Anda dapat memetakan metrik ringkasan dalam diagram radar atau batang untuk visualisasi dan perbandingan antara hasil dari berbagai operasi evaluasi. Visualisasi ini dapat membantu mengevaluasi berbagai model dan template perintah yang berbeda.

Pada contoh berikut, kami memvisualisasikan empat metrik (koherensi, kelancaran, kepatuhan terhadap petunjuk, dan kualitas teks secara keseluruhan) untuk respons yang dihasilkan menggunakan empat template perintah yang berbeda. Dari plot radar dan batang, kita dapat menyimpulkan bahwa template perintah #2 secara konsisten mengungguli template lainnya di keempat metrik. Hal ini terutama terlihat pada skornya yang jauh lebih tinggi untuk mengikuti petunjuk dan kualitas teks. Berdasarkan analisis ini, template perintah #2 tampaknya merupakan pilihan yang paling efektif di antara empat opsi.

Diagram radar yang menampilkan skor koherensi, instruction_following, text_quality, dan fluency untuk semua template perintah

Diagram batang yang menunjukkan nilai rata-rata untuk keruntutan, instruction_following, text_quality, dan kelancaran untuk semua template perintah

Memahami hasil metrik

Tabel berikut mencantumkan berbagai komponen hasil tingkat instance dan gabungan yang disertakan dalam metrics_table dan summary_metrics masing-masing untuk metrik PointwiseMetric, PairwiseMetric, dan berbasis komputasi:

PointwiseMetric

Hasil tingkat instance

Kolom Deskripsi
respons Respons yang dibuat untuk perintah oleh model.
skor Rating yang diberikan untuk respons sesuai dengan kriteria dan rubrik rating. Skor dapat berupa biner (0 dan 1), skala Likert (1 hingga 5, atau -2 hingga 2), atau float (0,0 hingga 1,0).
penjelasan Alasan model juri untuk skor tersebut. Kami menggunakan pemikiran berantai untuk memandu model hakim menjelaskan alasan di balik setiap putusan. Memaksa model hakim untuk bernalar terbukti meningkatkan akurasi evaluasi.

Hasil gabungan

Kolom Deskripsi
skor rata-rata Skor rata-rata untuk semua instance.
simpangan baku Simpangan baku untuk semua skor.

PairwiseMetric

Hasil tingkat instance

Kolom Deskripsi
respons Respons yang dibuat untuk perintah oleh model kandidat.
baseline_model_response Respons yang dihasilkan untuk perintah oleh model dasar pengukuran.
pairwise_choice Model dengan respons yang lebih baik. Nilai yang mungkin adalah CANDIDATE, BASELINE, atau TIE.
penjelasan Alasan model juri untuk memilih.

Hasil gabungan

Kolom Deskripsi
candidate_model_win_rate Rasio waktu model juri memutuskan bahwa model kandidat memiliki respons yang lebih baik terhadap total respons. Rentang antara 0 hingga 1.
baseline_model_win_rate Rasio waktu model juri memutuskan bahwa model dasar memiliki respons yang lebih baik terhadap total respons. Rentang antara 0 sampai 1.

Metrik berbasis komputasi

Hasil tingkat instance

Kolom Deskripsi
respons Respons model sedang dievaluasi.
referensi Respons referensi.
skor Skor dihitung untuk setiap pasangan respons dan referensi.

Hasil gabungan

Kolom Deskripsi
skor rata-rata Skor rata-rata untuk semua instance.
simpangan baku Simpangan baku untuk semua skor.

Contoh

Contoh di bagian ini menunjukkan cara membaca dan memahami hasil evaluasi.

Contoh 1

Pada contoh pertama, pertimbangkan untuk mengevaluasi instance evaluasi pointwise untuk TEXT_QUALITY. Skor dari evaluasi poin untuk metrik TEXT_QUALITY adalah 4 (dari skala 1 sampai 5), yang berarti responsnya baik. Selain itu, penjelasan dalam hasil evaluasi menunjukkan mengapa model juri menganggap prediksi pantas mendapatkan skor 4, dan bukan skor yang lebih tinggi atau lebih rendah.

Set data

  • prompt: "Rangkum teks berikut dengan cara yang dapat dipahami oleh anak-anak berusia lima tahun: Platform Media Sosial Menghadapi Penolakan Atas Kebijakan Moderasi Konten\nSebuah platform media sosial terkemuka mendapati dirinya dalam kontroversi karena pengguna dan kreator konten mengungkapkan ketidakpuasan atas kebijakan moderasi kontennya. Dugaan penyensoran yang bias, penegakan yang tidak konsisten, dan penekanan sudut pandang tertentu telah memicu kemarahan di kalangan pengguna yang mengklaim bahwa platform ini menghambat kebebasan berbicara. Di sisi lain, platform menegaskan bahwa kebijakannya dirancang untuk menjaga lingkungan online yang aman dan inklusif. Kontroversi ini menimbulkan pertanyaan yang lebih luas tentang peran media sosial dalam membentuk wacana publik dan tanggung jawab platform dalam mengkurasi konten online."

  • response: "Orang-orang kesal dengan situs karena mereka merasa situs tersebut tidak adil dalam hal postingan yang dapat dipublikasikan. Beberapa orang mengatakan situs web tersebut menghambat mereka untuk mengatakan apa yang mereka inginkan. Namun, situs tersebut menyatakan bahwa mereka berusaha menjaga keamanan semua orang. Hal ini membuat orang bertanya-tanya apakah situs harus mengontrol apa yang dapat dikatakan orang secara online."

Hasil

  • score: 4
  • explanation: Ringkasan sebagai respons mengikuti petunjuk untuk meringkas konteks dengan cara yang dapat dipahami oleh anak berusia lima tahun. Ringkasan ini didasarkan pada konteks dan memberikan detail penting dalam ringkasannya. Namun, bahasa yang digunakan dalam respons tersebut agak panjang.

Contoh 2

Contoh kedua adalah evaluasi perbandingan berpasangan pada PAIRWISE_QUESTION_ANSWERING_QUALITY. Hasil pairwise_choice menunjukkan respons kandidat "Prancis adalah negara yang terletak di Eropa Barat" lebih disukai oleh model juri dibandingkan dengan respons dasar pengukuran "Prancis adalah negara" untuk menjawab pertanyaan dalam perintah. Serupa dengan hasil pointwise, penjelasan juga diberikan untuk menjelaskan mengapa respons kandidat lebih baik daripada respons dasar pengukuran (respons kandidat lebih membantu dalam hal ini).

Set data

  • prompt: "Dapatkah Anda menjawab lokasi Prancis berdasarkan paragraf berikut? Prancis adalah negara yang terletak di Eropa Barat. Negara ini berbatasan dengan Belgia, Luksemburg, Jerman, Swiss, Italia, Monako, Spanyol, dan Andorra. Garis pantai Prancis membentang di sepanjang Selat Inggris, Laut Utara, Samudra Atlantik, dan Laut Mediterania. Terkenal dengan sejarahnya yang kaya, bangunan ikonis seperti Menara Eiffel, dan masakan lezat, Prancis adalah kekuatan budaya dan ekonomi utama di Eropa dan di seluruh dunia."

  • response: "Prancis adalah negara yang terletak di Eropa Barat.",

  • baseline_model_response: "Prancis adalah sebuah negara.",

Hasil

  • pairwise_choice: KANDIDATE,
  • explanation: Respons BASELINE didasarkan pada data, tetapi tidak sepenuhnya menjawab pertanyaan. Namun, tanggapan CANDIDATE sudah benar dan memberikan detail yang berguna tentang lokasi Prancis.

Langkah selanjutnya