Halaman ini menjelaskan cara melihat dan menafsirkan hasil evaluasi model setelah menjalankan evaluasi model.
Melihat hasil evaluasi
Setelah menentukan tugas evaluasi, jalankan tugas untuk mendapatkan hasil evaluasi, sebagai berikut:
eval_result: EvalResult = eval_task.evaluate(
model=MODEL,
)
Class EvalResult
mewakili hasil evaluasi yang dijalankan dengan atribut berikut:
metrics_table
: hasil per instance.summary_metrics
: hasil gabungan untuk semua instance untuk semua metrik yang diminta.metadata
: nama eksperimen dan nama operasi eksperimen untuk operasi evaluasi.
Class EvalResult
ditentukan sebagai berikut:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: The summary evaluation metrics for an evaluation run.
metrics_table: A table containing eval inputs, ground truth, and metric
results per row.
metadata: The metadata for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
Dengan penggunaan fungsi bantuan, hasil evaluasi dapat ditampilkan di notebook Colab sebagai berikut:
Memvisualisasikan hasil evaluasi
Anda dapat memetakan metrik ringkasan dalam diagram radar atau batang untuk visualisasi dan perbandingan antara hasil dari berbagai operasi evaluasi. Visualisasi ini dapat membantu mengevaluasi berbagai model dan template perintah yang berbeda.
Pada contoh berikut, kami memvisualisasikan empat metrik (koherensi, kelancaran, kepatuhan terhadap petunjuk, dan kualitas teks secara keseluruhan) untuk respons yang dihasilkan menggunakan empat template perintah yang berbeda. Dari plot radar dan batang, kita dapat menyimpulkan bahwa template perintah #2 secara konsisten mengungguli template lainnya di keempat metrik. Hal ini terutama terlihat pada skornya yang jauh lebih tinggi untuk mengikuti petunjuk dan kualitas teks. Berdasarkan analisis ini, template perintah #2 tampaknya merupakan pilihan yang paling efektif di antara empat opsi.
Memahami hasil metrik
Tabel berikut mencantumkan berbagai komponen hasil tingkat instance dan gabungan yang masing-masing disertakan dalam metrics_table
dan summary_metrics
untuk metrik PointwiseMetric
, PairwiseMetric
, dan berbasis komputasi:
PointwiseMetric
Hasil tingkat instance
Kolom | Deskripsi |
---|---|
respons | Respons yang dihasilkan untuk perintah oleh model. |
skor | Rating yang diberikan untuk respons sesuai dengan kriteria dan rubrik rating. Skor dapat berupa biner (0 dan 1), skala Likert (1 hingga 5, atau -2 hingga 2), atau float (0,0 hingga 1,0). |
penjelasan | Alasan model juri untuk skor. Kami menggunakan penalaran rantai pemikiran untuk memandu model hakim menjelaskan rasionalnya di balik setiap verdict. Memaksa model hakim untuk bernalar terbukti meningkatkan akurasi evaluasi. |
Hasil gabungan
Kolom | Deskripsi |
---|---|
skor rata-rata | Skor rata-rata untuk semua instance. |
simpangan baku | Simpangan baku untuk semua skor. |
PairwiseMetric
Hasil tingkat instance
Kolom | Deskripsi |
---|---|
respons | Respons yang dihasilkan untuk perintah oleh model kandidat. |
baseline_model_response | Respons yang dihasilkan untuk perintah oleh model dasar pengukuran. |
pairwise_choice | Model dengan respons yang lebih baik. Kemungkinan nilainya adalah CANDIDATE, BASELINE, atau TIE. |
penjelasan | Alasan model juri untuk memilih. |
Hasil gabungan
Kolom | Deskripsi |
---|---|
candidate_model_win_rate | Rasio waktu model juri memutuskan bahwa model kandidat memiliki respons yang lebih baik terhadap total respons. Rentang antara 0 hingga 1. |
baseline_model_win_rate | Rasio waktu model juri memutuskan bahwa model dasar pengukuran memiliki respons yang lebih baik terhadap total respons. Rentang antara 0 hingga 1. |
Metrik berbasis komputasi
Hasil tingkat instance
Kolom | Deskripsi |
---|---|
respons | Respons model sedang dievaluasi. |
referensi | Respons referensi. |
skor | Skor dihitung untuk setiap pasangan respons dan referensi. |
Hasil gabungan
Kolom | Deskripsi |
---|---|
skor rata-rata | Skor rata-rata untuk semua instance. |
simpangan baku | Simpangan baku untuk semua skor. |
Contoh
Contoh di bagian ini menunjukkan cara membaca dan memahami hasil evaluasi.
Contoh 1
Pada contoh pertama, pertimbangkan untuk mengevaluasi instance evaluasi pointwise untuk TEXT_QUALITY
. Skor dari evaluasi pointwise metrik TEXT_QUALITY
adalah 4 (dari skala 1 hingga 5), yang berarti responsnya baik. Selain itu, penjelasan dalam hasil evaluasi menunjukkan alasan model juri menganggap prediksi tersebut layak mendapatkan skor 4, dan bukan skor yang lebih tinggi atau lebih rendah.
Set data
prompt
: "Ringkas teks berikut dengan cara yang dapat dipahami oleh anak berusia lima tahun: Platform Media Sosial Menghadapi Kecaman atas Kebijakan Moderasi Konten\nPlatform media sosial terkemuka terlibat dalam kontroversi karena pengguna dan kreator konten mengungkapkan ketidakpuasan atas kebijakan moderasi kontennya. Tuduhan tentang penyensoran yang bias, penegakan kebijakan yang tidak konsisten, dan penindasan terhadap sudut pandang tertentu telah memicu kemarahan di kalangan pengguna yang mengklaim bahwa platform ini mengekang kebebasan berbicara. Di sisi lain, platform tersebut menyatakan bahwa kebijakannya dirancang untuk menjaga lingkungan online yang aman dan inklusif. Kontroversi ini menimbulkan pertanyaan yang lebih luas tentang peran media sosial dalam membentuk wacana publik dan tanggung jawab platform dalam menyeleksi konten online."response
: "Orang-orang kesal dengan situs karena mereka merasa situs tersebut tidak adil dalam hal apa yang dapat diposting orang. Beberapa orang mengatakan bahwa situs tersebut mencegah mereka untuk mengatakan apa yang mereka inginkan. Namun, situs tersebut menyatakan bahwa mereka berusaha menjaga keamanan semua orang. Hal ini membuat orang bertanya-tanya apakah situs harus mengontrol apa yang dapat dikatakan orang secara online."
Hasil
score
: 4,explanation
: Ringkasan sebagai respons mengikuti petunjuk untuk meringkas konteks dengan cara yang dapat dipahami oleh anak berusia lima tahun. Ringkasan ini didasarkan pada konteks dan memberikan detail penting dalam ringkasannya. Namun, bahasa yang digunakan dalam respons tersebut agak panjang.
Contoh 2
Contoh kedua adalah evaluasi perbandingan berpasangan pada PAIRWISE_QUESTION_ANSWERING_QUALITY
. Hasil pairwise_choice
menunjukkan respons kandidat "Prancis adalah negara yang terletak di Eropa Barat" lebih disukai oleh model juri dibandingkan dengan respons dasar pengukuran "Prancis adalah negara" untuk menjawab pertanyaan dalam perintah. Serupa dengan hasil pointwise, penjelasan juga diberikan untuk menjelaskan mengapa respons kandidat lebih baik daripada respons dasar pengukuran (respons kandidat lebih membantu dalam hal ini).
Set data
prompt
: "Dapatkah Anda menjawab lokasi Prancis berdasarkan paragraf berikut? Prancis adalah negara yang terletak di Eropa Barat. Negara ini berbatasan dengan Belgia, Luksemburg, Jerman, Swiss, Italia, Monako, Spanyol, dan Andorra. Garis pantai Prancis membentang di sepanjang Selat Inggris, Laut Utara, Samudra Atlantik, dan Laut Mediterania. Terkenal dengan sejarahnya yang kaya, landmark ikonik seperti Menara Eiffel, dan masakan lezat, Prancis adalah kekuatan budaya dan ekonomi utama di Eropa dan di seluruh dunia."response
: "Prancis adalah negara yang terletak di Eropa Barat.",baseline_model_response
: "Prancis adalah sebuah negara".
Hasil
pairwise_choice
: CANDIDATE,explanation
: Respons BASELINE didasarkan pada fakta, tetapi tidak sepenuhnya menjawab pertanyaan. Namun, respons CANDIDATE sudah benar dan memberikan detail yang bermanfaat tentang lokasi Prancis.
Langkah selanjutnya
Coba notebook contoh evaluasi.
Pelajari evaluasi AI generatif.