Halaman ini menjelaskan cara melihat dan menafsirkan hasil evaluasi model setelah menjalankan evaluasi model.
Lihat hasil evaluasi
Setelah menentukan tugas evaluasi, jalankan tugas untuk mendapatkan hasil evaluasi, sebagai berikut:
eval_result: EvalResult = eval_task.evaluate(
model=MODEL,
)
Class EvalResult
mewakili hasil evaluasi yang dijalankan dengan atribut berikut:
metrics_table
: hasil per instance.summary_metrics
: hasil gabungan untuk semua instance untuk semua metrik yang diminta.metadata
: nama eksperimen dan nama eksperimen yang dijalankan untuk evaluasi yang berjalan.
Class EvalResult
ditentukan sebagai berikut:
@dataclasses.dataclass
class EvalResult:
"""Evaluation result.
Attributes:
summary_metrics: The summary evaluation metrics for an evaluation run.
metrics_table: A table containing eval inputs, ground truth, and metric
results per row.
metadata: The metadata for the evaluation run.
"""
summary_metrics: Dict[str, float]
metrics_table: Optional["pd.DataFrame"] = None
metadata: Optional[Dict[str, str]] = None
Dengan menggunakan fungsi bantuan, hasil evaluasi dapat ditampilkan di notebook Colab sebagai berikut:
Memvisualisasikan hasil evaluasi
Anda dapat memetakan metrik ringkasan dalam diagram radar atau batang untuk visualisasi dan perbandingan antara hasil dari berbagai operasi evaluasi. Visualisasi ini dapat membantu mengevaluasi berbagai model dan template perintah yang berbeda.
Pada contoh berikut, kami memvisualisasikan empat metrik (koherensi, kelancaran, kepatuhan terhadap petunjuk, dan kualitas teks secara keseluruhan) untuk respons yang dihasilkan menggunakan empat template perintah yang berbeda. Dari plot radar dan batang, kita dapat menyimpulkan bahwa template perintah #2 secara konsisten mengungguli template lainnya di keempat metrik. Hal ini terutama terlihat pada skornya yang jauh lebih tinggi untuk mengikuti petunjuk dan kualitas teks. Berdasarkan analisis ini, template perintah #2 tampaknya merupakan pilihan yang paling efektif di antara empat opsi.
Memahami hasil metrik
Tabel berikut mencantumkan berbagai komponen hasil tingkat instance dan gabungan yang disertakan dalam metrics_table
dan summary_metrics
masing-masing untuk metrik PointwiseMetric
, PairwiseMetric
, dan berbasis komputasi:
PointwiseMetric
Hasil tingkat instance
Kolom | Deskripsi |
---|---|
respons | Respons yang dibuat untuk perintah oleh model. |
skor | Rating yang diberikan untuk respons sesuai dengan kriteria dan rubrik rating. Skor dapat berupa biner (0 dan 1), skala Likert (1 hingga 5, atau -2 hingga 2), atau float (0,0 hingga 1,0). |
penjelasan | Alasan model juri untuk skor tersebut. Kami menggunakan pemikiran berantai untuk memandu model hakim menjelaskan alasan di balik setiap putusan. Memaksa model hakim untuk bernalar terbukti meningkatkan akurasi evaluasi. |
Hasil gabungan
Kolom | Deskripsi |
---|---|
skor rata-rata | Skor rata-rata untuk semua instance. |
simpangan baku | Simpangan baku untuk semua skor. |
PairwiseMetric
Hasil tingkat instance
Kolom | Deskripsi |
---|---|
respons | Respons yang dibuat untuk perintah oleh model kandidat. |
baseline_model_response | Respons yang dihasilkan untuk perintah oleh model dasar pengukuran. |
pairwise_choice | Model dengan respons yang lebih baik. Nilai yang mungkin adalah CANDIDATE, BASELINE, atau TIE. |
penjelasan | Alasan model juri untuk memilih. |
Hasil gabungan
Kolom | Deskripsi |
---|---|
candidate_model_win_rate | Rasio waktu model juri memutuskan bahwa model kandidat memiliki respons yang lebih baik terhadap total respons. Rentang antara 0 hingga 1. |
baseline_model_win_rate | Rasio waktu model juri memutuskan bahwa model dasar memiliki respons yang lebih baik terhadap total respons. Rentang antara 0 sampai 1. |
Metrik berbasis komputasi
Hasil tingkat instance
Kolom | Deskripsi |
---|---|
respons | Respons model sedang dievaluasi. |
referensi | Respons referensi. |
skor | Skor dihitung untuk setiap pasangan respons dan referensi. |
Hasil gabungan
Kolom | Deskripsi |
---|---|
skor rata-rata | Skor rata-rata untuk semua instance. |
simpangan baku | Simpangan baku untuk semua skor. |
Contoh
Contoh di bagian ini menunjukkan cara membaca dan memahami hasil evaluasi.
Contoh 1
Pada contoh pertama, pertimbangkan untuk mengevaluasi instance evaluasi pointwise untuk TEXT_QUALITY
. Skor dari evaluasi poin untuk metrik TEXT_QUALITY
adalah 4 (dari skala 1 sampai 5), yang berarti responsnya baik. Selain itu, penjelasan dalam hasil evaluasi menunjukkan mengapa model juri menganggap prediksi pantas mendapatkan skor 4, dan bukan skor yang lebih tinggi atau lebih rendah.
Set data
prompt
: "Rangkum teks berikut dengan cara yang dapat dipahami oleh anak-anak berusia lima tahun: Platform Media Sosial Menghadapi Penolakan Atas Kebijakan Moderasi Konten\nSebuah platform media sosial terkemuka mendapati dirinya dalam kontroversi karena pengguna dan kreator konten mengungkapkan ketidakpuasan atas kebijakan moderasi kontennya. Dugaan penyensoran yang bias, penegakan yang tidak konsisten, dan penekanan sudut pandang tertentu telah memicu kemarahan di kalangan pengguna yang mengklaim bahwa platform ini menghambat kebebasan berbicara. Di sisi lain, platform menegaskan bahwa kebijakannya dirancang untuk menjaga lingkungan online yang aman dan inklusif. Kontroversi ini menimbulkan pertanyaan yang lebih luas tentang peran media sosial dalam membentuk wacana publik dan tanggung jawab platform dalam mengkurasi konten online."response
: "Orang-orang kesal dengan situs karena mereka merasa situs tersebut tidak adil dalam hal postingan yang dapat dipublikasikan. Beberapa orang mengatakan situs web tersebut menghambat mereka untuk mengatakan apa yang mereka inginkan. Namun, situs tersebut menyatakan bahwa mereka berusaha menjaga keamanan semua orang. Hal ini membuat orang bertanya-tanya apakah situs harus mengontrol apa yang dapat dikatakan orang secara online."
Hasil
score
: 4explanation
: Ringkasan sebagai respons mengikuti petunjuk untuk meringkas konteks dengan cara yang dapat dipahami oleh anak berusia lima tahun. Ringkasan ini didasarkan pada konteks dan memberikan detail penting dalam ringkasannya. Namun, bahasa yang digunakan dalam respons tersebut agak panjang.
Contoh 2
Contoh kedua adalah evaluasi perbandingan berpasangan pada PAIRWISE_QUESTION_ANSWERING_QUALITY
. Hasil pairwise_choice
menunjukkan respons kandidat "Prancis adalah negara yang terletak di Eropa Barat" lebih disukai oleh model juri dibandingkan dengan respons dasar pengukuran "Prancis adalah negara" untuk menjawab pertanyaan dalam perintah. Serupa dengan hasil pointwise, penjelasan juga diberikan untuk menjelaskan mengapa respons kandidat lebih baik daripada respons dasar pengukuran (respons kandidat lebih membantu dalam hal ini).
Set data
prompt
: "Dapatkah Anda menjawab lokasi Prancis berdasarkan paragraf berikut? Prancis adalah negara yang terletak di Eropa Barat. Negara ini berbatasan dengan Belgia, Luksemburg, Jerman, Swiss, Italia, Monako, Spanyol, dan Andorra. Garis pantai Prancis membentang di sepanjang Selat Inggris, Laut Utara, Samudra Atlantik, dan Laut Mediterania. Terkenal dengan sejarahnya yang kaya, bangunan ikonis seperti Menara Eiffel, dan masakan lezat, Prancis adalah kekuatan budaya dan ekonomi utama di Eropa dan di seluruh dunia."response
: "Prancis adalah negara yang terletak di Eropa Barat.",baseline_model_response
: "Prancis adalah sebuah negara.",
Hasil
pairwise_choice
: KANDIDATE,explanation
: Respons BASELINE didasarkan pada data, tetapi tidak sepenuhnya menjawab pertanyaan. Namun, tanggapan CANDIDATE sudah benar dan memberikan detail yang berguna tentang lokasi Prancis.
Langkah selanjutnya
Coba notebook contoh evaluasi.
Pelajari evaluasi AI generatif.