Coba model Gemini 1.5, model multimodal terbaru di Vertex AI, dan lihat model yang dapat Anda bangun dengan jendela konteks hingga 2 juta token. Coba model Gemini 1.5, model multimodal terbaru di Vertex AI, dan lihat model yang dapat Anda bangun dengan jendela konteks hingga 2 juta token.

Metode dan metrik evaluasi

Halaman ini menyediakan ringkasan tentang metrik evaluasi kami saat ini dan cara menggunakan setiap metrik.

{i>Pointwise<i} versus pairwise

Anda harus mengidentifikasi sasaran evaluasi sebelum menentukan metrik yang akan diterapkan. Hal ini termasuk menentukan apakah akan melakukan evaluasi secara pointwise atau berpasangan, seperti yang disebutkan dalam Paradigma evaluasi.

Baru	Kapan digunakan
Sudut	Memahami perilaku model Anda dalam produksi: Mengeksplorasi kekuatan dan kelemahan model tunggal. Mengidentifikasi perilaku yang harus difokuskan saat melakukan tuning. Mendapatkan performa dasar pengukuran model.
Berpasangan	Menentukan model yang akan dimasukkan ke produksi: Pilih di antara jenis model. Misalnya, Gemini-Pro versus Claude 3. Pilih di antara dialog yang berbeda. Menentukan apakah penyesuaian menghasilkan peningkatan pada model dasar pengukuran.

Tugas dan Metrik

Untuk mengidentifikasi tugas dan metrik, lakukan hal berikut:

Tentukan apakah Anda ingin melakukan evaluasi berpasangan atau secara bertahap.
Pertimbangkan peran model Anda dan aspek mana yang lebih penting dari respons untuk membantu Anda mengidentifikasi tugas dan metrik evaluasi yang akan dihitung.

Gunakan pertanyaan-pertanyaan berikut sebagai panduan untuk membantu Anda dalam mengambil keputusan:

Identifikasi tugas.
- Apa fungsi model Anda?
- Apakah model Anda akan menjawab pertanyaan?
- Jika model Anda akan menjawab pertanyaan, pertimbangkan penawaran metrik jawaban pertanyaan kami.
Identifikasi metrik.
- Apakah Anda khawatir dengan keamanan respons atau kelancaran Anda? Kami memiliki metrik untuk respons dan kelancaran.

Paket metrik

Paket metrik menggabungkan metrik yang terkait secara umum untuk mempermudah proses evaluasi. Kombinasi tersebut menggunakan dimensi berikut:

Tugas evaluasi: peringkasan, menjawab pertanyaan, dan pembuatan teks
Perspektif evaluasi: kesamaan, keamanan, dan kualitas
Konsistensi input: Semua metrik dalam paket yang sama menggunakan input set data yang sama
Paradigma evaluasi: Pointwise versus pairwise

Paket metrik dapat langsung digunakan di SDK evaluasi online untuk membantu Anda mendapatkan insight dalam mengembangkan alur kerja evaluasi yang disesuaikan.

Tabel ini mencantumkan detail tentang paket metrik yang tersedia:

Nama paket metrik	Nama metrik	Input pengguna
`text_generation_similarity`	`exact match` `bleu` `rouge`	Referensi Prediksi
`tool_call_quality`	`tool_call_valid` `tool_name_match` `tool_parameter_key_match` `tool_parameter_kv_match`	Referensi Prediksi
`text_generation_quality`	`coherence` `fluency`	Prediksi
`text_generation_instruction_following`	`fulfillment`	Referensi Prediksi
`text_generation_safety`	`safety`	Prediksi
`text_generation_factuality`	`groundedness`	Konteks Prediksi
`summarization_pointwise_reference_free`	`summarization_quality` `summarization_helpfulness` `summarization_verbosity`	Petunjuk Konteks Prediksi
`summary_pairwise_reference_free`	`pairwise_summarization_quality`	Petunjuk Konteks Prediksi
`qa_pointwise_reference_free`	`question_answering_quality` `question_answering_relevance` `question_answering_helpfulness`	Petunjuk Konteks Prediksi
`qa_pointwise_reference_based`	`question_answering_correctness`	Referensi Konteks Prediksi
`qa_pairwise_reference_free`	`pairwise_question_answering_quality`	Petunjuk Konteks Prediksi

Memahami hasil metrik

Metrik yang berbeda menghasilkan hasil output yang berbeda. Oleh karena itu, kami menjelaskan makna dan cara hasil tersebut dihasilkan sehingga Anda dapat menafsirkan evaluasi Anda.

Skor dan Pilihan Berpasangan

Berdasarkan paradigma evaluasi yang dipilih, Anda akan melihat score dalam hasil evaluasi pointwise atau pairwise_choice dalam hasil evaluasi berpasangan.

Untuk evaluasi pointwise, skor dalam hasil evaluasi adalah representasi numerik dari performa atau kualitas output model yang sedang dinilai. Skala skornya berbeda untuk setiap metrik: Skala dapat berupa biner (0 dan 1), skala Likert (1 hingga 5, atau -2 hingga 2), atau float (0,0 hingga 1,0). Lihat bagian tugas dan metrik untuk mengetahui deskripsi mendetail tentang nilai skor untuk setiap metrik.

Untuk metrik berpasangan, pairwise_choice dalam hasil evaluasi adalah enumerasi yang menunjukkan apakah prediksi kandidat atau prediksi dasar pengukuran lebih baik dengan nilai yang memungkinkan berikut:

BASELINE: prediksi dasar pengukuran lebih baik
CANDIDATE: prediksi kandidat lebih baik

Saat menjalankan evaluasi berpasangan dengan layanan pipeline evaluasi, 'A' dan 'B' adalah opsi pilihan output, bukan prediksi dasar pengukuran dan kandidat.

Penjelasan dan Skor Keyakinan

Penjelasan dan skor keyakinan adalah fitur evaluasi berbasis model.

Metrik	Definisi	Jenis	Cara kerjanya
Penjelasan	Alasan autorater dipilihnya.	String	Kami menggunakan rantai pemikiran untuk memandu AutoRater menjelaskan alasan di balik setiap verdict. Memaksa AutoRater untuk memberi alasan ditampilkan untuk meningkatkan akurasi evaluasi.
Skor keyakinan	Skor antara 0 dan 1, yang menandakan seberapa yakin AutoRater dengan putusannya. Skor yang mendekati 1 berarti tingkat keyakinan yang lebih tinggi.	Float	Evaluasi berbasis model menggunakan strategi decoding konsistensi mandiri untuk menentukan hasil evaluasi, yang ditunjukkan untuk meningkatkan akurasi evaluasi. Oleh karena itu, untuk satu input evaluasi, kami mengambil sampel AutoRater beberapa kali dan menampilkan hasil konsensus. Variasi hasil sampel ini adalah ukuran keyakinan AutoRater terhadap verdictnya.

Contoh

Contoh ini memungkinkan Anda berlatih cara membaca dan memahami hasilnya.

Contoh 1

Pada contoh pertama, pertimbangkan untuk mengevaluasi instance evaluasi pointwise untuk summarizationQuality: Skor dari evaluasi pointwise metrik summarization_quality adalah 4 (dari skala 1 hingga 5), yang berarti prediksinya adalah ringkasan yang baik. Selain itu, explanation dalam hasil evaluasi menunjukkan alasan pembuat otomatis menganggap prediksi tersebut layak mendapatkan skor 4, dan bukan skor yang lebih tinggi atau lebih rendah. Skor confidence dari hasil evaluasi menunjukkan tingkat keyakinan autorater terhadap skor tersebut, dan skor keyakinan 0,8 (dari skala 0,0 hingga 1,0) berarti autorater yakin bahwa ringkasan bernilai 4.

Set data

instruction: "Rangkum teks dengan cara yang dapat dipahami oleh anak-anak berusia lima tahun."
context: "Platform Media Sosial Menghadapi Penolakan Atas Kebijakan Moderasi Konten \nSebuah platform media sosial terkemuka menghadapi kontroversi karena pengguna dan kreator konten menyatakan ketidakpuasan atas kebijakan moderasi kontennya. Dugaan penyensoran yang bias, penegakan yang tidak konsisten, dan penekanan terhadap sudut pandang tertentu telah memicu kemarahan di kalangan pengguna yang mengklaim bahwa platform ini menghambat kebebasan berbicara. Di sisi lain, platform menegaskan bahwa kebijakannya dirancang untuk menjaga lingkungan online yang aman dan inklusif. Kontroversi ini menimbulkan pertanyaan yang lebih luas tentang peran media sosial dalam membentuk wacana publik dan tanggung jawab platform dalam mengkurasi konten online."
prediction: "Orang-orang kesal dengan suatu situs karena mereka merasa tidak adil dengan informasi yang dapat diposting orang. Beberapa orang berkata bahwa {i>website<i} mencegah mereka mengatakan apa yang mereka inginkan. Tapi menurut situs web itu, upaya itu bertujuan untuk menjaga semua orang aman. Hal ini membuat orang bertanya-tanya apakah situs web harus mengontrol apa yang dapat dikatakan orang secara online."

Hasil

score: 4,
explanation: Ringkasan tersebut sebagai respons mengikuti petunjuk untuk meringkas konteks dengan cara yang dapat dipahami oleh anak berusia lima tahun. Pembahasan ini didasarkan pada konteks dan memberikan detail penting dalam ringkasannya. Namun, bahasa yang digunakan dalam respons agak panjang.
confidence: 0,8

Contoh 2

Contoh kedua adalah evaluasi perbandingan berpasangan secara berdampingan pada pairwiseQuestionAnsweringQuality: Hasil pairwiseChoice menunjukkan respons kandidat "France adalah negara yang berlokasi di Eropa Barat". Lebih disukai oleh autorater dibandingkan dengan respons dasar "Prancis adalah negara". untuk menjawab pertanyaan di instruction dengan informasi latar belakang dari context. Serupa dengan hasil pointwise, penjelasan dan skor keyakinan juga disediakan untuk menjelaskan mengapa respons kandidat lebih baik daripada respons dasar (respons kandidat lebih membantu dalam kasus ini) dan seberapa yakin autorater tentang pilihan ini (keyakinan 1 di sini berarti autorater seyakin mungkin tentang pilihan ini).

Set data

prediction: "Prancis adalah negara yang terletak di Eropa Barat.",
baseline_prediction: "Prancis adalah sebuah negara.",
instruction: "Di mana Prancis?",
context: "Prancis adalah negara yang terletak di Eropa Barat. Negara ini berbatasan dengan Belgia, Luksemburg, Jerman, Swiss, Italia, Monako, Spanyol, dan Andorra. Garis pantai Prancis membentang sepanjang Selat Inggris, Laut Utara, Samudra Atlantik, dan Laut Mediterania. Terkenal dengan sejarahnya yang kaya, bangunan terkenal yang ikonik seperti Menara Eiffel, dan masakan lezat, Prancis adalah kekuatan budaya dan ekonomi utama di Eropa dan di seluruh dunia.",

Hasil

pairwiseChoice: CANDIDATE,
explanation: Respons BASELINE didasarkan pada, tetapi tidak sepenuhnya menjawab pertanyaan. Namun, respons CANDIDATE benar dan memberikan detail yang berguna tentang lokasi Prancis.
confidence: 1

Langkah selanjutnya

Pelajari cara mulai mengevaluasi model dengan cepat.
Pelajari evaluasi online versus pipeline.
Pelajari evaluasi berbasis komputasi.
Pelajari evaluasi berbasis model berpasangan.
Pelajari cara menyesuaikan model dasar.