Halaman ini menyediakan daftar lengkap metrik berbasis rubrik terkelola yang ditawarkan oleh layanan evaluasi AI Generatif, yang dapat Anda gunakan di Klien GenAI di Vertex AI SDK.
Untuk mengetahui informasi selengkapnya tentang evaluasi berbasis pengujian, lihat Menentukan metrik evaluasi.
Ringkasan
Layanan evaluasi AI generatif menawarkan daftar metrik berbasis rubrik terkelola untuk framework evaluasi berbasis pengujian:
Untuk metrik dengan rubrik adaptif, sebagian besar metrik menyertakan alur kerja untuk pembuatan rubrik bagi setiap perintah dan validasi rubrik. Anda dapat menjalankannya secara terpisah jika diperlukan. Lihat Menjalankan evaluasi untuk mengetahui detailnya.
Untuk metrik dengan rubrik statis, tidak ada rubrik per-prompt yang dibuat. Untuk mengetahui detail terkait output yang diinginkan, lihat Detail metrik.
Setiap metrik berbasis rubrik terkelola memiliki nomor versi. Metrik menggunakan versi terbaru secara default, tetapi Anda dapat menyematkan ke versi tertentu jika diperlukan:
from vertexai import types
text_quality_metric = types.RubricMetric.TEXT_QUALITY
general_quality_v1 = types.RubricMetric.GENERAL_QUALITY(version='v1')
Kompatibilitas mundur
Untuk metrik yang ditawarkan sebagai Template prompt metrik, Anda masih dapat mengakses metrik pointwise melalui Klien GenAI di Vertex AI SDK dengan pendekatan yang sama. Metrik berpasangan tidak didukung oleh Klien GenAI di Vertex AI SDK, tetapi lihat Menjalankan evaluasi untuk membandingkan dua model dalam evaluasi yang sama.
from vertexai import types
# Access metrics represented by metric prompt template examples
coherence = types.RubricMetric.COHERENCE
fluency = types.RubricMetric.FLUENCY
Detail metrik terkelola
Bagian ini mencantumkan metrik terkelola dengan detail seperti jenis, input yang diperlukan, dan output yang diharapkan:
- Kualitas umum
- Kualitas teks
- Mengikuti petunjuk (Instruction following)
- Perujukan (Grounding)
- Keselamatan
- Kualitas umum multi-turn
- Kualitas teks multi-turn
- Pencocokan respons akhir agen
- Referensi respons akhir agen gratis
Kualitas umum
Versi terbaru | general_quality_v1 |
Jenis | Rubrik adaptif |
Deskripsi | Metrik rubrik adaptif komprehensif yang mengevaluasi kualitas keseluruhan respons model. Alat ini otomatis membuat dan menilai berbagai kriteria berdasarkan konten perintah. Ini adalah titik awal yang direkomendasikan untuk sebagian besar evaluasi. |
Cara mengakses di SDK | types.RubricMetric.GENERAL_QUALITY |
Input |
|
Output |
|
Jumlah panggilan LLM | 6 panggilan ke Gemini 2.5 Flash |
Kualitas teks
Versi terbaru | text_quality_v1 |
Jenis | Rubrik adaptif |
Deskripsi | Metrik rubrik adaptif yang ditargetkan dan secara khusus mengevaluasi kualitas linguistik respons. Alat ini menilai aspek seperti kelancaran, koherensi, dan tata bahasa. |
Cara mengakses di SDK | types.RubricMetric.TEXT_QUALITY |
Input |
|
Output |
|
Jumlah panggilan LLM | 6 panggilan ke Gemini 2.5 Flash |
Mengikuti petunjuk
Versi terbaru | instruction_following_v1 |
Jenis | Rubrik adaptif |
Deskripsi | Metrik rubrik adaptif yang ditargetkan dan mengukur seberapa baik respons mematuhi batasan dan petunjuk khusus yang diberikan dalam perintah. |
Cara mengakses di SDK | types.RubricMetric.INSTRUCTION_FOLLOWING |
Input |
|
Output |
|
Jumlah panggilan LLM | 6 panggilan ke Gemini 2.5 Flash |
Grounding
Versi terbaru | grounding_v1 |
Jenis | Rubrik statis |
Deskripsi | Metrik berbasis skor yang memeriksa faktualitas dan konsistensi. Hal ini memverifikasi bahwa respons model didasarkan pada konteks. |
Cara mengakses di SDK | types.RubricMetric.GROUNDING |
Input |
|
Output |
0-1 , dan merepresentasikan rasio klaim yang diberi label sebagai supported atau no_rad (tidak memerlukan atribusi faktual, seperti salam, pertanyaan, atau pernyataan penyangkalan) terhadap perintah input.
Penjelasan berisi pengelompokan kalimat, label, alasan, dan kutipan dari konteks. |
Jumlah panggilan LLM | 1 panggilan ke Gemini 2.5 Flash |
Keamanan
Versi terbaru | safety_v1 |
Jenis | Rubrik statis |
Deskripsi |
Metrik berbasis skor yang menilai apakah respons model melanggar satu atau beberapa kebijakan berikut:
|
Cara mengakses di SDK | types.RubricMetric.SAFETY |
Input |
|
Output |
0 tidak aman dan 1 aman.
Kolom penjelasan mencakup kebijakan yang dilanggar. |
Jumlah panggilan LLM | 10 panggilan ke Gemini 2.5 Flash |
Kualitas umum multi-turn
Versi terbaru | multi_turn_general_quality_v1 |
Jenis | Rubrik adaptif |
Deskripsi | Metrik rubrik adaptif yang mengevaluasi kualitas keseluruhan respons model dalam konteks dialog multi-giliran. |
Cara mengakses di SDK | types.RubricMetric.MULTI_TURN_GENERAL_QUALITY |
Input |
|
Output |
|
Jumlah panggilan LLM | 6 panggilan ke Gemini 2.5 Flash |
Kualitas teks multi-turn
Versi terbaru | multi_turn_text_quality_v1 |
Jenis | Rubrik adaptif |
Deskripsi | Metrik rubrik adaptif yang mengevaluasi kualitas teks respons model dalam konteks dialog multi-giliran. |
Cara mengakses di SDK | types.RubricMetric.TEXT_QUALITY |
Input |
|
Output |
|
Jumlah panggilan LLM | 6 panggilan ke Gemini 2.5 Flash |
Pencocokan respons akhir agen
Versi terbaru | final_response_match_v2 |
Jenis | Rubrik statis |
Deskripsi | Metrik yang mengevaluasi kualitas jawaban akhir agen AI dengan membandingkannya dengan jawaban referensi (kebenaran nyata) yang diberikan. |
Cara mengakses di SDK | types.RubricMetric.FINAL_RESPONSE_MATCH |
Input |
|
Output |
Skor
|
Jumlah panggilan LLM | 5 panggilan ke Gemini 2.5 Flash |
Referensi respons akhir agen tanpa biaya
Versi terbaru | final_response_reference_free_v1 |
Jenis | Rubrik adaptif |
Deskripsi | Metrik rubrik adaptif yang mengevaluasi kualitas jawaban akhir agen AI tanpa memerlukan jawaban referensi.
Anda harus memberikan rubrik untuk metrik ini, karena metrik ini tidak mendukung rubrik yang dibuat secara otomatis. |
Cara mengakses di SDK | types.RubricMetric.FINAL_RESPONSE_REFERENCE_FREE |
Input |
|
Output |
|
Jumlah panggilan LLM | 5 panggilan ke Gemini 2.5 Flash |