Contoh evaluasi

Kami menyediakan beberapa contoh cara menggunakan SDK evaluasi cepat untuk melakukan evaluasi pada model AI generatif Anda.

Mengevaluasi dan mengoptimalkan desain template perintah

Gunakan SDK evaluasi cepat untuk mengevaluasi efek rekayasa perintah. Periksa statistik yang sesuai dengan setiap template perintah untuk memahami pengaruh perbedaan dalam perintah dengan hasil evaluasi.

Untuk melihat contoh menyeluruh, lihat notebook Mengevaluasi dan Mengoptimalkan Desain Template Perintah untuk Hasil yang Lebih Baik.

Mengevaluasi dan memilih model LLM menggunakan metrik tolok ukur

Gunakan SDK evaluasi cepat untuk menilai model Gemini Pro dan Text Bison pada set data benchmark dan tugas.

Untuk melihat contoh menyeluruh, lihat Skor dan Model LLM Tertentu di notebook.

Evaluasi dan pilih setelan pembuatan model

Gunakan SDK evaluasi cepat untuk menyesuaikan suhu Gemini Pro pada tugas perangkuman dan untuk mengevaluasi quality, fluency, safety, dan verbosity.

Untuk melihat contoh menyeluruh, lihat notebook Mengevaluasi dan Memilih Setelan Pembuatan Model.

Menentukan metrik

Gunakan SDK evaluasi cepat untuk mengevaluasi beberapa template perintah dengan metrik yang ditentukan secara khusus.

Untuk contoh menyeluruh, lihat notebook Menentukan Metrik Anda Sendiri.

Mengevaluasi penggunaan alat

Gunakan SDK evaluasi cepat untuk menentukan fungsi API dan alat untuk model Gemini. Anda juga dapat menggunakan SDK untuk mengevaluasi penggunaan alat dan kualitas panggilan fungsi untuk Gemini.

Untuk melihat contoh menyeluruh, lihat Evaluasi Penggunaan Alat Model Generatif dan Panggilan Fungsi.

Langkah selanjutnya