Layanan evaluasi AI generatif memungkinkan Anda mengevaluasi performa model di seluruh kasus penggunaan tertentu.
Papan peringkat dapat memberikan ringkasan yang baik tentang performa umum model, tetapi papan peringkat tidak dapat memberikan informasi tentang seberapa baik performa model dalam kasus penggunaan spesifik Anda.
Saat mengembangkan solusi berbasis AI, model AI generatif harus mengevaluasi data pengguna dengan kriteria tetap sesuai dengan kebutuhan bisnis. Evaluasi memastikan bahwa model dapat beradaptasi dengan persyaratan khusus domain dari pengguna yang berbeda. Dengan menilai model berdasarkan tolok ukur dan tujuan yang ditetapkan pengguna, Anda dapat menerapkan rekayasa perintah dan penyesuaian model agar lebih selaras dengan konteks operasional, sensitivitas budaya, dan sasaran strategis bisnis yang Anda layani. Penilaian ini digunakan untuk memandu pengembangan dan peningkatan kualitas model sekaligus memastikan bahwa model tersebut berguna, aman, dan efektif bagi pengguna.
Di bagian ini, kami menawarkan kasus penggunaan untuk evaluasi AI generatif selama siklus proses pengembangan. Kami juga menyajikan paradigma utama, pengalaman evaluasi online
melalui Coba panduan memulai evaluasi online,
dan komponen pipeline terkait yang memungkinkan Anda memindahkan logika evaluasi ke
produksi. Anda dapat beralih antara evaluasi interaktif dan pipeline siap produksi. Hasil evaluasi dicatat
secara otomatis dalam Eksperimen Vertex AI. Kami menawarkan komponen bawaan untuk
mengevaluasi tugas, seperti summarization
atau question answering
, dan mengevaluasi
setiap metrik, seperti coherence
atau summarization verbosity
. Anda juga dapat menentukan metrik, dan memberikan kriteria untuk pelabel otomatis.
Contoh kasus penggunaan
Evaluasi AI generatif adalah proses komprehensif yang menjadi tolok ukur performa model serta memandu pengembangan strategis dan penyempurnaan model dan aplikasi AI generatif, yang membantu memastikan bahwa model AI generatif selaras dengan kebutuhan bisnis Anda. Anda dapat menggunakan AI generatif selama berbagai fase pengembangan:
- Pra-produksi: Anda dapat membuat keputusan yang lebih baik sehubungan dengan preferensi pemilihan dan penyesuaian model, seperti penyesuaian.
- Selama produksi: Anda dapat memantau performa model untuk membantu memastikan bahwa model tersebut efektif.
Evaluasi AI generatif dapat diterapkan ke berbagai skenario kasus penggunaan, termasuk hal berikut:
- Memilih model yang telah dilatih sebelumnya: Anda dapat memilih model yang telah dilatih sebelumnya untuk tugas atau aplikasi tertentu dengan mengevaluasi performa model pada tugas benchmark terkait.
- Mengonfigurasi setelan pembuatan model: Anda dapat mengoptimalkan setelan konfigurasi parameter pembuatan model, seperti
temperature
, yang dapat meningkatkan performa tugas. - Prompt Engineering menggunakan template: Anda dapat mendesain perintah yang lebih efektif yang menghasilkan output berkualitas lebih tinggi, yang meningkatkan interaksi pengguna dengan model.
- Meningkatkan dan mengamankan fine-tuning: Proses fine-tuning meningkatkan performa model sekaligus menghindari bias atau perilaku yang tidak diinginkan.
Untuk mengetahui contoh lainnya, lihat Contoh evaluasi.
Layanan evaluasi
Vertex AI menawarkan dua solusi untuk melakukan evaluasi terhadap model AI generatif: layanan evaluasi online evaluasi cepat dan template evaluasi yang dibuat di Vertex AI Pipelines (AutoSxS dan berbasis komputasi). Pilih layanan yang paling sesuai dengan kasus penggunaan Anda:
Layanan | Kasus penggunaan |
---|---|
Evaluasi online (evaluasi cepat) | Beberapa hal yang perlu dievaluasi. Alur kerja yang membutuhkan iterasi cepat. |
Evaluasi pipeline (AutoSxS & berbasis komputasi) | Banyak instance untuk dievaluasi. Alur kerja asinkron dan MLOps. |
Evaluasi cepat
Layanan evaluasi cepat menghasilkan latensi rendah dan evaluasi sinkron pada batch data yang kecil. Anda dapat melakukan evaluasi sesuai permintaan, dan mengintegrasikan layanan online dengan layanan Vertex AI lainnya menggunakan Vertex AI SDK untuk Python. Dengan menggunakan SDK, layanan online dapat disesuaikan dengan berbagai kasus penggunaan.
Layanan online paling cocok untuk kasus penggunaan yang melibatkan batch kecil data atau jika Anda harus melakukan iterasi dan eksperimen dengan cepat.
Layanan pipeline: AutoSxS dan berbasis komputasi
Layanan pipeline evaluasi menyediakan solusi menyeluruh untuk mengevaluasi model AI generatif. Solusi ini menggunakan Vertex AI Pipelines untuk mengorkestrasi serangkaian langkah terkait evaluasi, seperti menghasilkan respons model, memanggil layanan evaluasi online, dan metrik komputasi. Langkah-langkah ini juga dapat dipanggil satu per satu dalam pipeline kustom.
Karena Vertex AI Pipelines bersifat serverless, terdapat latensi pengaktifan yang lebih tinggi terkait penggunaan pipeline untuk evaluasi. Oleh karena itu, layanan ini lebih cocok untuk tugas evaluasi yang lebih besar, alur kerja yang tidak segera diperlukan, dan integrasi ke dalam pipeline MLOps.
Kami menawarkan dua pipeline evaluasi terpisah, sebagai berikut:
- AutoSxS: Berbasis model, evaluasi berpasangan.
- Berbasis komputasi: Evaluasi Berbasis komputasi dengan pointwise.
Paradigma evaluasi
Evaluasi AI generatif berfungsi karena dua paradigma untuk mengevaluasi model, yang meliputi:
- Pointwise: Anda dapat mengevaluasi satu model.
- Pairwise: Anda dapat membandingkan dua model satu sama lain.
Sudut
Evaluasi pointwise menilai performa model tunggal. Hal ini membantu Anda memahami seberapa baik performa model pada tugas tertentu, seperti summarization
atau dimensi, seperti instruction following
. Proses
evaluasi mencakup langkah-langkah berikut:
- Hasil prediksi dihasilkan dari model berdasarkan prompt input.
- Evaluasi dilakukan berdasarkan hasil yang dihasilkan.
Bergantung pada metode evaluasi, pasangan input dan output serta kebenaran dasar mungkin diperlukan. Jika kebenaran dasar tersedia, output model
dievaluasi berdasarkan seberapa baik output selaras dengan hasil yang diharapkan.
Untuk mengetahui informasi selengkapnya,
lihat Melakukan evaluasi berbasis komputasi.
Jika digunakan tanpa kebenaran dasar, evaluasi akan bergantung pada respons model
terhadap perintah input. Model autorater terpisah juga digunakan. Untuk mengetahui informasi selengkapnya,
lihat Melakukan evaluasi berbasis model berpasangan
untuk menghasilkan metrik yang disesuaikan dengan sifat tugas. Misalnya, Anda
dapat menggunakan coherence
dan relevance
dalam text generation
atau accuracy
di
summarization
.
Paradigma ini memungkinkan pemahaman tentang kemampuan model dalam menghasilkan konten, memberikan insight tentang kekuatan model dan area untuk peningkatan dalam konteks mandiri, tanpa memerlukan perbandingan langsung dengan model lain.
Berpasangan
Evaluasi berpasangan dilakukan dengan membandingkan prediksi dari dua model. Anda memiliki model A untuk dievaluasi
terhadap model B, model referensi dasar. Anda harus memberikan perintah input
yang mewakili domain input yang digunakan untuk perbandingan model.
Dengan perintah input yang sama, perbandingan secara berdampingan menentukan prediksi model mana yang lebih disukai berdasarkan kriteria perbandingan Anda. Hasil evaluasi akhir
diambil oleh win rate
. Paradigma ini juga dapat beroperasi tanpa
perlu referensi terhadap data kebenaran dasar.
Metode evaluasi
Ada dua kategori metrik berdasarkan metode evaluasi, yang meliputi:
Metrik berbasis komputasi
Metrik berbasis komputasi membandingkan apakah hasil yang dihasilkan LLM konsisten dengan set data kebenaran dasar dari pasangan input dan output. Metrik yang biasa digunakan dapat dikategorikan ke dalam grup berikut:
- Metrik berbasis Lexicon: Gunakan matematika untuk menghitung kesamaan string
antara hasil yang dihasilkan LLM dan kebenaran
dasar, seperti
Exact Match
danROUGE
. - Metrik berbasis jumlah: Menggabungkan jumlah baris yang mencapai atau melewatkan label kebenaran dasar tertentu, seperti
F1-score
,Accuracy
, danTool Name Match
. - Metrik berbasis penyematan: Menghitung jarak antara hasil yang dihasilkan LLM dan kebenaran dasar dalam ruang embedding, yang mencerminkan tingkat kemiripannya.
Dalam layanan evaluasi AI generatif, Anda dapat menggunakan metrik berbasis komputasi melalui Pipeline dan Python SDK evaluasi cepat. Evaluasi berbasis komputasi dapat dilakukan hanya dalam kasus penggunaan pointwise. Namun, Anda dapat langsung membandingkan skor metrik dari dua model untuk perbandingan berpasangan.
Metrik berbasis model
Model autorater digunakan untuk membuat metrik evaluasi berbasis model. Autorater melakukan evaluasi yang kompleks dan bervariasi, yang biasanya dilakukan oleh evaluator manual yang mahal. Autorater mencoba menambah evaluasi manual, dan kami mengkalibrasi kualitas autorater secara offline dengan penilai manusia. Sama seperti evaluator manual, autorater menentukan kualitas respons melalui output skor numerik dan memberikan alasan di balik penilaiannya beserta tingkat keyakinan. Untuk mengetahui informasi selengkapnya, baca Melihat hasil evaluasi.
Evaluasi berbasis model tersedia secara on demand dan mengevaluasi model bahasa dengan performa yang sebanding dengan pelabel manusia. Beberapa manfaat tambahan dari evaluasi berbasis model mencakup hal berikut:
- Mengevaluasi model bahasa alami tanpa data preferensi manusia.
- Mencapai skala yang lebih baik, meningkatkan ketersediaan, dan mengurangi biaya dibandingkan dengan mengevaluasi model bahasa dengan penilai manusia.
- Mencapai transparansi rating dengan mencatat penjelasan preferensi dan skor keyakinan.
Diagram ini mengilustrasikan cara kerja evaluasi berbasis model berpasangan, yang dapat dilakukan dalam kasus penggunaan pointwise dan pairwise. Anda dapat melihat cara autorater melakukan evaluasi berpasangan dalam layanan pipeline evaluasi, AutoSxS.
Langkah selanjutnya
- Pelajari cara mulai mengevaluasi model dengan cepat.
- Pelajari evaluasi online dengan evaluasi cepat.
- Pelajari evaluasi berpasangan berbasis model dengan pipeline AutoSxS.
- Pelajari pipeline evaluasi berbasis komputasi.
- Pelajari cara menyesuaikan model dasar.