Set data evaluasi biasanya terdiri dari respons model yang ingin Anda evaluasi, data input yang digunakan untuk menghasilkan respons, dan mungkin mencakup respons kebenaran dasar. Tabel ini memberikan input yang diperlukan untuk menyusun set data evaluasi.
Jenis masukan | Konten kolom input |
---|---|
respons | Respons inferensi LLM Anda yang akan dievaluasi. |
instruksi | Petunjuk dan prompt inferensi yang dikirim ke LLM Anda. |
context | Konteks yang menjadi dasar respons LLM Anda. Untuk tugas perangkuman, ini adalah teks yang diringkas oleh LLM. Untuk tugas tanya jawab, ini adalah informasi latar belakang yang disediakan LLM untuk menjawab pertanyaan uraian. |
referensi | Kebenaran dasar untuk membandingkan respons LLM Anda. |
baseline_response | Respons inferensi LLM dasar yang digunakan untuk membandingkan respons LLM Anda dalam evaluasi berdampingan. Hal ini juga dikenal sebagai respons dasar. |
Input yang diperlukan untuk set data evaluasi berbeda-beda berdasarkan paradigma evaluasi dan metrik yang Anda pilih, serta sifat tugas itu sendiri. Untuk daftar lengkap metrik dan input yang diharapkan, lihat Tugas dan Metrik.
Cara menggunakan set data evaluasi
Setelah menyiapkan set data evaluasi, Anda dapat menggunakannya di Python SDK evaluasi cepat atau melalui layanan pipeline evaluasi. Set data dapat diimpor dari lokasi seperti Cloud Storage. Vertex AI juga menyediakan beberapa set data Kaggle yang telah diproses sebelumnya agar Anda dapat menyiapkan alur kerja evaluasi sebelum set data kustom siap digunakan. Anda dapat menemukan detail terkait cara menggunakan set data di Menjalankan evaluasi.
Menggunakan set data yang disesuaikan
Layanan evaluasi AI generatif dapat menggunakan set data evaluasi Anda dalam berbagai cara. Python SDK dan Pipeline kami memiliki persyaratan yang berbeda terkait format input set data evaluasi. Untuk mendapatkan informasi tentang cara mengimpor set data di Python SDK dan Pipeline, lihat Contoh evaluasi.
Fitur layanan evaluasi AI generatif | Lokasi dan format set data yang didukung | Input yang diperlukan |
---|---|---|
Python SDK | File JSONL atau CSV yang disimpan di Cloud Storage Tabel BigQuery Pandas DataFrame |
Formatnya harus konsisten dengan persyaratan input metrik yang dipilih sesuai dengan Tugas dan Metrik. Kolom berikut mungkin wajib diisi:
|
Pipeline Berbasis Komputasi | File JSONL yang disimpan di Cloud Storage | input_text output_text |
Pipeline AutoSxS | File JSONL yang disimpan di Cloud Storage Tabel BigQuery |
Formatnya harus konsisten dengan apa yang dibutuhkan oleh setiap model untuk inferensi, dan parameter diharapkan oleh pengotomatis untuk tugas evaluasi. Parameter input mencakup hal berikut:
|
Gunakan {i>dataset <i}Kaggle
Jika set data kustom Anda belum siap untuk digunakan dengan layanan evaluasi AI generatif, Vertex AI menyediakan set data Kaggle yang telah diproses sebelumnya.
Set data mendukung tugas termasuk text generation
, summarization
, dan
question answering
. Set data diubah menjadi format berikut yang dapat digunakan oleh Python SDK dan Pipeline.
{i>Dataset<i} Kaggle | Tugas yang didukung | Set Data yang Telah Diproses Sebelumnya | URL Cloud Storage | Fitur yang didukung |
---|---|---|---|---|
BillSum | General text generation Summarization |
summaries_evaluation.jsonl summaries_evaluation_autorater.jsonl summaries_evaluation_for_sdk.jsonl |
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation. gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl |
Pipeline berbasis Komputasi Pipeline AutoSxS evaluasi cepat Python SDK |
Transkripsi Medis | Klasifikasi teks | medical_speciality_from_transcription.jsonl medical_speciality_from_transcription_autorater.jsonl |
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl |
Pipeline berbasis komputasi Pipeline AutoSxS |
Saat menggunakan set data, Anda dapat memulai dengan mengambil sampel sebagian kecil baris untuk menguji alur kerja, bukan menggunakan set data lengkap. Set data yang tercantum dalam tabel mengaktifkan Pembayar Pemohon, yang berarti mereka dikenai biaya Pemrosesan Data dan biaya penggunaan Jaringan.
Langkah selanjutnya
- Coba notebook contoh evaluasi.
- Pelajari evaluasi AI generatif.
- Pelajari evaluasi online dengan evaluasi cepat.
- Pelajari evaluasi berpasangan berbasis model dengan pipeline AutoSxS.
- Pelajari pipeline evaluasi berbasis komputasi.
- Pelajari cara menyesuaikan model dasar.