Set data evaluasi

Set data evaluasi biasanya terdiri dari respons model yang ingin Anda evaluasi, data input yang digunakan untuk menghasilkan respons, dan mungkin mencakup respons kebenaran dasar. Tabel ini memberikan input yang diperlukan untuk menyusun set data evaluasi.

Jenis masukan Konten kolom input
respons Respons inferensi LLM Anda yang akan dievaluasi.
instruksi Petunjuk dan prompt inferensi yang dikirim ke LLM Anda.
context Konteks yang menjadi dasar respons LLM Anda. Untuk tugas perangkuman, ini adalah teks yang diringkas oleh LLM. Untuk tugas tanya jawab, ini adalah informasi latar belakang yang disediakan LLM untuk menjawab pertanyaan uraian.
referensi Kebenaran dasar untuk membandingkan respons LLM Anda.
baseline_response Respons inferensi LLM dasar yang digunakan untuk membandingkan respons LLM Anda dalam evaluasi berdampingan. Hal ini juga dikenal sebagai respons dasar.

Input yang diperlukan untuk set data evaluasi berbeda-beda berdasarkan paradigma evaluasi dan metrik yang Anda pilih, serta sifat tugas itu sendiri. Untuk daftar lengkap metrik dan input yang diharapkan, lihat Tugas dan Metrik.

Cara menggunakan set data evaluasi

Setelah menyiapkan set data evaluasi, Anda dapat menggunakannya di Python SDK evaluasi cepat atau melalui layanan pipeline evaluasi. Set data dapat diimpor dari lokasi seperti Cloud Storage. Vertex AI juga menyediakan beberapa set data Kaggle yang telah diproses sebelumnya agar Anda dapat menyiapkan alur kerja evaluasi sebelum set data kustom siap digunakan. Anda dapat menemukan detail terkait cara menggunakan set data di Menjalankan evaluasi.

Menggunakan set data yang disesuaikan

Layanan evaluasi AI generatif dapat menggunakan set data evaluasi Anda dalam berbagai cara. Python SDK dan Pipeline kami memiliki persyaratan yang berbeda terkait format input set data evaluasi. Untuk mendapatkan informasi tentang cara mengimpor set data di Python SDK dan Pipeline, lihat Contoh evaluasi.

Fitur layanan evaluasi AI generatif Lokasi dan format set data yang didukung Input yang diperlukan
Python SDK File JSONL atau CSV yang disimpan di Cloud Storage

Tabel BigQuery

Pandas DataFrame
Formatnya harus konsisten dengan persyaratan input metrik yang dipilih sesuai dengan Tugas dan Metrik. Kolom berikut mungkin wajib diisi:
  • response
  • reference
  • instruction
  • context
Pipeline Berbasis Komputasi File JSONL yang disimpan di Cloud Storage input_text
output_text
Pipeline AutoSxS File JSONL yang disimpan di Cloud Storage

Tabel BigQuery
Formatnya harus konsisten dengan apa yang dibutuhkan oleh setiap model untuk inferensi, dan parameter diharapkan oleh pengotomatis untuk tugas evaluasi. Parameter input mencakup hal berikut:
  • Kolom ID
  • Teks input untuk inferensi atau prediksi yang telah dibuat sebelumnya
  • Parameter perintah autorater

Gunakan {i>dataset <i}Kaggle

Jika set data kustom Anda belum siap untuk digunakan dengan layanan evaluasi AI generatif, Vertex AI menyediakan set data Kaggle yang telah diproses sebelumnya. Set data mendukung tugas termasuk text generation, summarization, dan question answering. Set data diubah menjadi format berikut yang dapat digunakan oleh Python SDK dan Pipeline.

{i>Dataset<i} Kaggle Tugas yang didukung Set Data yang Telah Diproses Sebelumnya URL Cloud Storage Fitur yang didukung
BillSum General text generation

Summarization
summaries_evaluation.jsonl

summaries_evaluation_autorater.jsonl

summaries_evaluation_for_sdk.jsonl
gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation.

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_autorater.jsonl

gs://cloud-ai-public-datasets/kaggle/akornilo/billsum/evaluation/summaries_evaluation_for_sdk.jsonl
Pipeline berbasis Komputasi

Pipeline AutoSxS

evaluasi cepat Python SDK
Transkripsi Medis Klasifikasi teks medical_speciality_from_transcription.jsonl

medical_speciality_from_transcription_autorater.jsonl
gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription.jsonl

gs://cloud-ai-public-datasets/kaggle/tboyle10/medicaltranscriptions/evaluation/medical_speciality_from_transcription_autorater.jsonl
Pipeline berbasis komputasi

Pipeline AutoSxS

Saat menggunakan set data, Anda dapat memulai dengan mengambil sampel sebagian kecil baris untuk menguji alur kerja, bukan menggunakan set data lengkap. Set data yang tercantum dalam tabel mengaktifkan Pembayar Pemohon, yang berarti mereka dikenai biaya Pemrosesan Data dan biaya penggunaan Jaringan.

Langkah selanjutnya