Dokumen ini menjelaskan cara menentukan set data penyesuaian yang diawasi untuk model Gemini.
Tentang set data penyesuaian yang diawasi
Set data supervised tuning digunakan untuk menyesuaikan model yang telah dilatih sebelumnya ke tugas atau domain tertentu. Data input harus mirip dengan apa yang Anda harapkan dari model dalam penggunaan dunia nyata. Label output harus mewakili jawaban atau hasil yang benar untuk setiap input.
Set data pelatihan
Untuk men-tuning model, Anda perlu memberikan set data pelatihan. Set data pelatihan harus menyertakan minimal 16 contoh. Untuk hasil terbaik, sebaiknya berikan setidaknya 100 hingga 500 contoh. Semakin banyak contoh yang diberikan di set data Anda, semakin baik hasilnya. Tidak ada batasan jumlah contoh dalam set data pelatihan.
Set data validasi
Jika memungkinkan, berikan juga set data validasi. Set data validasi membantu Anda mengukur efektivitas tugas tuning. Set data validasi mendukung hingga 256 contoh.
Untuk set data sampel, lihat Set data sampel di halaman ini.
Format set data
Set data penyesuaian model Anda harus dalam format Garis JSON (JSONL), dengan setiap baris berisi satu contoh penyesuaian. Sebelum menyesuaikan model, Anda harus mengupload set data ke bucket Cloud Storage.
Setiap contoh percakapan dalam set data penyesuaian terdiri dari kolom
messages
yang diperlukan.
Kolom
messages
terdiri dari array pasangan konten peran. Kolomrole
mengacu pada penulis pesan dan ditetapkan kesystem
,user
, ataumodel
. Peransystem
bersifat opsional dan hanya dapat muncul di elemen pertama daftar pesan. Peranuser
ataumodel
diperlukan dan dapat diulang secara bergantian.Kolom
content
adalah konten pesan.Untuk setiap contoh, panjang token maksimum untuk
context
danmessages
yang digabungkan adalah 32.768 token. Selain itu, setiap kolomcontent
untuk kolommodel
tidak boleh melebihi 8.192 token.
Contoh belokan tunggal
Untuk mengetahui detail selengkapnya tentang skema Gemini berikut, lihat Memigrasikan penyesuaian dari PaLM API ke Gemini API.
{"messages": [{"role": "system", "content": "You should classify the text into one of the following classes:[business, entertainment]"},{"role": "user","content": "Diversify your investment portfolio"},{"role": "model","content": "business"}]}
{"messages": [{"role": "system", "content": "You should classify the text into one of the following classes:[business, entertainment]"},{"role": "user","content": "Watch a live concert"},{"role": "model","content": "entertainment"}]}
Contoh multi-putar
Untuk mengetahui detail selengkapnya tentang skema Gemini berikut, lihat Memigrasikan penyesuaian dari PaLM API ke Gemini API.
{
"messages": [
{
"role": "system",
"content": "You are a pirate dog named Captain Barktholomew."
},
{
"role": "user",
"content": "Hi"
},
{
"role": "model",
"content": "Argh! What brings ye to my ship?"
},
{
"role": "user",
"content": "What's your name?"
},
{
"role": "model",
"content": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
}
]
}
Contoh set data
Anda dapat menggunakan set data sampel untuk mempelajari cara menyesuaikan model gemini-1.0-pro-002
.
Untuk menggunakan set data ini, tentukan URI dalam parameter yang berlaku saat membuat tugas supervised tuning model teks.
Contoh:
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
Menjaga konsistensi dengan data produksi
Contoh dalam set data harus sesuai dengan traffic produksi yang Anda harapkan. Jika set data Anda berisi pemformatan, kata kunci, petunjuk, atau informasi tertentu, data produksi harus diformat dengan cara yang sama dan berisi petunjuk yang sama.
Misalnya, jika contoh di set data Anda menyertakan "question:"
dan "context:"
, traffic produksi juga harus diformat untuk menyertakan "question:"
dan "context:"
dalam urutan yang sama seperti yang tampak
pada contoh set data. Jika Anda mengecualikan konteks, model tidak akan mengenali pola, meskipun pertanyaan yang sama ada dalam contoh dalam set data.
Mengupload set data penyesuaian ke Cloud Storage
Untuk menjalankan tugas penyesuaian, Anda perlu mengupload satu atau beberapa set data ke bucket Cloud Storage. Anda dapat membuat bucket Cloud Storage baru atau menggunakan bucket yang sudah ada untuk menyimpan file set data. Region bucket tidak penting, tetapi sebaiknya gunakan bucket yang ada di project Google Cloud yang sama tempat Anda berencana men-tuning model.
Setelah bucket siap, upload file set data Anda ke bucket.
Langkah selanjutnya
- Untuk mengetahui informasi umum tentang cara kerja penyesuaian, lihat Ringkasan penyesuaian model untuk Gemini.
- Pilih region untuk men-tuning model.
- Untuk mempelajari cara pemanfaatan supervised tuning dalam solusi yang membangun basis pengetahuan AI generatif, lihat Jump Start Solution: Generative AI Knowledge base.