Dokumen ini menjelaskan cara menetapkan set data fine-tuning yang diawasi untuk model Gemini model transformer.
Tentang set data fine-tuning yang diawasi
Set data fine-tuning yang diawasi digunakan untuk melakukan fine-tuning model yang telah dilatih tugas atau domain tertentu. Data input harus mirip dengan Anda harapkan dari model tersebut untuk digunakan di dunia nyata. Label output harus merepresentasikan jawaban atau hasil yang benar untuk setiap input.
Set data pelatihan
Untuk men-tuning model, Anda menyediakan set data pelatihan. {i>Dataset<i} pelatihan harus berisi minimal 16 contoh. Untuk hasil terbaik, sebaiknya Anda memberikan untuk setidaknya 100 hingga 500 contoh. Semakin banyak contoh yang diberikan di set data Anda, semakin baik hasilnya. Tidak ada batasan jumlah contoh dalam set data pelatihan.
Set data validasi
Jika memungkinkan, berikan juga set data validasi. Set data validasi membantu Anda mengukur efektivitas tugas tuning. Set data validasi mendukung hingga 256 contoh.
Untuk set data sampel, lihat Set data sampel di halaman ini.
Format set data
Set data penyesuaian model Anda harus dalam format Garis JSON (JSONL), dengan setiap baris berisi satu contoh penyesuaian. Sebelum men-tuning model, Anda harus mengupload set data ke bucket Cloud Storage.
Setiap contoh percakapan dalam set data tuning terdiri dari kolom
Kolom messages
.
Kolom
messages
terdiri dari array pasangan peran-konten.role
merujuk ke penulis pesan dan disetel kesystem
,user
, ataumodel
. Peransystem
bersifat opsional dan hanya dapat terjadi di elemen pertama dari daftar pesan. Peranuser
ataumodel
wajib diisi dan dapat diulang secara bergantian.Kolom
content
adalah konten pesan.Untuk setiap contoh, panjang token maksimum untuk
context
danmessages
yang digabungkan adalah 32.768 token. Selain itu, setiap kolomcontent
untuk kolommodel
tidak boleh melebihi 8.192 token.
Contoh satu putaran
Untuk mengetahui detail selengkapnya tentang skema Gemini berikut, lihat Memigrasikan penyesuaian dari PaLM API ke Gemini API.
[
{
"messages": [
{
"role": "system",
"content": "You should classify the text into one of the following classes:[business, entertainment]"
},
{ "role": "user", "content": "Diversify your investment portfolio" },
{ "role": "model", "content": "business" }
]
},
{
"messages": [
{
"role": "system",
"content": "You should classify the text into one of the following classes:[business, entertainment]"
},
{ "role": "user", "content": "Watch a live concert" },
{ "role": "model", "content": "entertainment" }
]
}
]
Contoh multi-putar
Untuk mengetahui detail selengkapnya tentang skema Gemini berikut, lihat Memigrasikan penyesuaian dari PaLM API ke Gemini API.
{
"messages": [
{
"role": "system",
"content": "You are a pirate dog named Captain Barktholomew."
},
{
"role": "user",
"content": "Hi"
},
{
"role": "model",
"content": "Argh! What brings ye to my ship?"
},
{
"role": "user",
"content": "What's your name?"
},
{
"role": "model",
"content": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
}
]
}
Contoh set data
Anda dapat menggunakan set data sampel untuk mempelajari cara menyesuaikan model gemini-1.0-pro-002
.
Untuk menggunakan set data ini, tentukan URI dalam parameter yang berlaku saat membuat tugas fine-tuning model teks yang diawasi.
Contoh:
...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...
Menjaga konsistensi dengan data produksi
Contoh dalam set data harus sesuai dengan traffic produksi yang Anda harapkan. Jika set data Anda berisi pemformatan, kata kunci, petunjuk, atau informasi tertentu, data produksi harus diformat dengan cara yang sama dan berisi petunjuk yang sama.
Misalnya, jika contoh di set data Anda menyertakan "question:"
dan "context:"
, traffic produksi juga harus diformat untuk menyertakan "question:"
dan "context:"
dalam urutan yang sama seperti yang tampak
pada contoh set data. Jika Anda mengecualikan konteks, model tidak akan mengenali pola, meskipun pertanyaan yang sama ada dalam contoh dalam set data.
Mengupload set data penyesuaian ke Cloud Storage
Untuk menjalankan tugas penyesuaian, Anda perlu mengupload satu atau beberapa set data ke bucket Cloud Storage. Anda dapat membuat bucket Cloud Storage baru atau menggunakan bucket yang sudah ada untuk menyimpan file set data. Region bucket tidak itu penting, tetapi sebaiknya Anda menggunakan bucket yang memiliki project Google Cloud tempat Anda berencana untuk menyesuaikan model.
Setelah bucket siap, upload file set data Anda ke bucket.
Memperkirakan biaya tuning dengan set data
Notebook berikut dapat membantu Anda memperkirakan jumlah token dan biaya penyesuaian
saat menjalankan tugas tuning untuk gemini-1.0-pro-002
.
Langkah selanjutnya
- Pilih region untuk menyesuaikan model.
- Untuk mempelajari bagaimana supervised-tuning dapat digunakan dalam solusi yang membangun Pusat informasi AI generatif, lihat Solusi Jump Start: AI Generatif pusat informasi ini.