Tentang penyesuaian yang diawasi

Fine-tuning yang diawasi adalah opsi yang tepat saat Anda memiliki tugas yang didefinisikan dengan baik dengan data berlabel yang tersedia. Hal ini sangat efektif untuk aplikasi khusus domain yang bahasa atau kontennya sangat berbeda dari data yang awalnya digunakan untuk melatih model besar.

Tuning yang diawasi akan menyesuaikan perilaku model dengan set data berlabel. Proses ini menyesuaikan bobot model untuk meminimalkan perbedaan antara prediksinya dan label sebenarnya. Hal ini dapat meningkatkan performa model untuk jenis tugas berikut:

  • Classification
  • Analisis sentimen
  • Ekstraksi entity
  • Meringkas konten yang tidak rumit
  • Menulis kueri khusus domain.

Model yang didukung

Model teks Gemini berikut mendukung penyesuaian yang diawasi:

  • gemini-1.0-pro-002.

Kasus penggunaan untuk menggunakan penyesuaian yang diawasi pada model teks

Model teks dasar berfungsi dengan baik jika output atau tugas yang diharapkan dapat ditentukan dengan jelas dan ringkas dalam prompt, dan prompt secara konsisten menghasilkan output yang diharapkan. Jika Anda ingin model mempelajari sesuatu yang khusus atau spesifik yang menyimpang dari pola bahasa umum, sebaiknya pertimbangkan untuk menyesuaikan model tersebut. Misalnya, Anda dapat menggunakan penyesuaian model untuk mengajarkan model hal berikut ini:

  • Struktur atau format spesifik untuk menghasilkan output.
  • Perilaku spesifik seperti kapan harus memberikan output yang singkat atau panjang.
  • Output yang disesuaikan dan spesifik untuk jenis input tertentu.

Contoh berikut adalah kasus penggunaan yang sulit direkam hanya dengan petunjuk perintah:

  • Klasifikasi: Respons yang diharapkan adalah kata atau frasa tertentu.

    Menyesuaikan model dapat membantu mencegah model menghasilkan respons panjang.

  • Ringkasan: Ringkasan mengikuti format tertentu. Misalnya, Anda mungkin perlu menghapus informasi identitas pribadi (PII) dalam ringkasan chat.

    Pemformatan berupa penggantian nama pembicara dengan #Person1 dan #Person2 sulit dijelaskan dan model dasar mungkin tidak secara alami menghasilkan respons tersebut.

  • Question answering ekstraksi: Pertanyaannya tentang konteks dan jawabannya adalah substring konteks tersebut

    Respons "Glasial Maksimum Terakhir" adalah frasa spesifik dari konteks.

  • Chat: Anda perlu menyesuaikan respons model untuk mengikuti persona, peran, atau karakter.

Anda juga dapat menyesuaikan model dalam situasi berikut:

  • Perintah tidak memberikan hasil yang diharapkan secara konsisten.
  • Tugas terlalu rumit untuk ditentukan dalam perintah. Misalnya, Anda ingin model melakukan clone perilaku untuk perilaku yang sulit diuraikan dalam perintah.
  • Anda memiliki intuisi kompleks tentang tugas yang mudah diajukan, tetapi sulit diformalkan dalam sebuah perintah.
  • Anda ingin mengurangi panjang konteks dengan menghapus contoh few-shot.

Langkah selanjutnya