Halaman ini diterjemahkan oleh Cloud Translation API.

Penyesuaian teks

Halaman ini memberikan prasyarat dan petunjuk mendetail untuk meningkatkan kualitas Gemini pada data teks menggunakan pembelajaran dengan pengawasan. Untuk contoh penyesuaian teks kasus penggunaan klasifikasi, analisis sentimen, dan ekstraksi, lihat Penyesuaian model untuk model teks Gemini.

Kasus penggunaan

Penyesuaian model teks memungkinkan Anda menyesuaikan model bahasa agar unggul dalam tugas berbasis teks tertentu. Bagian ini membahas berbagai kasus penggunaan saat penyesuaian dapat meningkatkan performa model secara signifikan:

Mengekstrak informasi terstruktur dari chat: Mengubah percakapan multi-giliran menjadi data yang teratur dengan menyesuaikan model untuk mengidentifikasi atribut utama dan menampilkannya dalam format terstruktur seperti JSONL.
Kategorisasi dokumen: Tingkatkan kualitas model untuk mengklasifikasikan dokumen panjang secara akurat ke dalam kategori yang telah ditentukan, sehingga memungkinkan pengaturan dan pengambilan informasi yang efisien.
Penerapan petunjuk: Meningkatkan kemampuan model untuk memahami dan menjalankan petunjuk, sehingga menghasilkan penyelesaian tugas yang lebih akurat dan andal.
Peninjauan kode otomatis: Gunakan penyesuaian untuk membuat model yang dapat memberikan peninjauan kode yang mendalam, mengidentifikasi potensi masalah, dan menyarankan peningkatan.
Ringkasan: Membuat ringkasan singkat dan informatif dari teks panjang dengan menyesuaikan model untuk menangkap esensi konten.
Pembuatan kode dan DSL: Menyesuaikan model untuk membuat kode dalam berbagai bahasa pemrograman atau bahasa khusus domain (DSL), yang mengotomatiskan tugas coding berulang.
Peningkatan performa RAG: Meningkatkan kegunaan dan akurasi sistem Retrieval-Augmented Generation (RAG) dengan menyesuaikan model bahasa yang mendasarinya.

Format set data

Berikut adalah contoh set data teks.

Untuk melihat contoh format generik, lihat Contoh set data untuk Gemini 1.5 pro dan Gemini 1.5 flash.

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

Set data sampel untuk `gemini-1.5-pro` dan `gemini-1.5-flash`

Anda dapat menggunakan set data contoh berikut untuk mempelajari cara menyesuaikan model gemini-1.5-pro atau gemini-1.5-flash.

Untuk menggunakan set data ini, tentukan URI dalam parameter yang berlaku saat membuat tugas penyesuaian yang diawasi model teks.

Contoh:

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Contoh format set data untuk Gemini 1.0 Pro

{
  "messages": [
    {
      "role": "system",
      "content": "You are a pirate dog named Captain Barktholomew."
    },
    {
      "role": "user",
      "content": "Hi"
    },
    {
      "role": "model",
      "content": "Argh! What brings ye to my ship?"
    },
    {
      "role": "user",
      "content": "What's your name?"
    },
    {
      "role": "model",
      "content": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
    }
  ]
}

Set data sampel untuk `gemini-1.0-pro`

Anda dapat menggunakan set data sampel untuk mempelajari cara menyesuaikan model gemini-1.0-pro-002.

Untuk menggunakan set data ini, tentukan URI dalam parameter yang berlaku saat membuat tugas penyesuaian yang diawasi model teks.

Contoh:

...
"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_train_data.jsonl",
...
"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/sft_validation_data.jsonl",
...

Memperkirakan biaya penyesuaian dengan set data

Notebook berikut dapat membantu Anda memperkirakan jumlah token dan biaya penyesuaian saat menjalankan tugas penyesuaian untuk gemini-1.5-pro-002.

Langkah selanjutnya

Untuk mulai menyesuaikan, lihat Menyesuaikan model Gemini menggunakan penyesuaian yang diawasi.
Untuk mempelajari cara penyesuaian tersupervisi dapat digunakan dalam solusi yang membuat pusat informasi AI generatif, lihat Solusi Praktis: Pusat informasi AI generatif.