Rekomendasi LoRA dan QLoRA untuk LLM

Halaman ini memberi Anda rekomendasi konfigurasi untuk menyesuaikan model bahasa besar (LLM) di Vertex AI dengan menggunakan Low-Rank Adaptation of Large Language Models (LoRA) dan versi yang lebih hemat memori, QLoRA.

Menyesuaikan rekomendasi

Tabel berikut merangkum rekomendasi kami untuk menyesuaikan LLM menggunakan LoRA atau QLoRA:

Spesifikasi Disarankan Detail
Efisiensi memori GPU QLoRA QLoRA memiliki penggunaan memori GPU puncak yang sekitar 75% lebih kecil dibandingkan dengan LoRA.
Kecepatan LoRA LoRA sekitar 66% lebih cepat daripada QLoRA dalam hal kecepatan penyesuaian.
Efisiensi biaya LoRA Meskipun kedua metode ini relatif tidak mahal, LoRA hingga 40% lebih murah daripada QLoRA.
Panjang urutan maksimum yang lebih tinggi QLoRA Panjang urutan maksimum yang lebih tinggi akan meningkatkan konsumsi memori GPU. QLoRA menggunakan lebih sedikit memori GPU sehingga dapat mendukung panjang urutan maksimum yang lebih tinggi.
Peningkatan akurasi Sama Kedua metode ini menawarkan peningkatan akurasi yang serupa.
Ukuran batch yang lebih tinggi QLoRA QLoRA mendukung ukuran batch yang jauh lebih tinggi. Misalnya, berikut adalah rekomendasi ukuran batch untuk menyetel openLLaMA-7B di GPU berikut:
  • 1 x A100 40G:
    • LoRA: Ukuran batch 2 direkomendasikan.
    • QLoRA: Ukuran batch 24 direkomendasikan.
  • 1 x L4:
    • LoRA: Ukuran batch 1 gagal dengan error kehabisan memori (OOM).
    • QLoRA: Ukuran batch 12 direkomendasikan.
  • 1 x V100:
    • LoRA: Ukuran batch 1 gagal dengan error kehabisan memori (OOM).
    • QLoRA: Ukuran batch 8 direkomendasikan.