Rekomendasi LoRA dan QLoRA untuk LLM

Halaman ini memberikan rekomendasi konfigurasi untuk menyesuaikan model bahasa besar (LLM) di Vertex AI menggunakan Low-Rank Adaptation of Large Language Models (LoRA) serta versi yang lebih hemat memori, QLoRA.

Rekomendasi untuk menyesuaikan

Tabel berikut merangkum rekomendasi kami untuk menyesuaikan LLM menggunakan LoRA atau QLoRA:

Spesifikasi Direkomendasikan Detail
Efisiensi memori GPU QLoRA QLoRA memiliki penggunaan memori GPU puncak sekitar 75% lebih kecil dibandingkan dengan LoRA.
Kecepatan LoRA LoRA sekitar 66% lebih cepat daripada QLoRA dalam hal kecepatan tuning.
Efisiensi biaya LoRA Meskipun kedua metode tersebut relatif murah, LoRA hingga 40% lebih murah daripada QLoRA.
Panjang urutan maksimal yang lebih tinggi QLoRA Panjang urutan maksimum yang lebih tinggi akan meningkatkan konsumsi memori GPU. QLoRA menggunakan lebih sedikit memori GPU sehingga dapat mendukung panjang urutan maksimal yang lebih tinggi.
Peningkatan akurasi Sama Kedua metode ini menawarkan peningkatan akurasi yang serupa.
Ukuran tumpukan yang lebih besar QLoRA QLoRA mendukung ukuran tumpukan yang jauh lebih besar. Misalnya, berikut adalah rekomendasi ukuran batch untuk menyesuaikan openLLaMA-7B pada GPU berikut:
  • 1 x A100 40G:
    • LoRA: Ukuran batch 2 direkomendasikan.
    • QLoRA: Direkomendasikan ukuran tumpukan 24.
  • 1 x L4:
    • LoRA: Ukuran batch 1 gagal dengan error kehabisan memori (OOM).
    • QLoRA: Direkomendasikan ukuran batch 12.
  • 1 x V100:
    • LoRA: Ukuran batch 1 gagal dengan error kehabisan memori (OOM).
    • QLoRA: Direkomendasikan ukuran batch 8.