Menyesuaikan rekomendasi
Tabel berikut merangkum rekomendasi kami untuk menyesuaikan LLM menggunakan LoRA atau QLoRA:
Spesifikasi | Disarankan | Detail |
---|---|---|
Efisiensi memori GPU | QLoRA | QLoRA memiliki penggunaan memori GPU puncak yang lebih kecil sekitar 75% dibandingkan dengan LoRA. |
Kecepatan | LoRA | LoRA sekitar 66% lebih cepat daripada QLoRA dalam hal kecepatan penyesuaian. |
Efisiensi biaya | LoRA | Meskipun kedua metode tersebut relatif murah, LoRA hingga 40% lebih murah daripada QLoRA. |
Panjang urutan maksimum yang lebih tinggi | QLoRA | Panjang urutan maksimum yang lebih tinggi akan meningkatkan konsumsi memori GPU. QLoRA menggunakan lebih sedikit memori GPU sehingga dapat mendukung panjang urutan maksimum yang lebih tinggi. |
Peningkatan akurasi | Sama | Kedua metode tersebut menawarkan peningkatan akurasi yang serupa. |
Ukuran batch yang lebih tinggi | QLoRA | QLoRA mendukung ukuran batch yang jauh lebih tinggi. Misalnya, berikut adalah rekomendasi ukuran batch untuk menyesuaikan openLLaMA-7B pada GPU berikut:
|