Rekomendasi untuk menyesuaikan
Tabel berikut merangkum rekomendasi kami untuk menyesuaikan LLM menggunakan LoRA atau QLoRA:
Spesifikasi | Direkomendasikan | Detail |
---|---|---|
Efisiensi memori GPU | QLoRA | QLoRA memiliki penggunaan memori GPU puncak sekitar 75% lebih kecil dibandingkan dengan LoRA. |
Kecepatan | LoRA | LoRA sekitar 66% lebih cepat daripada QLoRA dalam hal kecepatan tuning. |
Efisiensi biaya | LoRA | Meskipun kedua metode tersebut relatif murah, LoRA hingga 40% lebih murah daripada QLoRA. |
Panjang urutan maksimal yang lebih tinggi | QLoRA | Panjang urutan maksimum yang lebih tinggi akan meningkatkan konsumsi memori GPU. QLoRA menggunakan lebih sedikit memori GPU sehingga dapat mendukung panjang urutan maksimal yang lebih tinggi. |
Peningkatan akurasi | Sama | Kedua metode ini menawarkan peningkatan akurasi yang serupa. |
Ukuran tumpukan yang lebih besar | QLoRA | QLoRA mendukung ukuran tumpukan yang jauh lebih besar. Misalnya, berikut adalah rekomendasi ukuran batch untuk menyesuaikan openLLaMA-7B pada GPU berikut:
|