Empfehlungen: Feinabstimmung
In der folgenden Tabelle sind unsere Empfehlungen zur Feinabstimmung von LLMs mithilfe von LoRA/QLoRA zusammengefasst:
Spezifikation | Empfohlen | Details |
---|---|---|
GPU-Arbeitsspeichereffizienz | QLoRA | QLoRA weist im Vergleich zu LoRA eine um etwa 75 % geringere GPU-Speichernutzung auf. |
Geschwindigkeit | LoRA | LoRA ist in Bezug auf die Optimierungsgeschwindigkeit um etwa 66 % schneller als QLoRA. |
Kosteneffizienz | LoRA | Beide Methoden sind zwar relativ kostengünstig, aber LoRA ist bis zu 40 % günstiger als QLoRA. |
Höhere maximale Sequenzlänge | QLoRA | Eine höhere maximale Sequenzlänge erhöht die GPU-Arbeitsspeichernutzung. QLoRA verwendet weniger GPU-Arbeitsspeicher, entsprechend kann es höhere maximale Sequenzlängen unterstützen. |
Verbesserung der Genauigkeit | Gleich | Beide Methoden bieten ähnliche Verbesserungen der Genauigkeit. |
Höhere Batchgröße | QLoRA | QLoRA unterstützt viel höhere Batchgrößen. Im Folgenden finden Sie beispielsweise Empfehlungen für die Batchgröße zur Feinabstimmung von openLLaMA-7B auf folgenden GPUs:
|