Empfehlungen: LoRA und QLoRA für LLMs

Auf dieser Seite finden Sie Konfigurationsempfehlungen zur Feinabstimmung von Large Language Models (LLMs) in Vertex AI mithilfe von LoRA (Low-Rank Adaption) für LLMs und der speichereffizienteren Version QLoRA.

Empfehlungen: Feinabstimmung

In der folgenden Tabelle sind unsere Empfehlungen zur Feinabstimmung von LLMs mithilfe von LoRA/QLoRA zusammengefasst:

Spezifikation Empfohlen Details
GPU-Arbeitsspeichereffizienz QLoRA QLoRA weist im Vergleich zu LoRA eine um etwa 75 % geringere GPU-Speichernutzung auf.
Geschwindigkeit LoRA LoRA ist in Bezug auf die Optimierungsgeschwindigkeit um etwa 66 % schneller als QLoRA.
Kosteneffizienz LoRA Beide Methoden sind zwar relativ kostengünstig, aber LoRA ist bis zu 40 % günstiger als QLoRA.
Höhere maximale Sequenzlänge QLoRA Eine höhere maximale Sequenzlänge erhöht die GPU-Arbeitsspeichernutzung. QLoRA verwendet weniger GPU-Arbeitsspeicher, entsprechend kann es höhere maximale Sequenzlängen unterstützen.
Verbesserung der Genauigkeit Gleich Beide Methoden bieten ähnliche Verbesserungen der Genauigkeit.
Höhere Batchgröße QLoRA QLoRA unterstützt viel höhere Batchgrößen. Im Folgenden finden Sie beispielsweise Empfehlungen für die Batchgröße zur Feinabstimmung von openLLaMA-7B auf folgenden GPUs:
  • 1 x A100 40G:
    • LoRA: Empfohlen wird eine Batchgröße von 2.
    • QLoRA: Empfohlen wird eine Batchgröße von 24.
  • 1 x L4:
    • LoRA: Batchgröße von 1 schlägt mit einer OOM-Fehlermeldung fehl (Out Of Memory, fehlender Speicher).
    • QLoRA: Empfohlen wird eine Batchgröße von 12.
  • 1 x V100:
    • LoRA: Batchgröße von 1 schlägt mit einer OOM-Fehlermeldung fehl (Out Of Memory, fehlender Speicher).
    • QLoRA: Empfohlen wird eine Batchgröße von 8.