Diese Seite wurde von der Cloud Translation API übersetzt.

Empfehlungen: LoRA und QLoRA für LLMs

Auf dieser Seite finden Sie Konfigurationsempfehlungen zur Feinabstimmung von Large Language Models (LLMs) in Vertex AI mithilfe von LoRA (Low-Rank Adaption) für LLMs und der speichereffizienteren Version QLoRA.

Empfehlungen: Feinabstimmung

In der folgenden Tabelle sind unsere Empfehlungen zur Feinabstimmung von LLMs mithilfe von LoRA/QLoRA zusammengefasst:

Spezifikation	Empfohlen	Details
GPU-Arbeitsspeichereffizienz	QLoRA	QLoRA weist im Vergleich zu LoRA eine um etwa 75 % geringere GPU-Speichernutzung auf.
Geschwindigkeit	LoRA	LoRA ist in Bezug auf die Optimierungsgeschwindigkeit um etwa 66 % schneller als QLoRA.
Kosteneffizienz	LoRA	Beide Methoden sind zwar relativ kostengünstig, aber LoRA ist bis zu 40 % günstiger als QLoRA.
Höhere maximale Sequenzlänge	QLoRA	Eine höhere maximale Sequenzlänge erhöht die GPU-Arbeitsspeichernutzung. QLoRA verwendet weniger GPU-Arbeitsspeicher, entsprechend kann es höhere maximale Sequenzlängen unterstützen.
Verbesserung der Genauigkeit	Gleich	Beide Methoden bieten ähnliche Verbesserungen der Genauigkeit.
Größere Batchgröße	QLoRA	QLoRA unterstützt viel größere Batchgrößen. Im Folgenden finden Sie beispielsweise Empfehlungen für die Batchgröße zur Feinabstimmung von openLLaMA-7B auf folgenden GPUs: 1 x A100 40G: LoRA: Empfohlen wird eine Batchgröße von 2. QLoRA: Empfohlen wird eine Batchgröße von 24. 1 x L4: LoRA: Batchgröße von 1 schlägt mit einer OOM-Fehlermeldung fehl (Out Of Memory, fehlender Speicher). QLoRA: Empfohlen wird eine Batchgröße von 12. 1 x V100: LoRA: Batchgröße von 1 schlägt mit einer OOM-Fehlermeldung fehl (Out Of Memory, fehlender Speicher). QLoRA: Empfohlen wird eine Batchgröße von 8.