Suggerimenti di ottimizzazione
La tabella seguente riassume i nostri suggerimenti per l'ottimizzazione degli LLM mediante LoRA o QLoRA:
Specifica | Consigliato | Dettagli |
---|---|---|
Efficienza memoria GPU | QLoRA | QLoRA ha un picco di utilizzo della memoria GPU inferiore di circa il 75% rispetto a LoRA. |
Velocità | LoRA | LoRA è circa il 66% più veloce di QLoRA in termini di velocità di regolazione. |
Efficienza in termini di costi | LoRA | Sebbene entrambi i metodi siano relativamente economici, LoRA ha un costo inferiore fino al 40% rispetto a QLoRA. |
Lunghezza massima della sequenza maggiore | QLoRA | Una lunghezza massima della sequenza più elevata aumenta il consumo di memoria della GPU. QLoRA utilizza meno memoria GPU, quindi può supportare sequenze di lunghezze massime più elevate. |
Miglioramento della precisione | Uguale | Entrambi i metodi offrono miglioramenti di accuratezza simili. |
Dimensione del batch superiore | QLoRA | QLoRA supporta dimensioni dei batch molto più elevate. Ad esempio, di seguito sono riportati alcuni suggerimenti per la dimensione del batch per l'ottimizzazione di openLLaMA-7B sulle seguenti GPU:
|