Consigli sull'ottimizzazione
La seguente tabella riassume i nostri suggerimenti per l'ottimizzazione degli LLM utilizzando LoRA o QLoRA:
Specifica | Recommended | Dettagli |
---|---|---|
Efficienza memoria GPU | QLRA | QLoRA ha un utilizzo massimo di memoria GPU inferiore del 75% rispetto a LoRA. |
Velocità | LoRA | LoRA è circa il 66% più veloce di QLoRA in termini di velocità di regolazione. |
Efficienza in termini di costi | LoRA | Sebbene entrambi i metodi siano relativamente economici, LoRA è fino al 40% meno costoso di QLoRA. |
Lunghezza massima sequenza superiore | QLRA | Una lunghezza massima della sequenza maggiore aumenta il consumo di memoria della GPU. QLoRA utilizza meno memoria della GPU, quindi può supportare sequenze di lunghezza massime più elevate. |
Miglioramento dell'accuratezza | Uguale | Entrambi i metodi offrono miglioramenti simili in termini di precisione. |
Dimensione del batch maggiore | QLRA | QLoRA supporta dimensioni batch molto più elevate. Ad esempio, di seguito sono riportati dei suggerimenti sulle dimensioni del batch per l'ottimizzazione di openLLaMA-7B sulle seguenti GPU:
|