Suggerimenti per l'ottimizzazione
La seguente tabella riassume i nostri consigli per l'ottimizzazione degli LLM utilizzando LoRA o QLoRA:
Specifica | Consigliato | Dettagli |
---|---|---|
Efficienza memoria GPU | QLoRa | QLoRA ha un utilizzo massimo della memoria GPU inferiore di circa il 75% rispetto a LoRA. |
Velocità | LoRA | LoRA è circa il 66% più veloce di QLoRA in termini di velocità di regolazione. |
Efficienza in termini di costi | LoRA | Sebbene entrambi i metodi siano relativamente economici, LoRA è fino al 40% meno costoso di QLoRA. |
Lunghezza massima della sequenza maggiore | QLoRa | Una lunghezza massima della sequenza più elevata aumenta il consumo di memoria della GPU. QLoRA utilizza meno memoria GPU, quindi può supportare sequenze di lunghezze massime più elevate. |
Miglioramento dell'accuratezza | Uguale | Entrambi i metodi offrono miglioramenti dell'accuratezza simili. |
Dimensione del batch superiore | QLoRa | QLoRA supporta batch di dimensioni molto maggiori. Ad esempio, di seguito sono riportati i consigli per le dimensioni dei batch per l'ottimizzazione di openLLaMA-7B sulle seguenti GPU:
|