Recommandations de réglage
Le tableau suivant récapitule nos recommandations pour le réglage des LLM à l'aide de LoRA ou de QLoRA :
Spécification | Recommandé | Détails |
---|---|---|
Efficacité de la mémoire du GPU | QLoRA | Pour QLoRA, le pic d'utilisation de mémoire GPU maximal est environ 75 % inférieur à LoRA. |
Vitesse | LoRA | LoRA est environ 66 % plus rapide que QLoRA en termes de vitesse de réglage. |
Rentabilité | LoRA | Bien que les deux méthodes soient relativement peu coûteuses, LoRA est jusqu'à 40 % moins cher que QLoRA. |
Longueur maximale de séquence plus élevée | QLoRA | Une longueur maximale de séquence plus élevée augmente la consommation de mémoire du GPU. QLoRA utilise moins de mémoire GPU et peut donc accepter des longueurs maximales de séquence plus élevées. |
Amélioration de la précision | Identique | Les deux méthodes offrent des améliorations de précision similaires. |
Taille de lot plus élevée | QLoRA | QLoRA accepte des tailles de lot beaucoup plus élevées. Par exemple, voici les recommandations de taille de lot pour le réglage d'openLLaMA-7B sur les GPU suivants :
|