Recommandations LoRA et QLoRA pour les LLM

Cette page présente des recommandations de configuration pour le réglage de grands modèles de langage (LLM) sur Vertex AI à l'aide de l' adaptation faible des modèles de langage volumineux (LoRA) et de sa version plus économe en mémoire, QLoRA.

Recommandations de réglage

Le tableau suivant récapitule nos recommandations pour le réglage des LLM à l'aide de LoRA ou de QLoRA :

Spécification Recommandé Détails
Efficacité de la mémoire du GPU QLoRA Pour QLoRA, le pic d'utilisation de mémoire GPU maximal est environ 75 % inférieur à LoRA.
Vitesse LoRA LoRA est environ 66 % plus rapide que QLoRA en termes de vitesse de réglage.
Rentabilité LoRA Bien que les deux méthodes soient relativement peu coûteuses, LoRA est jusqu'à 40 % moins cher que QLoRA.
Longueur maximale de séquence plus élevée QLoRA Une longueur maximale de séquence plus élevée augmente la consommation de mémoire du GPU. QLoRA utilise moins de mémoire GPU et peut donc accepter des longueurs maximales de séquence plus élevées.
Amélioration de la précision Identique Les deux méthodes offrent des améliorations de précision similaires.
Taille de lot plus élevée QLoRA QLoRA accepte des tailles de lot beaucoup plus élevées. Par exemple, voici les recommandations de taille de lot pour le réglage d'openLLaMA-7B sur les GPU suivants :
  • 1 x A100 40G :
    • LoRA : nous vous recommandons d'utiliser une taille de lot de 2.
    • QLoRA : nous vous recommandons d'utiliser une taille de lot de 24.
  • 1 x L4 :
    • LoRA : une taille de lot de 1 échoue avec une erreur de mémoire saturée (OOM).
    • QLoRA : nous vous recommandons d'utiliser une taille de lot de 12.
  • 1 x V100 :
    • LoRA : une taille de lot de 1 échoue avec une erreur de mémoire saturée (OOM).
    • QLoRA : nous vous recommandons d'utiliser une taille de lot de 8.