A tabela a seguir resume nossas recomendações para ajustar LLMs usando a LoRA ou QLoRA:
Especificação
Recomendado
Detalhes
Eficiência de memória da GPU
QLoRA
A QLoRA apresenta um pico de uso da memória da GPU cerca de 75% menor em comparação à LoRA.
Velocidade
LoRA
A LoRA é cerca de 66% mais rápida que a QLoRA em termos de velocidade de ajuste.
Economia
LoRA
Embora os dois métodos sejam relativamente baratos, a LoRA é até 40% mais barata que a QLoRA.
Maior comprimento máximo de sequência
QLoRA
Um maior comprimento máximo de sequência aumenta o consumo de memória da GPU. A QLoRA usa menos memória da GPU. Por isso, aceita maiores comprimentos de sequência.
Melhorias em termos de acurácia
Igual
Os dois métodos apresentam melhorias semelhantes em termos de acurácia.
Maior tamanho do lote
QLoRA
A QLoRA aceita tamanhos de lote muito maiores. Por exemplo, veja a seguir recomendações de tamanho do lote para ajustar o openLLaMA-7B nas seguintes GPUs:
1 x A100 40G:
LoRA: é recomendável o tamanho do lote de 2.
QLoRA: é recomendável o tamanho do lote de 24.
1 x L4:
LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM, na sigla em inglês).
QLoRA: é recomendável o tamanho do lote de 12.
1 x V100:
LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM, na sigla em inglês).
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-02-14 UTC."],[],[]]