Recomendações da LoRA e QLoRA para LLMs

Nesta página, você verá recomendações de configuração para ajustar modelos de linguagem grandes (LLM) na Vertex AI usando a adaptação de baixa classificação de modelos de linguagem grandes (LoRA) e sua versão com maior eficiência de memória, a QLoRA.

Recomendações de ajuste

A tabela a seguir resume nossas recomendações para ajustar LLMs usando a LoRA ou QLoRA:

Especificação Recomendações Detalhes
Eficiência de memória da GPU QLoRA A QLoRA apresenta um pico de uso da memória da GPU cerca de 75% menor em comparação à LoRA.
Velocidade LoRA A LoRA é cerca de 66% mais rápida que a QLoRA em termos de velocidade de ajuste.
Economia LoRA Embora os dois métodos sejam relativamente baratos, a LoRA é até 40% mais barata que a QLoRA.
Maior comprimento máximo de sequência QLoRA Um maior comprimento máximo de sequência aumenta o consumo de memória da GPU. A QLoRA usa menos memória da GPU. Por isso, aceita maiores comprimentos de sequência.
Melhorias em termos de acurácia Igual Os dois métodos apresentam melhorias semelhantes em termos de acurácia.
Maior tamanho do lote QLoRA A QLoRA aceita tamanhos de lote muito maiores. Por exemplo, veja a seguir recomendações de tamanho do lote para ajustar o openLLaMA-7B nas seguintes GPUs:
  • 1 x A100 40G:
    • LoRA: é recomendável o tamanho do lote de 2.
    • QLoRA: é recomendável o tamanho do lote de 24.
  • 1 x L4:
    • LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM, na sigla em inglês).
    • QLoRA: é recomendável o tamanho do lote de 12.
  • 1 x V100:
    • LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM, na sigla em inglês).
    • QLoRA: é recomendável o tamanho do lote de 8.