Recomendações de LoRA e QLoRA para MDIs/CEs

Esta página oferece recomendações de configuração para otimizar modelos de linguagem (conteúdo extenso) (MDIs/CEs) no Vertex AI através da adaptação de baixo nível de modelos de linguagem (conteúdo extenso) (LoRA) e da respetiva versão mais eficiente em termos de memória, QLoRA.

Recomendações de aperfeiçoamento

A tabela seguinte resume as nossas recomendações para otimizar os MDGs usando LoRA ou QLoRA:

Especificação Recomendado Detalhes
Eficiência da memória da GPU QLoRA O QLoRA tem uma utilização de memória da GPU máxima cerca de 75% inferior em comparação com o LoRA.
Velocidade LoRA O LoRA é cerca de 66% mais rápido do que o QLoRA em termos de velocidade de otimização.
Relação custo-eficácia LoRA Embora ambos os métodos sejam relativamente baratos, o LoRA é até 40% menos caro do que o QLoRA.
Comprimento máximo da sequência mais elevado QLoRA Um comprimento máximo da sequência mais elevado aumenta o consumo de memória da GPU. O QLoRA usa menos memória da GPU, pelo que pode suportar comprimentos de sequência máximos mais elevados.
Melhoria da precisão Igual Ambos os métodos oferecem melhorias de precisão semelhantes.
Tamanho do lote mais elevado QLoRA O QLoRA suporta tamanhos de lotes muito superiores. Por exemplo, seguem-se as recomendações de tamanho do lote para a otimização do openLLaMA-7B nas seguintes GPUs:
  • 1 x A100 40G:
    • LoRA: recomenda-se um tamanho do lote de 2.
    • QLoRA: recomenda-se um tamanho do lote de 24.
  • 1 x L4:
    • LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM).
    • QLoRA: recomenda-se um tamanho do lote de 12.
  • 1 x V100:
    • LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM).
    • QLoRA: recomenda-se um tamanho do lote de 8.