Recomendações da LoRA e QLoRA para LLMs

Nesta página, você verá recomendações de configuração para ajustar modelos de linguagem grandes (LLM) na Vertex AI usando a adaptação de baixa classificação de modelos de linguagem grandes (LoRA) e sua versão com maior eficiência de memória, a QLoRA.

Recomendações de ajuste

A tabela a seguir resume nossas recomendações para ajustar LLMs usando a LoRA ou QLoRA:

Especificação	Recomendado	Detalhes
Eficiência de memória da GPU	QLoRA	A QLoRA apresenta um pico de uso da memória da GPU cerca de 75% menor em comparação à LoRA.
Velocidade	LoRA	A LoRA é cerca de 66% mais rápida que a QLoRA em termos de velocidade de ajuste.
Economia	LoRA	Embora os dois métodos sejam relativamente baratos, a LoRA é até 40% mais barata que a QLoRA.
Maior comprimento máximo de sequência	QLoRA	Um maior comprimento máximo de sequência aumenta o consumo de memória da GPU. A QLoRA usa menos memória da GPU. Por isso, aceita maiores comprimentos de sequência.
Melhorias em termos de acurácia	Igual	Os dois métodos apresentam melhorias semelhantes em termos de acurácia.
Maior tamanho do lote	QLoRA	A QLoRA aceita tamanhos de lote muito maiores. Por exemplo, veja a seguir recomendações de tamanho do lote para ajustar o openLLaMA-7B nas seguintes GPUs: 1 x A100 40G: LoRA: é recomendável o tamanho do lote de 2. QLoRA: é recomendável o tamanho do lote de 24. 1 x L4: LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM, na sigla em inglês). QLoRA: é recomendável o tamanho do lote de 12. 1 x V100: LoRA: o tamanho do lote de 1 falha com um erro de falta de memória (OOM, na sigla em inglês). QLoRA: é recomendável o tamanho do lote de 8.