Recomendações de ajuste
A tabela a seguir resume nossas recomendações para ajustar LLMs usando a LoRA ou QLoRA:
Especificação | Recomendado | Detalhes |
---|---|---|
Eficiência de memória da GPU | QLoRA | A QLoRA apresenta um pico de uso da memória da GPU cerca de 75% menor em comparação à LoRA. |
Velocidade | LoRA | A LoRA é cerca de 66% mais rápida que a QLoRA em termos de velocidade de ajuste. |
Economia | LoRA | Embora os dois métodos sejam relativamente baratos, a LoRA é até 40% mais barata que a QLoRA. |
Maior comprimento máximo de sequência | QLoRA | Um maior comprimento máximo de sequência aumenta o consumo de memória da GPU. A QLoRA usa menos memória da GPU. Por isso, aceita maiores comprimentos de sequência. |
Melhorias em termos de acurácia | Igual | Os dois métodos apresentam melhorias semelhantes em termos de acurácia. |
Maior tamanho do lote | QLoRA | A QLoRA aceita tamanhos de lote muito maiores. Por exemplo, veja a seguir recomendações de tamanho do lote para ajustar o openLLaMA-7B nas seguintes GPUs:
|