使用 LoRA 和 QLoRA 调整 LLM 的建议

本页面提供有关使用大语言模型的低秩自适应 (LoRA) 及其内存效率更高的版本 QLoRA 调整 Vertex AI 上的大语言模型 (LLM) 的配置建议。

调整建议

下表总结了我们对使用 LoRA 或 QLoRA 调整 LLM 的建议:

规范 Chrome Enterprise Recommended 详细信息
GPU 内存效率 QLoRA QLoRA 的峰值 GPU 内存用量比 LoRA 低 75%。
速度 LoRA LoRA 的调整速度比 QLoRA 快 66%。
成本效益 LoRA 这两种方法都比较经济实惠,但 LoRA 最多可比 QLoRA 便宜 40%。
更高的序列长度上限 QLoRA 序列长度上限越高,GPU 内存消耗就越大。QLoRA 使用的 GPU 内存更少,因此可以支持更高的序列长度上限。
准确性改善 相同 这两种方法提供类似的准确率改善幅度。
较高的批次大小 QLoRA QLoRA 支持的批次大小要大得多。例如,下面是在以下 GPU 上调整 openLLaMA-7B 的批次大小建议:
  • 1 x A100 40G:
    • LoRA:建议的批次大小为 2。
    • QLoRA:建议的批次大小为 24。
  • 1 x L4:
    • LoRA:批次大小为 1 时会失败,并显示内存不足错误 (OOM)。
    • QLoRA:建议的批次大小为 12。
  • 1 x V100:
    • LoRA:批次大小为 1 时会失败,并显示内存不足错误 (OOM)。
    • QLoRA:建议的批次大小为 8。