使用 LoRA 和 QLoRA 调整 LLM 的建议

本页面提供有关使用大语言模型的低秩自适应 (LoRA)及其内存效率更高的版本 QLoRA 调整 Vertex AI 上的大语言模型 (LLM) 的配置建议。

调整建议

下表总结了我们对使用 LoRA 或 QLoRA 调整 LLM 的建议：

规范	推荐	详细信息
GPU 内存效率	QLoRA	QLoRA 的峰值 GPU 内存用量比 LoRA 低 75%。
速度	LoRA	LoRA 的调整速度比 QLoRA 快 66%。
成本效益	LoRA	这两种方法都比较经济实惠，但 LoRA 最多可比 QLoRA 便宜 40%。
更高的序列长度上限	QLoRA	序列长度上限越高，GPU 内存消耗就越大。QLoRA 使用的 GPU 内存更少，因此可以支持更高的序列长度上限。
准确性改善	相同	这两种方法提供类似的准确率改善幅度。
较高的批次大小	QLoRA	QLoRA 支持的批次大小要大得多。例如，下面是在以下 GPU 上调整 openLLaMA-7B 的批次大小建议： 1 x A100 40G： LoRA：建议的批次大小为 2。 QLoRA：建议的批次大小为 24。 1 x L4： LoRA：批次大小为 1 时会失败，并显示内存不足错误 (OOM)。 QLoRA：建议的批次大小为 12。 1 x V100： LoRA：批次大小为 1 时会失败，并显示内存不足错误 (OOM)。 QLoRA：建议的批次大小为 8。