使用 LoRA 和 QLoRA 调整 LLM 的建议
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
本页面提供有关使用
大语言模型的低秩自适应 (LoRA)及其内存效率更高的版本
QLoRA 调整 Vertex AI 上的大语言模型 (LLM) 的配置建议。
调整建议
下表总结了我们对使用 LoRA 或 QLoRA 调整 LLM 的建议:
规范 |
推荐 |
详细信息 |
GPU 内存效率 |
QLoRA |
QLoRA 的峰值 GPU 内存用量比 LoRA 低 75%。 |
速度 |
LoRA |
LoRA 的调整速度比 QLoRA 快 66%。 |
成本效益 |
LoRA |
这两种方法都比较经济实惠,但 LoRA 最多可比 QLoRA 便宜 40%。 |
更高的序列长度上限 |
QLoRA |
序列长度上限越高,GPU 内存消耗就越大。QLoRA 使用的 GPU 内存更少,因此可以支持更高的序列长度上限。 |
准确性改善 |
相同 |
这两种方法提供类似的准确率改善幅度。 |
较高的批次大小 |
QLoRA |
QLoRA 支持的批次大小要大得多。例如,下面是在以下 GPU 上调整 openLLaMA-7B 的批次大小建议:
- 1 x A100 40G:
- LoRA:建议的批次大小为 2。
- QLoRA:建议的批次大小为 24。
- 1 x L4:
- LoRA:批次大小为 1 时会失败,并显示内存不足错误 (OOM)。
- QLoRA:建议的批次大小为 12。
- 1 x V100:
- LoRA:批次大小为 1 时会失败,并显示内存不足错误 (OOM)。
- QLoRA:建议的批次大小为 8。
|
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-02-14。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-02-14。"],[],[]]