大型語言模型的 LoRA 和 QLoRA 最佳化建議
透過集合功能整理內容
你可以依據偏好儲存及分類內容。
本頁面提供設定建議,說明如何使用大型語言模型低秩適應 (LoRA) 和更節省記憶體的 QLoRA,在 Vertex AI 上微調大型語言模型 (LLM)。
調整推薦內容
下表彙整了使用 LoRA 或 QLoRA 微調 LLM 的建議:
規格 |
建議 |
詳細資料 |
GPU 記憶體效率 |
QLoRA |
與 LoRA 相比,QLoRA 的尖峰 GPU 記憶體用量減少約 75%。 |
速度 |
LoRA |
就微調速度而言,LoRA 比 QLoRA 快約 66%。 |
具成本效益 |
LoRA |
這兩種方法都相對便宜,但 LoRA 比 QLoRA 便宜最多 40%。 |
更高的序列長度上限 |
QLoRA |
最大序列長度越高,GPU 記憶體用量就越高。QLoRA 使用的 GPU 記憶體較少,因此可支援較高的最大序列長度。 |
提升準確度 |
相同 |
這兩種方法都能提升準確度。 |
較大的批次大小 |
QLoRA |
QLoRA 支援的批次大小遠高於 LoRA。舉例來說,下列是在這些 GPU 上調整 openLLaMA-7B 時建議使用的批次大小:
- 1 個 A100 40G:
- LoRA:建議批次大小為 2。
- QLoRA:建議批次大小為 24。
- 1 x L4:
- LoRA:批次大小為 1 時,會因記憶體不足 (OOM) 而失敗。
- QLoRA:建議批次大小為 12。
- 1 個 V100:
- LoRA:批次大小為 1 時,會因記憶體不足 (OOM) 而失敗。
- QLoRA:建議批次大小為 8。
|
除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。
上次更新時間:2025-09-30 (世界標準時間)。
[[["容易理解","easyToUnderstand","thumb-up"],["確實解決了我的問題","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["難以理解","hardToUnderstand","thumb-down"],["資訊或程式碼範例有誤","incorrectInformationOrSampleCode","thumb-down"],["缺少我需要的資訊/範例","missingTheInformationSamplesINeed","thumb-down"],["翻譯問題","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["上次更新時間:2025-09-30 (世界標準時間)。"],[],[]]