LLM에 대한 LoRA 및 QLoRA 권장사항
컬렉션을 사용해 정리하기
내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.
이 페이지에서는
대규모 언어 모델(LoRA)의 하위 순위 조정 및 보다 메모리 효율적인 버전인
QLoRA를 사용하여 Vertex AI에서 대규모 언어 모델(LLM)을 조정하기 위한 구성 권장사항을 제공합니다.
조정 권장사항
다음 표에는 LoRA 또는 QLoRA를 사용하여 LLM을 조정하기 위한 권장사항이 요약되어 있습니다.
사양 |
추천 |
세부정보 |
GPU 메모리 효율성 |
QLoRA |
QLoRA는 LoRA에 비해 최대 GPU 메모리 사용량이 약 75% 더 작습니다. |
속도 |
LoRA |
LoRA는 조정 속도 측면에서 QLoRA보다 약 66% 빠릅니다. |
비용 효율성 |
LoRA |
두 방법 모두 비교적 저렴하지만 LoRA는 QLoRA보다 최대 40% 저렴합니다. |
더 긴 최대 시퀀스 길이 |
QLoRA |
최대 시퀀스 길이가 길수록 GPU 메모리 소비가 증가합니다. QLoRA는 GPU 메모리를 적게 사용하므로 더 긴 최대 시퀀스 길이를 지원할 수 있습니다. |
정확성 개선 |
동일 |
두 방법 모두 비슷한 정확도 개선사항을 제공합니다. |
더 큰 배치 크기 |
QLoRA |
QLoRA는 훨씬 더 큰 배치 크기를 지원합니다. 예를 들어 다음은 다음 GPU에서 openLLaMA-7B를 조정하기 위한 배치 크기 권장사항입니다.
- A100 40G 1개:
- LoRA: 배치 크기 2가 권장됩니다.
- QLoRA: 배치 크기 24가 권장됩니다.
- L4 1개:
- LoRA: 배치 크기 1이 메모리 부족 오류(OOM)로 인해 실패합니다.
- QLoRA: 배치 크기 12가 권장됩니다.
- V100 1개:
- LoRA: 배치 크기 1이 메모리 부족 오류(OOM)로 인해 실패합니다.
- QLoRA: 배치 크기 8이 권장됩니다.
|
달리 명시되지 않는 한 이 페이지의 콘텐츠에는 Creative Commons Attribution 4.0 라이선스에 따라 라이선스가 부여되며, 코드 샘플에는 Apache 2.0 라이선스에 따라 라이선스가 부여됩니다. 자세한 내용은 Google Developers 사이트 정책을 참조하세요. 자바는 Oracle 및/또는 Oracle 계열사의 등록 상표입니다.
최종 업데이트: 2025-02-14(UTC)
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-02-14(UTC)"],[],[]]