LLM에 대한 LoRA 및 QLoRA 권장사항

이 페이지에서는 대규모 언어 모델(LoRA)의 하위 순위 조정 및 보다 메모리 효율적인 버전인 QLoRA를 사용하여 Vertex AI에서 대규모 언어 모델(LLM)을 조정하기 위한 구성 권장사항을 제공합니다.

조정 권장사항

다음 표에는 LoRA 또는 QLoRA를 사용하여 LLM을 조정하기 위한 권장사항이 요약되어 있습니다.

사양 권장 세부정보
GPU 메모리 효율성 QLoRA QLoRA는 LoRA에 비해 최대 GPU 메모리 사용량이 약 75% 더 작습니다.
속도 LoRA LoRA는 조정 속도 측면에서 QLoRA보다 약 66% 빠릅니다.
비용 효율성 LoRA 두 방법 모두 비교적 저렴하지만 LoRA는 QLoRA보다 최대 40% 저렴합니다.
더 긴 최대 시퀀스 길이 QLoRA 최대 시퀀스 길이가 길수록 GPU 메모리 소비가 증가합니다. QLoRA는 GPU 메모리를 적게 사용하므로 더 긴 최대 시퀀스 길이를 지원할 수 있습니다.
정확성 개선 동일 두 방법 모두 비슷한 정확도 개선사항을 제공합니다.
더 큰 배치 크기 QLoRA QLoRA는 훨씬 더 큰 배치 크기를 지원합니다. 예를 들어 다음은 다음 GPU에서 openLLaMA-7B를 조정하기 위한 배치 크기 권장사항입니다.
  • A100 40G 1개:
    • LoRA: 배치 크기 2가 권장됩니다.
    • QLoRA: 배치 크기 24가 권장됩니다.
  • L4 1개:
    • LoRA: 배치 크기 1이 메모리 부족 오류(OOM)로 인해 실패합니다.
    • QLoRA: 배치 크기 12가 권장됩니다.
  • V100 1개:
    • LoRA: 배치 크기 1이 메모리 부족 오류(OOM)로 인해 실패합니다.
    • QLoRA: 배치 크기 8이 권장됩니다.