LLM에 대한 LoRA 및 QLoRA 권장사항

이 페이지에서는 대규모 언어 모델(LoRA)의 하위 순위 조정 및 메모리가 더욱 효율적인 버전인 QLoRA를 사용하여 Vertex AI에서 대규모 언어 모델(LLM)을 조정할 수 있는 구성 권장사항을 제공합니다.

조정 권장사항

다음 표에는 LoRA 또는 QLoRA를 사용하여 LLM을 조정하기 위한 권장사항이 요약되어 있습니다.

사양 추천 세부정보
GPU 메모리 효율성 QLoRA QLoRA는 LoRA에 비해 최대 GPU 메모리 사용량이 약 75% 더 작습니다.
속도 LoRA LoRA는 조정 속도 측면에서 QLoRA보다 약 66% 빠릅니다.
비용 효율성 LoRA 두 방법 모두 비교적 저렴하지만 LoRA는 QLoRA보다 최대 40% 저렴합니다.
더 긴 최대 시퀀스 길이 QLoRA 최대 시퀀스 길이가 길수록 GPU 메모리 소비가 증가합니다. QLoRA는 GPU 메모리를 적게 사용하므로 더 긴 최대 시퀀스 길이를 지원할 수 있습니다.
정확성 개선 동일 두 방법 모두 비슷한 정확도 개선사항을 제공합니다.
더 큰 배치 크기 QLoRA QLoRA는 훨씬 더 큰 배치 크기를 지원합니다. 예를 들어 다음은 다음 GPU에서 openLLaMA-7B를 조정하기 위한 배치 크기 권장사항입니다.
  • A100 40G 1개:
    • LoRA: 배치 크기 2가 권장됩니다.
    • QLoRA: 배치 크기 24가 권장됩니다.
  • L4 1개:
    • LoRA: 배치 크기 1이 메모리 부족 오류(OOM)로 인해 실패합니다.
    • QLoRA: 배치 크기 12가 권장됩니다.
  • V100 1개:
    • LoRA: 배치 크기 1이 메모리 부족 오류(OOM)로 인해 실패합니다.
    • QLoRA: 배치 크기 8이 권장됩니다.