En la siguiente tabla, se resumen nuestras recomendaciones para ajustar LLM mediante LoRA o QLoRA:
Especificación
Recomendado
Detalles
Eficiencia de la memoria de GPU
QLoRA
QLoRA tiene un uso de memoria de GPU máximo un 75% más pequeño en comparación con LoRA.
Velocidad
LoRA
En cuanto a la velocidad de ajuste, LoRA es alrededor de un 66% más rápido que QLoRA.
Rentabilidad
LoRA
Si bien ambos métodos son relativamente económicos, LoRA es hasta un 40% menos costoso que QLoRA.
Mayor longitud de secuencia máxima
QLoRA
Una mayor longitud máxima de secuencia aumenta el consumo de la memoria de GPU. QLoRA usa menos memoria de GPU para que pueda admitir longitudes de secuencia máximas más altas.
Mejora de precisión
Igual
Ambos métodos ofrecen mejoras de exactitud similares.
Mayor tamaño de lote
QLoRA
QLoRA admite tamaños de lote mucho más altos. Por ejemplo, las siguientes son recomendaciones de tamaño del lote para ajustar openLLaMA-7B en las siguientes GPU:
1 A100 40G:
LoRA: Se recomienda un tamaño de lote de 2.
QLoRA: Se recomienda un tamaño de lote de 24.
1 x L4:
LoRA: El tamaño del lote de 1 falla con un error de memoria insuficiente (OOM).
QLoRA: Se recomienda un tamaño del lote de 12.
1 x V100:
LoRA: El tamaño del lote de 1 falla con un error de memoria insuficiente (OOM).
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-02-14 (UTC)"],[],[]]