Recomendaciones de LoRA y QLoRA para LLM

En esta página, se proporcionan recomendaciones de configuración para ajustar modelos de lenguaje grande (LLM) en Vertex AI medianteAdaptación de clasificación baja de modelos de lenguaje grande (LoRA) y su versión más eficiente para la memoria,QloRA.

Ajusta las recomendaciones

En la siguiente tabla, se resumen nuestras recomendaciones para ajustar LLM mediante LoRA o QLoRA:

Especificación Recomendado Detalles
Eficiencia de la memoria de GPU QloRA QLoRA tiene un uso de memoria de GPU máximo un 75% más pequeño en comparación con LoRA.
Velocidad Laura En cuanto a la velocidad de ajuste, LoRA es alrededor de un 66% más rápido que QLoRA.
Cost efficiency Laura Si bien ambos métodos son relativamente económicos, LoRA es hasta un 40% menos costoso que QLoRA.
Mayor longitud de secuencia máxima QloRA Una mayor longitud máxima de secuencia aumenta el consumo de la memoria de GPU. QLoRA usa menos memoria de GPU para que pueda admitir longitudes de secuencia máximas más altas.
Mejora de precisión Igual Ambos métodos ofrecen mejoras de exactitud similares.
Mayor tamaño de lote QloRA QLoRA admite tamaños de lote mucho más altos. Por ejemplo, las siguientes son recomendaciones de tamaño del lote para ajustar openLLaMA-7B en las siguientes GPU:
  • 1 A100 40G:
    • LoRA: Se recomienda un tamaño de lote de 2.
    • QLoRA: Se recomienda un tamaño de lote de 24.
  • 1 x L4:
    • LoRA: El tamaño del lote de 1 falla con un error de memoria insuficiente (OOM).
    • QLoRA: Se recomienda un tamaño del lote de 12.
  • 1 x V100:
    • LoRA: El tamaño del lote de 1 falla con un error de memoria insuficiente (OOM).
    • QLoRA: Se recomienda un tamaño de lote de 8.