Recomendaciones de LoRA y QLoRA para LLMs

En esta página se ofrecen recomendaciones de configuración para ajustar modelos de lenguaje extenso (LLMs) en Vertex AI mediante Low-Rank Adaptation of Large Language Models (LoRA) y su versión más eficiente en cuanto a memoria, QLoRA.

Recomendaciones de ajuste

En la siguiente tabla se resumen nuestras recomendaciones para ajustar LLMs mediante LoRA o QLoRA:

Especificaciones Recomendado Detalles
Eficiencia de la memoria de la GPU QLoRA QLoRA tiene un uso máximo de memoria de GPU aproximadamente un 75% menor que LoRA.
Rapidez LoRA LoRA es aproximadamente un 66% más rápido que QLoRA en cuanto a la velocidad de ajuste.
Rentabilidad LoRA Aunque ambos métodos son relativamente económicos, LoRA es hasta un 40% más barato que QLoRA.
Mayor longitud máxima de la secuencia QLoRA Cuanto mayor sea la longitud máxima de la secuencia, mayor será el consumo de memoria de la GPU. QLoRA usa menos memoria de GPU, por lo que puede admitir longitudes de secuencia máximas más altas.
Mejora de la precisión Idénticas Ambos métodos ofrecen mejoras de precisión similares.
Tamaño de lote más grande QLoRA QLoRA admite tamaños de lote mucho mayores. Por ejemplo, estas son las recomendaciones de tamaño de lote para ajustar openLLaMA-7B en las siguientes GPUs:
  • 1 x A100 40 GB:
    • LoRA: se recomienda un tamaño de lote de 2.
    • QLoRA: se recomienda un tamaño de lote de 24.
  • 1 x L4:
    • LoRA: el tamaño de lote 1 falla con un error de falta de memoria.
    • QLoRA: se recomienda un tamaño de lote de 12.
  • 1 x V100:
    • LoRA: el tamaño de lote 1 falla con un error de falta de memoria.
    • QLoRA: se recomienda un tamaño de lote de 8.