Ajusta las recomendaciones
En la siguiente tabla, se resumen nuestras recomendaciones para ajustar LLM mediante LoRA o QLoRA:
Especificación | Recomendado | Detalles |
---|---|---|
Eficiencia de la memoria de GPU | QLoRA | QLoRA tiene un uso de memoria de GPU máximo un 75% más pequeño en comparación con LoRA. |
Velocidad | LoRA | En cuanto a la velocidad de ajuste, LoRA es alrededor de un 66% más rápido que QLoRA. |
Rentabilidad | LoRA | Si bien ambos métodos son relativamente económicos, LoRA es hasta un 40% menos costoso que QLoRA. |
Mayor longitud de secuencia máxima | QLoRA | Una mayor longitud máxima de secuencia aumenta el consumo de la memoria de GPU. QLoRA usa menos memoria de GPU para que pueda admitir longitudes de secuencia máximas más altas. |
Mejora de precisión | Igual | Ambos métodos ofrecen mejoras de exactitud similares. |
Mayor tamaño de lote | QLoRA | QLoRA admite tamaños de lote mucho más altos. Por ejemplo, las siguientes son recomendaciones de tamaño del lote para ajustar openLLaMA-7B en las siguientes GPU:
|