Esta página se ha traducido con Cloud Translation API.

Recomendaciones de LoRA y QLoRA para LLMs

En esta página se ofrecen recomendaciones de configuración para ajustar modelos de lenguaje extenso (LLMs) en Vertex AI mediante Low-Rank Adaptation of Large Language Models (LoRA) y su versión más eficiente en cuanto a memoria, QLoRA.

Recomendaciones de ajuste

En la siguiente tabla se resumen nuestras recomendaciones para ajustar LLMs mediante LoRA o QLoRA:

Especificaciones	Recomendado	Detalles
Eficiencia de la memoria de la GPU	QLoRA	QLoRA tiene un uso máximo de memoria de GPU aproximadamente un 75% menor que LoRA.
Rapidez	LoRA	LoRA es aproximadamente un 66% más rápido que QLoRA en cuanto a la velocidad de ajuste.
Rentabilidad	LoRA	Aunque ambos métodos son relativamente económicos, LoRA es hasta un 40% más barato que QLoRA.
Mayor longitud máxima de la secuencia	QLoRA	Cuanto mayor sea la longitud máxima de la secuencia, mayor será el consumo de memoria de la GPU. QLoRA usa menos memoria de GPU, por lo que puede admitir longitudes de secuencia máximas más altas.
Mejora de la precisión	Idénticas	Ambos métodos ofrecen mejoras de precisión similares.
Tamaño de lote más grande	QLoRA	QLoRA admite tamaños de lote mucho mayores. Por ejemplo, estas son las recomendaciones de tamaño de lote para ajustar openLLaMA-7B en las siguientes GPUs: 1 x A100 40 GB: LoRA: se recomienda un tamaño de lote de 2. QLoRA: se recomienda un tamaño de lote de 24. 1 x L4: LoRA: el tamaño de lote 1 falla con un error de falta de memoria. QLoRA: se recomienda un tamaño de lote de 12. 1 x V100: LoRA: el tamaño de lote 1 falla con un error de falta de memoria. QLoRA: se recomienda un tamaño de lote de 8.