Prueba los modelos de Gemini 1.5, los modelos multimodales más recientes de Vertex AI, y descubre lo que puedes crear con una ventana de contexto de hasta 2 millones de tokens. Prueba los modelos de Gemini 1.5, los modelos multimodales más recientes de Vertex AI, y descubre lo que puedes crear con una ventana de contexto de hasta 2 millones de tokens.

Recomendaciones de LoRA y QLoRA para LLM

En esta página, se proporcionan recomendaciones de configuración para ajustar modelos de lenguaje grande (LLM) en Vertex AI usando Adaptación de clasificación baja de modelos de lenguaje grande (LoRA) y su versión más eficiente para la memoria, QLoRA.

Ajusta las recomendaciones

En la siguiente tabla, se resumen nuestras recomendaciones para ajustar LLM mediante LoRA o QLoRA:

Especificación	Recomendado	Detalles
Eficiencia de la memoria de GPU	QLoRA	QLoRA tiene un uso de memoria de GPU máximo un 75% más pequeño en comparación con LoRA.
Velocidad	LoRA	En cuanto a la velocidad de ajuste, LoRA es alrededor de un 66% más rápido que QLoRA.
Rentabilidad	LoRA	Si bien ambos métodos son relativamente económicos, LoRA es hasta un 40% menos costoso que QLoRA.
Mayor longitud de secuencia máxima	QLoRA	Una mayor longitud máxima de secuencia aumenta el consumo de la memoria de GPU. QLoRA usa menos memoria de GPU para que pueda admitir longitudes de secuencia máximas más altas.
Mejora de precisión	Igual	Ambos métodos ofrecen mejoras de exactitud similares.
Mayor tamaño de lote	QLoRA	QLoRA admite tamaños de lote mucho más altos. Por ejemplo, las siguientes son recomendaciones de tamaño del lote para ajustar openLLaMA-7B en las siguientes GPU: 1 A100 40G: LoRA: Se recomienda un tamaño de lote de 2. QLoRA: Se recomienda un tamaño de lote de 24. 1 x L4: LoRA: El tamaño del lote de 1 falla con un error de memoria insuficiente (OOM). QLoRA: Se recomienda un tamaño del lote de 12. 1 x V100: LoRA: El tamaño del lote de 1 falla con un error de memoria insuficiente (OOM). QLoRA: Se recomienda un tamaño de lote de 8.