Questa pagina è stata tradotta dall'API Cloud Translation.

Consigli LoRA e QLoRA per gli LLM

Questa pagina fornisce suggerimenti di configurazione per l'ottimizzazione di modelli linguistici di grandi dimensioni (LLM). di grandi dimensioni (LLM) su Vertex AI mediante Adattamento low-Rank dei modelli linguistici di grandi dimensioni (LoRA) e la sua versione con maggiore efficienza di memoria, QLoRA.

Suggerimenti per l'ottimizzazione

La seguente tabella riassume i nostri consigli per l'ottimizzazione degli LLM utilizzando LoRA o QLoRA:

Specifica	Consigliato	Dettagli
Efficienza memoria GPU	QLoRa	QLoRA ha un utilizzo massimo della memoria GPU inferiore di circa il 75% rispetto a LoRA.
Velocità	LoRA	LoRA è circa il 66% più veloce di QLoRA in termini di velocità di regolazione.
Efficienza in termini di costi	LoRA	Sebbene entrambi i metodi siano relativamente economici, LoRA è fino al 40% meno costoso di QLoRA.
Lunghezza massima della sequenza maggiore	QLoRa	Una lunghezza massima della sequenza più elevata aumenta il consumo di memoria della GPU. QLoRA utilizza meno memoria GPU, quindi può supportare sequenze di lunghezze massime più elevate.
Miglioramento dell'accuratezza	Uguale	Entrambi i metodi offrono miglioramenti dell'accuratezza simili.
Dimensione del batch superiore	QLoRa	QLoRA supporta batch di dimensioni molto maggiori. Ad esempio, di seguito sono riportati i consigli per le dimensioni dei batch per l'ottimizzazione di openLLaMA-7B sulle seguenti GPU: 1 x A100 40G: LoRA: è consigliata una dimensione del batch pari a 2. QLoRA: si consiglia una dimensione del batch pari a 24. 1 porta L4: LoRA: la dimensione del batch pari a 1 non riesce a causa di un errore di esaurimento della memoria (OOM). QLoRA: si consiglia una dimensione del batch pari a 12. 1 x V100: LoRA: dimensione del batch di 1 non riuscita a causa di un errore di memoria insufficiente (OOM). QLoRA: si consiglia una dimensione del batch pari a 8.