Mulai 29 April 2025, model Gemini 1.5 Pro dan Gemini 1.5 Flash tidak tersedia di project yang belum pernah menggunakan model ini, termasuk project baru. Untuk mengetahui detailnya, lihat Versi dan siklus proses model.
Tabel berikut merangkum rekomendasi kami untuk menyesuaikan LLM menggunakan LoRA
atau QLoRA:
Spesifikasi
Disarankan
Detail
Efisiensi memori GPU
QLoRA
QLoRA memiliki penggunaan memori GPU puncak yang sekitar 75% lebih kecil dibandingkan dengan LoRA.
Kecepatan
LoRA
LoRA sekitar 66% lebih cepat daripada QLoRA dalam hal kecepatan penyesuaian.
Efisiensi biaya
LoRA
Meskipun kedua metode ini relatif tidak mahal, LoRA hingga 40% lebih murah daripada QLoRA.
Panjang urutan maksimum yang lebih tinggi
QLoRA
Panjang urutan maksimum yang lebih tinggi akan meningkatkan konsumsi memori GPU. QLoRA menggunakan lebih sedikit memori GPU sehingga dapat mendukung panjang urutan maksimum yang lebih tinggi.
Peningkatan akurasi
Sama
Kedua metode ini menawarkan peningkatan akurasi yang serupa.
Ukuran batch yang lebih tinggi
QLoRA
QLoRA mendukung ukuran batch yang jauh lebih tinggi. Misalnya, berikut adalah rekomendasi ukuran batch untuk menyetel openLLaMA-7B di GPU berikut:
1 x A100 40G:
LoRA: Ukuran batch 2 direkomendasikan.
QLoRA: Ukuran batch 24 direkomendasikan.
1 x L4:
LoRA: Ukuran batch 1 gagal dengan error kehabisan memori (OOM).
QLoRA: Ukuran batch 12 direkomendasikan.
1 x V100:
LoRA: Ukuran batch 1 gagal dengan error kehabisan memori (OOM).
[[["Mudah dipahami","easyToUnderstand","thumb-up"],["Memecahkan masalah saya","solvedMyProblem","thumb-up"],["Lainnya","otherUp","thumb-up"]],[["Sulit dipahami","hardToUnderstand","thumb-down"],["Informasi atau kode contoh salah","incorrectInformationOrSampleCode","thumb-down"],["Informasi/contoh yang saya butuhkan tidak ada","missingTheInformationSamplesINeed","thumb-down"],["Masalah terjemahan","translationIssue","thumb-down"],["Lainnya","otherDown","thumb-down"]],["Terakhir diperbarui pada 2025-09-04 UTC."],[],[],null,["# LoRA and QLoRA recommendations for LLMs\n\nThis page gives you configuration recommendations for tuning large language\nmodels (LLM) on Vertex AI by using\n[Low-Rank Adaptation of Large Language Models (LoRA)](https://arxiv.org/abs/2106.09685)\nand its more memory-efficient version,\n[QLoRA](https://arxiv.org/abs/2305.14314).\n\nTuning recommendations\n----------------------\n\nThe following table summarizes our recommendations for tuning LLMs by using LoRA\nor QLoRA:\n\n\u003cbr /\u003e"]]