Praktik terbaik dengan model bahasa besar (LLM)

Perintah multimodal

Untuk mengetahui informasi tentang praktik terbaik untuk perintah multimodal, lihat halaman berikut berdasarkan modalitas yang Anda gunakan:

Mengurangi latensi

Saat Anda membangun aplikasi interaktif, waktu respons, yang juga dikenal sebagai latensi, memainkan peran penting dalam pengalaman pengguna. Bagian ini membahas konsep latensi dalam konteks Vertex AI LLM API dan memberikan strategi yang dapat ditindaklanjuti untuk meminimalkan latensi dan meningkatkan waktu respons aplikasi yang didukung AI.

Memahami metrik latensi untuk LLM

Latensi mengacu pada waktu yang dibutuhkan model untuk memproses perintah input Anda dan menghasilkan respons output yang sesuai.

Saat memeriksa latensi dengan model, pertimbangkan hal berikut:

Waktu hingga token pertama (TTFT) adalah waktu yang dibutuhkan model untuk menghasilkan token pertama respons setelah menerima perintah. TTFT sangat relevan untuk aplikasi yang menggunakan streaming, yang memerlukan pemberian masukan langsung.

Waktu hingga token terakhir (TTLT) mengukur keseluruhan waktu yang dibutuhkan model untuk memproses perintah dan menghasilkan respons.

Strategi untuk mengurangi latensi

Anda dapat menggunakan beberapa strategi dengan Vertex AI untuk meminimalkan latensi dan meningkatkan responsivitas aplikasi Anda:

Memilih model yang tepat untuk kasus penggunaan Anda

Vertex AI menyediakan beragam model dengan kemampuan dan karakteristik performa yang bervariasi. Evaluasi dengan cermat persyaratan Anda terkait kecepatan dan kualitas output untuk memilih model yang paling sesuai dengan kasus penggunaan Anda. Untuk mengetahui daftar model yang tersedia, lihat Jelajahi semua model.

Mengoptimalkan panjang perintah dan output

Jumlah token dalam perintah input dan output yang diharapkan secara langsung memengaruhi waktu pemrosesan. Minimalkan jumlah token untuk mengurangi latensi.

  • Buat perintah yang jelas dan ringkas yang secara efektif menyampaikan maksud Anda tanpa detail atau pengulangan yang tidak perlu. Perintah yang lebih pendek akan mengurangi waktu Anda untuk mendapatkan token pertama.

  • Gunakan petunjuk sistem untuk mengontrol panjang respons. Berikan petunjuk kepada model untuk memberikan jawaban yang ringkas atau membatasi output hingga sejumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu Anda untuk mendapatkan token terakhir.

  • Sesuaikan temperature. Lakukan eksperimen dengan parameter temperature untuk mengontrol keacakan output. Nilai temperature yang lebih rendah dapat menghasilkan respons yang lebih singkat dan fokus, sedangkan nilai yang lebih tinggi dapat menghasilkan output yang lebih beragam, tetapi berpotensi lebih panjang. Untuk mengetahui informasi selengkapnya, lihat temperature di referensi parameter model.

  • Batasi output dengan menetapkan batas. Gunakan parameter max_output_tokens untuk menetapkan batas maksimum panjang respons yang dihasilkan, sehingga mencegah output yang terlalu panjang. Namun, berhati-hatilah karena hal ini dapat memotong respons di tengah kalimat.

Aktifkan respons bertahap

Dengan streaming, model mulai mengirimkan responsnya sebelum menghasilkan output yang lengkap. Hal ini memungkinkan pemrosesan output secara real-time, dan Anda dapat langsung memperbarui antarmuka pengguna dan melakukan tugas serentak lainnya.

Streaming meningkatkan responsivitas yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif.

Langkah berikutnya