Praktik terbaik untuk model bahasa besar (LLM)

Dialog multimodal

Untuk mengetahui informasi tentang praktik terbaik terkait prompt multimodal, lihat Praktik terbaik multimodal.

Mengurangi latensi

Saat Anda mem-build aplikasi interaktif, waktu respons, yang juga dikenal sebagai latensi, berperan penting dalam pengalaman pengguna. Bagian ini membahas konsep latensi dalam konteks Vertex AI LLM API dan memberikan strategi yang dapat ditindaklanjuti untuk meminimalkannya serta meningkatkan waktu respons aplikasi yang didukung AI.

Memahami metrik latensi untuk LLM

Latensi mengacu pada waktu yang diperlukan model untuk memproses prompt input dan menghasilkan respons output yang sesuai.

Saat memeriksa latensi dengan model, pertimbangkan hal berikut:

Waktu menuju token pertama (TTFT) adalah waktu yang diperlukan model untuk menghasilkan token respons pertama setelah menerima perintah. TTFT sangat relevan untuk aplikasi yang memanfaatkan streaming, yang sangat penting untuk memberikan masukan langsung.

Time to last token (TTLT) mengukur keseluruhan waktu yang dibutuhkan model untuk memproses perintah dan menghasilkan respons.

Strategi untuk mengurangi latensi

Anda dapat menggunakan beberapa strategi dengan Vertex AI untuk meminimalkan latensi dan meningkatkan responsivitas aplikasi:

Pilih model yang tepat untuk kasus penggunaan Anda

Vertex AI menyediakan beragam model dengan beragam kemampuan dan karakteristik performa. Pilih model yang paling sesuai dengan kebutuhan spesifik Anda.

  • Gemini 1.0 Pro: Jika kecepatan adalah prioritas utama, pertimbangkan untuk menggunakan model ini. Model ini menawarkan waktu respons yang lebih cepat sekaligus tetap memberikan hasil yang mengesankan.

  • Gemini 1.5 Pro (Pratinjau): Model multimodal yang lebih mumpuni dengan dukungan untuk konteks yang lebih besar. Library ini mendukung setiap modalitas berikut: teks, kode, gambar audio, video dengan dan tanpa audio, PDF, atau kombinasi keduanya.

Evaluasi persyaratan Anda terkait kecepatan dan kualitas output dengan cermat untuk memilih model yang paling sesuai dengan kasus penggunaan Anda. Untuk daftar model yang tersedia, lihat Menjelajahi semua model.

Mengoptimalkan panjang perintah dan output

Jumlah token di perintah input dan output yang diharapkan akan langsung memengaruhi waktu pemrosesan. Minimalkan jumlah token untuk mengurangi latensi.

  • Buat perintah yang jelas dan ringkas yang secara efektif menyampaikan intent Anda tanpa detail atau redundansi yang tidak diperlukan. Perintah yang lebih singkat akan mengurangi waktu yang diperlukan untuk token pertama.

  • Gunakan petunjuk sistem untuk mengontrol durasi respons. Instruksikan model untuk memberikan jawaban ringkas atau membatasi output ke sejumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu hingga token terakhir.

  • Sesuaikan temperature. Lakukan eksperimen dengan parameter temperature untuk mengontrol keacakan output. Nilai temperature yang lebih rendah dapat menghasilkan respons yang lebih singkat dan fokus, sementara nilai yang lebih tinggi dapat menghasilkan output yang lebih beragam, tetapi berpotensi lebih panjang. Untuk mengetahui informasi selengkapnya, lihat Suhu.

  • Membatasi output dengan menetapkan batas. Gunakan parameter max_output_tokens untuk menetapkan batas maksimum pada panjang panjang respons yang dihasilkan, sehingga mencegah output yang terlalu panjang. Namun, berhati-hatilah karena cara ini dapat memotong respons di tengah kalimat.

Streaming respons

Dengan streaming, model mulai mengirimkan responsnya sebelum menghasilkan output lengkap. Hal ini memungkinkan pemrosesan output secara real-time, dan Anda dapat segera memperbarui antarmuka pengguna serta melakukan tugas serentak lainnya.

Streaming meningkatkan responsivitas yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif. Untuk mengetahui informasi selengkapnya, baca Streaming respons dari model AI Generatif.

Langkah selanjutnya