Dialog multimodal
Untuk mengetahui informasi tentang praktik terbaik terkait prompt multimodal, lihat Praktik terbaik multimodal.
Mengurangi latensi
Saat Anda mem-build aplikasi interaktif, waktu respons, yang juga dikenal sebagai latensi, berperan penting dalam pengalaman pengguna. Bagian ini membahas konsep latensi dalam konteks Vertex AI LLM API dan memberikan strategi yang dapat ditindaklanjuti untuk meminimalkannya serta meningkatkan waktu respons aplikasi yang didukung AI.
Memahami metrik latensi untuk LLM
Latensi mengacu pada waktu yang diperlukan model untuk memproses prompt input dan menghasilkan respons output yang sesuai.
Saat memeriksa latensi dengan model, pertimbangkan hal berikut:
Waktu menuju token pertama (TTFT) adalah waktu yang diperlukan model untuk menghasilkan token respons pertama setelah menerima perintah. TTFT sangat relevan untuk aplikasi yang memanfaatkan streaming, yang sangat penting untuk memberikan masukan langsung.
Time to last token (TTLT) mengukur keseluruhan waktu yang dibutuhkan model untuk memproses perintah dan menghasilkan respons.
Strategi untuk mengurangi latensi
Anda dapat menggunakan beberapa strategi dengan Vertex AI untuk meminimalkan latensi dan meningkatkan responsivitas aplikasi:
Pilih model yang tepat untuk kasus penggunaan Anda
Vertex AI menyediakan beragam model dengan beragam kemampuan dan karakteristik performa. Pilih model yang paling sesuai dengan kebutuhan spesifik Anda.
Gemini 1.0 Pro: Jika kecepatan adalah prioritas utama, pertimbangkan untuk menggunakan model ini. Model ini menawarkan waktu respons yang lebih cepat sekaligus tetap memberikan hasil yang mengesankan.
Gemini 1.5 Pro (Pratinjau): Model multimodal yang lebih mumpuni dengan dukungan untuk konteks yang lebih besar. Library ini mendukung setiap modalitas berikut: teks, kode, gambar audio, video dengan dan tanpa audio, PDF, atau kombinasi keduanya.
Evaluasi persyaratan Anda terkait kecepatan dan kualitas output dengan cermat untuk memilih model yang paling sesuai dengan kasus penggunaan Anda. Untuk daftar model yang tersedia, lihat Menjelajahi semua model.
Mengoptimalkan panjang perintah dan output
Jumlah token di perintah input dan output yang diharapkan akan langsung memengaruhi waktu pemrosesan. Minimalkan jumlah token untuk mengurangi latensi.
Buat perintah yang jelas dan ringkas yang secara efektif menyampaikan intent Anda tanpa detail atau redundansi yang tidak diperlukan. Perintah yang lebih singkat akan mengurangi waktu yang diperlukan untuk token pertama.
Gunakan petunjuk sistem untuk mengontrol durasi respons. Instruksikan model untuk memberikan jawaban ringkas atau membatasi output ke sejumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu hingga token terakhir.
Sesuaikan
temperature
. Lakukan eksperimen dengan parametertemperature
untuk mengontrol keacakan output. Nilaitemperature
yang lebih rendah dapat menghasilkan respons yang lebih singkat dan fokus, sementara nilai yang lebih tinggi dapat menghasilkan output yang lebih beragam, tetapi berpotensi lebih panjang. Untuk mengetahui informasi selengkapnya, lihat Suhu.Membatasi output dengan menetapkan batas. Gunakan parameter
max_output_tokens
untuk menetapkan batas maksimum pada panjang panjang respons yang dihasilkan, sehingga mencegah output yang terlalu panjang. Namun, berhati-hatilah karena cara ini dapat memotong respons di tengah kalimat.
Streaming respons
Dengan streaming, model mulai mengirimkan responsnya sebelum menghasilkan output lengkap. Hal ini memungkinkan pemrosesan output secara real-time, dan Anda dapat segera memperbarui antarmuka pengguna serta melakukan tugas serentak lainnya.
Streaming meningkatkan responsivitas yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif. Untuk mengetahui informasi selengkapnya, baca Streaming respons dari model AI Generatif.
Langkah selanjutnya
- Pelajari strategi desain prompt umum.
- Lihat beberapa contoh perintah.
- Pelajari cara mengirim perintah multimodal.
- Pelajari praktik terbaik responsible AI dan filter keamanan Vertex AI.
- Pelajari cara menyesuaikan model.