Perintah multimodal
Untuk mengetahui informasi tentang praktik terbaik untuk perintah multimodal, lihat halaman berikut berdasarkan modalitas yang Anda gunakan:
Mengurangi latensi
Saat Anda membangun aplikasi interaktif, waktu respons, yang juga dikenal sebagai latensi, memainkan peran penting dalam pengalaman pengguna. Bagian ini membahas konsep latensi dalam konteks Vertex AI LLM API dan memberikan strategi yang dapat ditindaklanjuti untuk meminimalkan latensi dan meningkatkan waktu respons aplikasi yang didukung AI.
Memahami metrik latensi untuk LLM
Latensi mengacu pada waktu yang dibutuhkan model untuk memproses perintah input Anda dan menghasilkan respons output yang sesuai.
Saat memeriksa latensi dengan model, pertimbangkan hal berikut:
Waktu hingga token pertama (TTFT) adalah waktu yang dibutuhkan model untuk menghasilkan token pertama respons setelah menerima perintah. TTFT sangat relevan untuk aplikasi yang menggunakan streaming, yang memerlukan pemberian masukan langsung.
Waktu hingga token terakhir (TTLT) mengukur keseluruhan waktu yang dibutuhkan model untuk memproses perintah dan menghasilkan respons.
Strategi untuk mengurangi latensi
Anda dapat menggunakan beberapa strategi dengan Vertex AI untuk meminimalkan latensi dan meningkatkan responsivitas aplikasi Anda:
Memilih model yang tepat untuk kasus penggunaan Anda
Vertex AI menyediakan beragam model dengan kemampuan dan karakteristik performa yang bervariasi. Evaluasi dengan cermat persyaratan Anda terkait kecepatan dan kualitas output untuk memilih model yang paling sesuai dengan kasus penggunaan Anda. Untuk mengetahui daftar model yang tersedia, lihat Jelajahi semua model.
Mengoptimalkan panjang perintah dan output
Jumlah token dalam perintah input dan output yang diharapkan secara langsung memengaruhi waktu pemrosesan. Minimalkan jumlah token untuk mengurangi latensi.
Buat perintah yang jelas dan ringkas yang secara efektif menyampaikan maksud Anda tanpa detail atau pengulangan yang tidak perlu. Perintah yang lebih pendek akan mengurangi waktu Anda untuk mendapatkan token pertama.
Gunakan petunjuk sistem untuk mengontrol panjang respons. Berikan petunjuk kepada model untuk memberikan jawaban yang ringkas atau membatasi output hingga sejumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu Anda untuk mendapatkan token terakhir.
Sesuaikan
temperature
. Lakukan eksperimen dengan parametertemperature
untuk mengontrol keacakan output. Nilaitemperature
yang lebih rendah dapat menghasilkan respons yang lebih singkat dan fokus, sedangkan nilai yang lebih tinggi dapat menghasilkan output yang lebih beragam, tetapi berpotensi lebih panjang. Untuk mengetahui informasi selengkapnya, lihattemperature
di referensi parameter model.Batasi output dengan menetapkan batas. Gunakan parameter
max_output_tokens
untuk menetapkan batas maksimum panjang respons yang dihasilkan, sehingga mencegah output yang terlalu panjang. Namun, berhati-hatilah karena hal ini dapat memotong respons di tengah kalimat.
Aktifkan respons bertahap
Dengan streaming, model mulai mengirimkan responsnya sebelum menghasilkan output yang lengkap. Hal ini memungkinkan pemrosesan output secara real-time, dan Anda dapat langsung memperbarui antarmuka pengguna dan melakukan tugas serentak lainnya.
Streaming meningkatkan responsivitas yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif.
Langkah berikutnya
- Pelajari strategi desain perintah umum.
- Lihat beberapa contoh perintah.
- Pelajari cara mengirimkan perintah chat.
- Pelajari praktik terbaik responsible AI dan filter keamanan Vertex AI.
- Pelajari cara menyesuaikan model.
- Pelajari Throughput yang Disediakan untuk memastikan workload produksi.