Praktik terbaik dengan model bahasa besar (LLM)

Perintah multimodal

Untuk informasi tentang praktik terbaik untuk perintah multimodal, lihat halaman berikut berdasarkan modalitas yang Anda gunakan:

Mengurangi latensi

Saat Anda mem-build aplikasi interaktif, waktu respons, yang juga dikenal sebagai latensi, berperan penting dalam pengalaman pengguna. Bagian ini membahas konsep latensi dalam konteks Vertex AI LLM API dan memberikan strategi yang dapat ditindaklanjuti untuk meminimalkannya dan meningkatkan waktu respons aplikasi yang didukung AI.

Memahami metrik latensi untuk LLM

Latensi mengacu pada waktu yang diperlukan model untuk memproses perintah input Anda dan menghasilkan respons output yang sesuai.

Saat memeriksa latensi dengan model, pertimbangkan hal berikut:

Waktu hingga token pertama (TTFT) adalah waktu yang diperlukan model untuk menghasilkan token respons pertama setelah menerima perintah. TTFT sangat relevan untuk aplikasi yang menggunakan streaming, yang memerlukan pemberian masukan langsung.

Waktu ke token terakhir (TTLT) mengukur keseluruhan waktu yang diperlukan model untuk memproses perintah dan menghasilkan respons.

Strategi untuk mengurangi latensi

Anda dapat menggunakan beberapa strategi dengan Vertex AI untuk meminimalkan latensi dan meningkatkan responsivitas aplikasi:

Memilih model yang tepat untuk kasus penggunaan Anda

Vertex AI menyediakan berbagai model dengan karakteristik performa dan kemampuan yang beragam. Pilih model yang paling sesuai dengan kebutuhan spesifik Anda.

  • Gemini 1.5 Flash: Model multimodal yang dirancang untuk aplikasi dengan volume tinggi dan hemat biaya. Gemini 1.5 Flash memberikan kecepatan dan efisiensi untuk mem-build aplikasi yang cepat dan berbiaya lebih rendah tanpa mengorbankan kualitas. Model ini mendukung modalitas berikut: teks, kode, gambar, audio, video dengan dan tanpa audio, PDF, atau kombinasi dari salah satu hal tersebut.

  • Gemini 1.5 Pro: Model multimodal yang lebih canggih dengan dukungan untuk konteks yang lebih besar. Model ini mendukung modalitas berikut: teks, kode, gambar, audio, video dengan dan tanpa audio, PDF, atau kombinasi dari salah satu hal tersebut.

  • Gemini 1.0 Pro: Jika kecepatan adalah prioritas utama dan perintah Anda hanya berisi teks, sebaiknya gunakan model ini. Model ini menawarkan waktu respons yang cepat sekaligus tetap memberikan hasil yang mengesankan.

Evaluasi dengan cermat persyaratan Anda terkait kecepatan dan kualitas output untuk memilih model yang paling sesuai dengan kasus penggunaan Anda. Untuk daftar model yang tersedia, lihat Menjelajahi semua model.

Mengoptimalkan perintah dan panjang output

Jumlah token dalam perintah input dan output yang diharapkan secara langsung memengaruhi waktu pemrosesan. Minimalkan jumlah token untuk mengurangi latensi.

  • Buat perintah yang jelas dan ringkas yang secara efektif menyampaikan intent Anda tanpa detail atau redundansi yang tidak perlu. Perintah yang lebih singkat akan mengurangi waktu untuk token pertama.

  • Gunakan petunjuk sistem untuk mengontrol durasi respons. Minta model untuk memberikan jawaban ringkas atau batasi output ke jumlah kalimat atau paragraf tertentu. Strategi ini dapat mengurangi waktu Anda untuk mendapatkan token terakhir.

  • Sesuaikan temperature. Lakukan eksperimen dengan parameter temperature untuk mengontrol keacakan output. Nilai temperature yang lebih rendah dapat menghasilkan respons yang lebih singkat dan lebih fokus, sedangkan nilai yang lebih tinggi dapat menghasilkan output yang lebih beragam, tetapi berpotensi lebih panjang. Untuk informasi selengkapnya, lihat temperature dalam referensi parameter model.

  • Batasi output dengan menetapkan batas. Gunakan parameter max_output_tokens untuk menetapkan batas maksimum pada panjang respons yang dihasilkan, sehingga mencegah output yang terlalu panjang. Namun, berhati-hatilah karena tindakan ini dapat menghentikan respons di tengah kalimat.

Menampilkan respons secara bertahap

Dengan streaming, model mulai mengirim responsnya sebelum menghasilkan output lengkap. Hal ini memungkinkan pemrosesan output secara real-time, dan Anda dapat segera memperbarui antarmuka pengguna dan melakukan tugas serentak lainnya.

Streaming meningkatkan responsivitas yang dirasakan dan menciptakan pengalaman pengguna yang lebih interaktif.

Langkah selanjutnya