多模態提示
如要瞭解多模態提示的最佳做法,請參閱下列頁面,瞭解您使用的模態:
減少延遲
建構互動式應用程式時,回應時間 (也稱為延遲時間) 對使用者體驗至關重要。本節將探討 Vertex AI LLM API 的延遲概念,並提供實用策略,協助您盡量縮短延遲時間,進而提升 AI 輔助應用程式的回應速度。
瞭解大型語言模型的延遲指標
延遲時間是指模型處理輸入提示並生成相應輸出回覆所需的時間。
使用模型檢查延遲時間時,請考量下列事項:
第一個權杖時間 (TTFT) 是指模型在收到提示後,產生回應的第一個權杖所需的時間。TTFT 特別適用於使用串流技術的應用程式,因為即時回饋至關重要。
最後一個權杖的時間 (TTLT):用來評估模型處理提示並生成回覆的總時間。
縮短延遲時間的策略
您可以運用 Vertex AI 的多種策略,盡量縮短延遲時間,並提升應用程式的回應速度:
根據應用需求挑選合適模型
Vertex AI 提供各種模型,功能和效能特性各不相同。請仔細評估您對速度和輸出品質的要求,然後選擇最符合用途的模型。如需可用型號清單,請參閱「探索所有型號」。
最佳化提示和輸出內容長度
輸入提示和預期輸出內容的權杖數量,會直接影響處理時間。盡量減少權杖數量,以降低延遲。
撰寫清楚簡潔的提示,有效傳達意圖,避免不必要的細節或重複內容。提示越短,產生第一個權杖所需的時間就越短。
使用系統指令控制回覆長度。指示模型提供簡潔的答案,或將輸出內容限制在特定數量的句子或段落。這項策略可縮短最後一個權杖的產生時間。
調整
temperature
。您可以實驗temperature
參數,控制輸出內容的隨機性。temperature
值越低,生成的回覆就越短、越精簡;值越高,生成的回覆就越多元,但可能較長。詳情請參閱模型參數參考資料中的temperature
。設定限制來限制輸出內容。使用
max_output_tokens
參數設定生成回覆的長度上限,避免輸出內容過長。不過請注意,這可能會導致回覆在句子中途截斷。
逐句顯示回覆
使用串流功能時,模型會在生成完整輸出內容前,開始傳送回覆。這項功能可即時處理輸出內容,方便您立即更新使用者介面及執行其他並行工作。
串流功能可提升使用者對回應速度的感受,並打造互動性更高的使用者體驗。
後續步驟
- 瞭解通用提示設計策略。
- 請參閱範例提示。
- 瞭解如何傳送即時通訊提示。
- 瞭解負責任的 AI 最佳做法和 Vertex AI 的安全篩選器。
- 瞭解如何調整模型。
- 瞭解如何使用已佈建的處理量,確保生產工作負載的效能。