大型語言模型 (LLM) 的最佳做法

多模態提示

如要瞭解多模態提示的最佳做法,請參閱下列頁面,瞭解您使用的模態:

減少延遲

建構互動式應用程式時,回應時間 (也稱為延遲時間) 對使用者體驗至關重要。本節將探討 Vertex AI LLM API 的延遲概念,並提供實用策略,協助您盡量縮短延遲時間,進而提升 AI 輔助應用程式的回應速度。

瞭解大型語言模型的延遲指標

延遲時間是指模型處理輸入提示並生成相應輸出回覆所需的時間。

使用模型檢查延遲時間時,請考量下列事項:

第一個權杖時間 (TTFT) 是指模型在收到提示後,產生回應的第一個權杖所需的時間。TTFT 特別適用於使用串流技術的應用程式,因為即時回饋至關重要。

最後一個權杖的時間 (TTLT):用來評估模型處理提示並生成回覆的總時間。

縮短延遲時間的策略

您可以運用 Vertex AI 的多種策略,盡量縮短延遲時間,並提升應用程式的回應速度:

根據應用需求挑選合適模型

Vertex AI 提供各種模型,功能和效能特性各不相同。請仔細評估您對速度和輸出品質的要求,然後選擇最符合用途的模型。如需可用型號清單,請參閱「探索所有型號」。

最佳化提示和輸出內容長度

輸入提示和預期輸出內容的權杖數量,會直接影響處理時間。盡量減少權杖數量,以降低延遲。

  • 撰寫清楚簡潔的提示,有效傳達意圖,避免不必要的細節或重複內容。提示越短,產生第一個權杖所需的時間就越短。

  • 使用系統指令控制回覆長度。指示模型提供簡潔的答案,或將輸出內容限制在特定數量的句子或段落。這項策略可縮短最後一個權杖的產生時間。

  • 調整 temperature。您可以實驗 temperature 參數,控制輸出內容的隨機性。temperature 值越低,生成的回覆就越短、越精簡;值越高,生成的回覆就越多元,但可能較長。詳情請參閱模型參數參考資料中的 temperature

  • 設定限制來限制輸出內容。使用 max_output_tokens 參數設定生成回覆的長度上限,避免輸出內容過長。不過請注意,這可能會導致回覆在句子中途截斷。

逐句顯示回覆

使用串流功能時,模型會在生成完整輸出內容前,開始傳送回覆。這項功能可即時處理輸出內容,方便您立即更新使用者介面及執行其他並行工作。

串流功能可提升使用者對回應速度的感受,並打造互動性更高的使用者體驗。

後續步驟