本指南說明使用大型語言模型 (LLM) 的最佳做法。涵蓋下列主題:
多模態提示
如要瞭解多模態提示的最佳做法,請參閱您使用的模態頁面:
減少延遲
建構互動式應用程式時,回應時間 (延遲時間) 是使用者體驗的重要環節。本節說明 Vertex AI LLM API 的延遲時間,並提供縮短延遲時間的策略。
瞭解大型語言模型的延遲指標
延遲時間是指模型處理輸入提示並生成回覆所需的時間。
評估延遲時間時,請考量下列指標:
- 第一個權杖時間 (TTFT):模型收到提示後,傳回第一個回應權杖所需的時間。對於需要即時回饋的串流應用程式而言,TTFT 尤其重要。
- 最後一個權杖的時間 (TTLT):模型處理提示並生成完整回覆所花費的總時間。
縮短延遲時間的策略
如要縮短延遲時間並提升應用程式的回應速度,您可以搭配 Vertex AI 使用下列策略:
根據應用需求挑選合適模型。Vertex AI 提供一系列模型,各有不同的功能和效能特性。如要為您的用途選擇最佳模型,請評估速度和輸出品質方面的需求。如需可用型號清單,請參閱「探索所有型號」。
最佳化提示和輸出內容長度。輸入提示中的權杖數量和預期輸出內容會直接影響處理時間。如要縮短延遲時間,請盡量減少權杖數量。
- 撰寫簡明扼要的提示,傳達意圖,不必提供不必要的詳細資料。提示越短,產生第一個權杖所需的時間就越短。
- 如要控制回覆長度,請使用系統指令。您可以指示模型提供簡潔的答案,或將輸出內容限制在特定數量的句子或段落。這項策略可縮短最後一個權杖的產生時間。
- 調整
temperature
。如要控制輸出內容的隨機程度,請測試temperature
參數。temperature
值越低,生成的回覆就越短,且更著重於重點。值越高,輸出內容越多元,但可能也會越長。詳情請參閱模型參數參考資料中的temperature
。 - 設定輸出限制。為避免輸出內容過長,請使用
max_output_tokens
參數設定生成回覆的長度上限。請注意,這可能會導致回覆在句子中途截斷。
逐句顯示回覆。使用串流時,模型會在生成回覆的同時傳送回覆,而不是等待完整輸出。這樣一來,您就能即時處理輸出內容,立即更新使用者介面並執行其他並行工作。串流功能可提升使用者感受到的回應速度,並打造互動性更高的使用者體驗。
後續步驟
- 瞭解通用提示設計策略。
- 請參閱範例提示。
- 瞭解如何傳送即時通訊提示。
- 瞭解負責任的 AI 最佳做法和 Vertex AI 的安全篩選器。
- 瞭解如何調整模型。
- 瞭解如何使用已佈建的處理量,確保生產工作負載的效能。