大型語言模型 (LLM) 的最佳做法

本指南說明使用大型語言模型 (LLM) 的最佳做法。涵蓋下列主題:

  • 多模態提示查看提示最佳做法的連結,瞭解如何使用圖片、影片、音訊或文件。
  • 縮短延遲時間瞭解如何縮短模型回應時間,提升使用者體驗。

多模態提示

如要瞭解多模態提示的最佳做法,請參閱您使用的模態頁面:

減少延遲

建構互動式應用程式時,回應時間 (延遲時間) 是使用者體驗的重要環節。本節說明 Vertex AI LLM API 的延遲時間,並提供縮短延遲時間的策略。

瞭解大型語言模型的延遲指標

延遲時間是指模型處理輸入提示並生成回覆所需的時間。

評估延遲時間時,請考量下列指標:

  • 第一個權杖時間 (TTFT):模型收到提示後,傳回第一個回應權杖所需的時間。對於需要即時回饋的串流應用程式而言,TTFT 尤其重要。
  • 最後一個權杖的時間 (TTLT):模型處理提示並生成完整回覆所花費的總時間。

縮短延遲時間的策略

如要縮短延遲時間並提升應用程式的回應速度,您可以搭配 Vertex AI 使用下列策略:

  • 根據應用需求挑選合適模型。Vertex AI 提供一系列模型,各有不同的功能和效能特性。如要為您的用途選擇最佳模型,請評估速度和輸出品質方面的需求。如需可用型號清單,請參閱「探索所有型號」。

  • 最佳化提示和輸出內容長度。輸入提示中的權杖數量和預期輸出內容會直接影響處理時間。如要縮短延遲時間,請盡量減少權杖數量。

    • 撰寫簡明扼要的提示,傳達意圖,不必提供不必要的詳細資料。提示越短,產生第一個權杖所需的時間就越短。
    • 如要控制回覆長度,請使用系統指令。您可以指示模型提供簡潔的答案,或將輸出內容限制在特定數量的句子或段落。這項策略可縮短最後一個權杖的產生時間。
    • 調整 temperature。如要控制輸出內容的隨機程度,請測試 temperature 參數。temperature 值越低,生成的回覆就越短,且更著重於重點。值越高,輸出內容越多元,但可能也會越長。詳情請參閱模型參數參考資料中的 temperature
    • 設定輸出限制。為避免輸出內容過長,請使用 max_output_tokens 參數設定生成回覆的長度上限。請注意,這可能會導致回覆在句子中途截斷。
  • 逐句顯示回覆。使用串流時,模型會在生成回覆的同時傳送回覆,而不是等待完整輸出。這樣一來,您就能即時處理輸出內容,立即更新使用者介面並執行其他並行工作。串流功能可提升使用者感受到的回應速度,並打造互動性更高的使用者體驗。

後續步驟