自 2025 年 4 月 29 日起，Gemini 1.5 Pro 和 Gemini 1.5 Flash 模型將無法用於先前未使用這些模型的專案，包括新專案。詳情請參閱「模型版本和生命週期」。

本頁面由 Cloud Translation API 翻譯而成。

大型語言模型 (LLM) 的最佳做法

本指南說明使用大型語言模型 (LLM) 的最佳做法。涵蓋下列主題：

多模態提示：查看提示最佳做法的連結，瞭解如何使用圖片、影片、音訊或文件。
縮短延遲時間：瞭解如何縮短模型回應時間，提升使用者體驗。

多模態提示

如要瞭解多模態提示的最佳做法，請參閱您使用的模態頁面：

減少延遲

建構互動式應用程式時，回應時間 (延遲時間) 是使用者體驗的重要環節。本節說明 Vertex AI LLM API 的延遲時間，並提供縮短延遲時間的策略。

瞭解大型語言模型的延遲指標

延遲時間是指模型處理輸入提示並生成回覆所需的時間。

評估延遲時間時，請考量下列指標：

第一個權杖時間 (TTFT)：模型收到提示後，傳回第一個回應權杖所需的時間。對於需要即時回饋的串流應用程式而言，TTFT 尤其重要。
最後一個權杖的時間 (TTLT)：模型處理提示並生成完整回覆所花費的總時間。

縮短延遲時間的策略

如要縮短延遲時間並提升應用程式的回應速度，您可以搭配 Vertex AI 使用下列策略：

根據應用需求挑選合適模型。Vertex AI 提供一系列模型，各有不同的功能和效能特性。如要為您的用途選擇最佳模型，請評估速度和輸出品質方面的需求。如需可用型號清單，請參閱「探索所有型號」。
最佳化提示和輸出內容長度。輸入提示中的權杖數量和預期輸出內容會直接影響處理時間。如要縮短延遲時間，請盡量減少權杖數量。
- 撰寫簡明扼要的提示，傳達意圖，不必提供不必要的詳細資料。提示越短，產生第一個權杖所需的時間就越短。
- 如要控制回覆長度，請使用系統指令。您可以指示模型提供簡潔的答案，或將輸出內容限制在特定數量的句子或段落。這項策略可縮短最後一個權杖的產生時間。
- 調整 temperature。如要控制輸出內容的隨機程度，請測試 temperature 參數。temperature 值越低，生成的回覆就越短，且更著重於重點。值越高，輸出內容越多元，但可能也會越長。詳情請參閱模型參數參考資料中的 temperature。
- 設定輸出限制。為避免輸出內容過長，請使用 max_output_tokens 參數設定生成回覆的長度上限。請注意，這可能會導致回覆在句子中途截斷。
逐句顯示回覆。使用串流時，模型會在生成回覆的同時傳送回覆，而不是等待完整輸出。這樣一來，您就能即時處理輸出內容，立即更新使用者介面並執行其他並行工作。串流功能可提升使用者感受到的回應速度，並打造互動性更高的使用者體驗。

後續步驟

瞭解通用提示設計策略。
請參閱範例提示。
瞭解如何傳送即時通訊提示。
瞭解負責任的 AI 最佳做法和 Vertex AI 的安全篩選器。
瞭解如何調整模型。
瞭解如何使用已佈建的處理量，確保生產工作負載的效能。

大型語言模型 (LLM) 的最佳做法 透過集合功能整理內容 你可以依據偏好儲存及分類內容。