大语言模型 (LLM) 最佳实践

多模态提示

如需了解多模态提示的最佳实践，请根据您使用的模态参阅以下页面：

在构建交互式应用时，回答时间（也称为延迟时间）在用户体验中起着至关重要的作用。本部分探讨了 Vertex AI LLM API 环境中的延迟概念，并提供了切实可行的策略，以最大限度地减少延迟并缩短 AI 驱动的应用的回答时间。

延迟时间是指模型处理输入提示并生成相应的输出回答所需的时间。

检查模型延迟时间时，请考虑以下事项：

第一个词元 (TTFT) 的时间是模型在收到提示后生成回答的第一个词元所需的时间。TTFT 对利用流式传输的应用尤其重要，其中提供即时反馈至关重要。

最后一个词元 (TTLT) 的时间用于衡量模型处理提示和生成回答所花费的时间。

您可以将多种策略与 Vertex AI 搭配使用，以最大限度地减少延迟时间并提高应用的回答速度：

Vertex AI 提供各种模型，这些模型具有不同的功能和性能特征。请仔细评估您对速度和输出质量的要求，选择最符合您使用场景的模型。如需查看可用模型的列表，请参阅探索所有模型。

输入提示和预期输出中的 token 数量都会直接影响处理时间。尽可能减少token数量，以缩短延迟时间。

精心设计清晰简洁的提示，有效传达您的意图，避免不必要的细节或冗余。提示越短，从发出提示到获得第一个 token 的时间就越短。
使用系统说明控制回答的长度。指示模型提供简洁的答案，或将输出限制为特定数量的句子或段落。此策略可以缩短从发出提示到获得最后一个token的时间。
调整 temperature。您可以尝试使用 temperature 参数来控制输出的随机性。较低的 temperature 值可以产生更短、更有针对性的回答，而较高的值可能会产生更多样化（但可能更长）的输出。如需了解详情，请参阅模型参数参考文档中的 temperature。
通过设置限制来限制输出。使用 max_output_tokens 参数对生成的回答长度设置上限，以防止输出过长。但是要小心，因为这可能会导致句子中的回答被截断。

借助流式传输，模型会在生成完整输出之前开始发送其回答。这样一来，您就可以实时处理输出，并立即更新界面和执行其他并发任务。

流式传输可增强感知到的回答速度，并打造更具互动性的用户体验。