大语言模型 (LLM) 最佳实践

多模态提示

如需了解多模态提示的最佳实践,请根据您所使用的模态参阅以下页面:

缩短延迟时间

在构建交互式应用时,回答时间(也称为延迟时间)在用户体验中起着至关重要的作用。本部分探讨了 Vertex AI LLM API 环境中的延迟概念,并提供了切实可行的策略,以最大限度地减少延迟并缩短 AI 驱动的应用的回答时间。

了解 LLM 的延迟时间指标

延迟时间是指模型处理输入提示并生成相应的输出回答所需的时间。

检查模型延迟时间时,请考虑以下事项:

第一个词元 (TTFT) 的时间是模型在收到提示后生成回答的第一个词元所需的时间。TTFT 对利用流式传输的应用尤其重要,其中提供即时反馈至关重要。

最后一个词元 (TTLT) 的时间用于衡量模型处理提示和生成回答所花费的时间。

减少延迟时间的策略

您可以将多种策略与 Vertex AI 搭配使用,以最大限度地减少延迟时间并提高应用的回答速度:

为您的使用场景选择合适的模型

Vertex AI 提供具有不同功能和性能特征的各种模型。选择最适合您特定需求的模型。

  • Gemini 1.5 Flash:专为大量经济实惠的应用而设计的多模态模型。Gemini 1.5 Flash 速度快、效率高,可用于构建快速、低成本的应用,并且不影响质量。它支持以下模态:文本、代码、图片、音频、带和不带音频的视频、PDF 文件或其中任何形式的组合。

  • Gemini 1.5 Pro:功能更强大的多模态模型,支持更大的上下文。它支持以下模态:文本、代码、图片、音频、带和不带音频的视频、PDF 文件或其中任何形式的组合。

  • Gemini 1.0 Pro:如果速度是首要任务,并且您的提示仅包含文本,请考虑使用此模型。此模型的回答时间更短,同时仍然提供出色的结果。

请仔细评估您对速度和输出质量的要求,以选择最适合您的应用场景的模型。如需查看可用模型的列表,请参阅探索所有模型

优化提示和输出长度

输入提示和预期输出中的词元数会直接影响处理时间。最大限度地减少词元数以缩短延迟时间。

  • 设计简洁明了的提示,以有效传达您的意图,而不会产生不必要的细节或冗余。较短的提示会缩短获取第一个词元的时间。

  • 使用系统说明控制回答的长度。指示模型提供简洁的答案,或将输出限制为特定数量的句子或段落。此策略可以缩短您最后一次使用词元的时间。

  • 调整 temperature。用 temperature 参数进行实验来控制输出的随机性。较低的 temperature 值可以产生更短、更有针对性的回答,而较高的值可能会产生更多样化(但可能更长)的输出。如需了解详情,请参阅模型参数参考文档中的 temperature

  • 通过设置限制来限制输出。使用 max_output_tokens 参数对生成的回答长度设置上限,以防止输出过长。但是要小心,因为这可能会导致句子中的回答被截断。

流式传输响应

借助流式传输,模型会在生成完整输出之前开始发送其回答。这样可以实时处理输出,您可以立即更新界面并执行其他并发任务。

流式传输可增强感知到的回答速度,并打造更具互动性的用户体验。

后续步骤