什么是检索增强生成 (RAG)？

RAG（检索增强生成）是一种 AI 框架，将传统信息检索系统（例如搜索和数据库）的优势与生成式大语言模型 (LLM) 的功能相结合。通过将您的数据和世界知识与 LLM 语言技能相结合，接地输出更准确、更及时，并且与您的具体需求相关。请阅读此电子书，挖掘您的“企业真相”。

采用 Vertex AI Search 和 DIY RAG 为 Gemini 建立依据

检索增强生成是如何工作的？

RAG 通过几个主要步骤来帮助增强生成式 AI 输出：

检索和预处理：RAG 利用强大的搜索算法查询外部数据，例如网页、知识库和数据库。检索完毕后，相关信息会进行预处理，包括标记化、词干提取和停用词移除。
接地输出：经过预处理的检索到的信息接着会无缝整合到预训练的 LLM 中。此整合增强了 LLM 的上下文，使其能够更全面地理解主题。这种增强的上下文使 LLM 能够生成更精确、更翔实且更具吸引力的回答。

RAG 在传统文本生成方法的基础上增添了多项优势，尤其是在处理事实信息或数据驱动型回答时。以下是使用 RAG 技术的一些主要优势：

大型语言模型 (LLM) 的知识来源于预训练数据，这使得它们容易给出过时甚至不准确的答案。而 RAG 技术通过为 LLM 提供实时更新的信息，有效克服了这一局限性。

LLM 是生成富有创意且引人入胜的文本的强大工具，但有时它们在事实准确性方面会力不从心。这是因为 LLM 是使用大量文本数据训练的，其中可能包含不准确的信息或存在偏差的信息。

将“事实”作为输入提示的一部分提供给 LLM 可以减轻“生成式 AI 幻觉”。这种方法的关键是确保向 LLM 提供最相关的事实，并确保 LLM 输出完全基于这些事实，同时还要回答用户的问题并遵循系统指令和安全限制。

使用 Gemini 的长上下文窗口 (LCW) 是向 LLM 提供源材料的绝佳方式。如果您需要提供的详细信息超出了 LCW 的限制，或者您需要提高性能，可以使用 RAG 方法来减少 token 的数量，从而节省时间和费用。

RAG 通常通过搜索检索事实，而现代搜索引擎现在利用矢量数据库来高效检索相关文档。矢量数据库将文档作为嵌入存储在高维空间中，允许基于语义相似度快速、准确地进行检索。多模态嵌入可用于处理图片、音频和视频等内容，这些媒体嵌入可与文本嵌入或多语言嵌入一起检索。

Vertex AI Search 等高级搜索引擎同时使用语义搜索和关键字搜索（称为混合搜索），并使用重新排名工具对搜索结果进行评分，以确保返回的首页结果具有最高相关性。此外，如果查询内容清晰、简洁且无拼写错误，搜索效果会更好；因此，在查找之前，先进的搜索引擎会转换查询并更正拼写错误。

RAG 和接地可集成到任何需要访问新鲜、私有或专业数据的大型语言模型 (LLM) 应用或智能体中。通过访问外部信息，由 RAG 提供支持的聊天机器人和对话代理可以利用外部知识提供更加全面、翔实和上下文内容感知的回答，从而改善整体用户体验。

您使用生成式 AI 构建的内容取决于您的数据和应用场景。RAG 和接地可高效、可伸缩地将您的数据引入 LLM。

通过这些资源详细了解如何使用检索增强生成。

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品，开始在 Google Cloud 上构建项目。