上次更新时间:4/23/2026
上下文工程是人工智能的意义架构。早期的 AI 使用依赖于词语选择,而 Google Cloud 上的现代系统需要结构化数据环境才能正常运行。您可以将其视为为数字员工打造高科技工作区。您不是只给工作人员一张便签,上面写着一项任务,而是为他们提供 BigQuery 中带有标签的文件柜、使用 Gemini Enterprise Agent Platform 的实时连接以及一套明确的规则。这可确保 AI 不仅能猜测您的需求,还能在稳定的数据驱动型现实环境中运行。
该行业已从基本提示发展到复杂的上下文流水线。过去,分析师需要花费数小时在聊天框中调整几句话,才能获得更好的报告。如今,我们构建的系统会在 AI 处理数据之前自动收集、过滤和结构化数据。我们已从手动文本输入转向了 Agent Platform 和 Model Context Protocol (MCP) 等自动化基础设施。
功能 | 旧提示工程 | 现代上下文工程 |
突出焦点 | 用词和措辞 | 数据流水线和环境状态 |
方法 | 手动试错 | 使用 Vertex AI 自动检索 |
输入类型 | 静态文本字符串 | 实时 BigQuery 数据流和多模态数据 |
可伸缩性 | 难以大规模重复 | 内置于 Google Cloud 架构中 |
功能
旧提示工程
现代上下文工程
突出焦点
用词和措辞
数据流水线和环境状态
方法
手动试错
使用 Vertex AI 自动检索
输入类型
静态文本字符串
实时 BigQuery 数据流和多模态数据
可伸缩性
难以大规模重复
内置于 Google Cloud 架构中
为了让 AI 智能体长期保持准确性,您需要管理三个不同的信息层。如果这些层没有组织起来,模型可能会“产生幻觉”或编造内容。
这些是基础规则,就像 AI 世界的“物理定律”一样。它们定义了智能体的角色、语气以及严格允许或不允许执行的操作。在 Vertex AI 中,这些指令在每次互动中都保持有效。
这一层会跟踪对话历史记录和用户的具体偏好。如果用户在三个步骤之前提到了首选的数据格式,半持久性内存可确保智能体不会忘记。它能让工作流顺利推进,而无需用户重复操作。
这是从外部世界实时注入的“真相”。其中包括通过 Agent Search 找到的文档、实时 API 输出,以及模型用来“思考”问题的短期笔记。它与当前任务高度相关,并且会随着每个新请求而变化。
Token 是 AI 的基本内存和费用单位。您可以将其视为大语言模型的“RAM”。目前,Gemini 3.1 等模型的上下文窗口已扩展到 100 万至 200 万个 token。这种强大的能力改变了我们设计软件的方式。现在,我们无需再费力地将信息挤入狭小的空间,而是可以一次性提供整个代码库、长达一小时的视频或数千行 BigQuery 数据。
过去,开发者不得不大幅削减或“修剪”数据以节省资金,这往往会导致信息丢失。现在,借助 Agent Platform 中的上下文缓存,我们可以用 1 折的价格在模型的活跃内存中存储大量数据。这样一来,模型既能保持快速、经济的特点,又能保留大量背景信息以供重复使用。
以下是关于不断发展的上下文工程领域的一些常见问题。
提示工程就是编写尽可能好的指令。上下文工程是一项更大的工作,即设计 AI 在 Google Cloud 上回答这些问题时使用的整个数据系统和内存。
上下文工程是指管理 AI 所用信息的实践。Model Context Protocol (MCP) 是一种专用工具,可让 AI 轻松安全地连接到 BigQuery 等不同数据源。
Google Cloud 提供基础设施来处理这些庞大的上下文需求。Agent Platform 和 Gemini 3.1 Flash 专为需要低延迟和高上下文的任务而设计。通过这种设置,开发者可以构建智能体,让其“阅读”整个文档库并在几秒钟内回答问题。
费用优化提醒
Google Cloud 上的上下文缓存可将 token 费用降低高达 90%。对于数据密集型应用,您可以将整个 BigQuery 架构或完整的技术手册库等内容存储在活跃内存中。这意味着,您不必在用户每次提出新问题时都付费将这些数据“发送”给模型。