
深度研究智能体的生产级架构:来自 Thoughtworks 的实战复盘
| 作者: Sarang Kulkarni (Thoughtworks) | 来源: InfoQ Arc of AI Conference 2026 |
背景:为什么深度研究如此困难
一款新药从立项到上市,平均成本 26 亿美元。其中约 50% 的研究是在没有充分证据支撑的情况下开展的——不是没有知识,而是知识分散在无数孤岛中,无法被及时获取和连接。
Sarang Kulkarni 在 Thoughtworks 的团队面临的核心挑战正是这个:如何构建一个系统,让研究人员能够跨内部数据和互联网数据进行发现、连接和推理,同时保证可靠性、透明度和合规性?
这是一个典型的深度研究(Deep Research)场景,也是一个典型的多智能体系统设计难题。
从 RAG Chatbot 到 Agentic RAG++:三阶段演进
Kulkarni 团队没有一开始就上大模型,而是采用了渐进式架构演进:
| 阶段 | 形态 | 适用场景 |
|---|---|---|
| RAG Chatbot | 简单检索增强生成 | 简单查询,单轮问答 |
| Agentic RAG | 带执行规划的检索智能体 | 复杂问题,多步推理 |
| Agentic RAG++ | 深度研究专用系统 | 长周期、跨来源、需合成的任务 |
这种演进路径值得大多数团队借鉴:不要在第一阶段就设计过度通用的架构,复杂度要随问题复杂度增长。
核心架构:三环系统
深度研究系统的核心是一个三环架构:
┌──────────────────────────────────────────────────────────────┐
│ 深度研究系统 │
├──────────────────────────────────────────────────────────────┤
│ 1. 澄清环(Clarification Loop) │
│ → 初始查询细化,理解用户真正想问什么 │
│ │
│ 2. 研究环(Research Loop) │
│ → 思考/规划 → 执行 → 反思(Inspect) → 更新(Update) │
│ │
│ 3. 写作环(Writing Loop) │
│ → 写作 → 反思(补全研究阶段遗漏的内容) │
└──────────────────────────────────────────────────────────────┘
研究环的四个步骤
研究环是这个架构最核心的部分,包含四个严格顺序的步骤:
- Think & Plan — 研究之前的推理规划
- Execute — 执行研究任务(检索、爬取、API调用等)
- Inspect — 研究之后的输出验证
- Update — 生成最终报告
这里的关键设计是将推理暂停(Think)和反思(Inspect)显式化为独立步骤,而不是让模型在同一个上下文中边想边写。
为什么需要写作环
研究环完成后,写作阶段可能遗漏一些研究阶段已经获取的信息。写作环通过二次反思来补全这个缺口:
“任何在研究中已获取但写作任务没有捕捉到的信息,都会在重新起草步骤中被补充完整。”
这相当于给研究系统加了一个双向验证层:研究结果要经得起写作的检验,写作内容要忠实于研究发现。
工具设计:RAG 和 SQL 的工程细节
RAG 工具的混合检索策略
- 加权混合搜索(Weighted Hybrid Search)
- 初始检索 20 个上下文块
- 通过重排序(Re-ranker)精炼至 7 个最终上下文块
这个”20→7”的压缩比设计很关键:保留足够信息密度,但过滤掉噪声。
text2sql 工具的错误反馈机制
让 LLM 执行 SQL 查询时,最难处理的是错误修正。Kulkarni 团队的方案是将 SQL 执行错误反馈给 LLM,形成一个错误→反思→修正的闭环:
SQL 执行失败 → 错误信息回传给 LLM → LLM 生成修正版 SQL → 重新执行
这类错误反馈机制在所有工具调用场景中都适用,本质上是让模型在”做中学”。
关键挑战与应对策略
| 挑战 | 影响 | 应对 |
|---|---|---|
| Token 成本上升 | 费用增加 | 优化检索策略,减少无关上下文 |
| 性能不稳定 | 可靠性下降 | 提升上下文质量,强化反思机制 |
| 高延迟 | 用户体验差 | 优化执行效率,并行化独立任务 |
| 上下文焦虑 | 推理质量下降 | 谨慎的上下文管理,避免信息过载 |
| 数据不完整 | 自我评估失效 | 引入数据反思和过程反思双重机制 |
上下文焦虑(Context Anxiety)
当上下文中信息量过大时,模型的推理质量反而下降——这被 Kulkarni 称为”上下文焦虑”。应对方法是精确的上下文选择和压缩,而不是简单增加上下文窗口大小。
双重反思机制
反思不仅是数据反思(输出的信息是否准确),还包括过程反思(执行过程是否完整,是否还有遗漏步骤)。
Harness 工程:模型之外的另一半
Kulkarni 提出了一个核心观点:
AI 智能体 = 模型 + Harness(驾驭系统)。模型越强,Harness 可以越薄。
Harness 包含:工具设计、记忆系统、验证检查、约束条件和反馈回路。Harness 工程的最终目标是让自主智能体更可靠、更可问责。
这个观点对国内做 AI 应用落地的团队有重要启示:不要把所有精力放在模型选型和 Prompt 调优上,工具和反馈机制的设计往往比模型本身更重要。
关键经验总结
- 从简单开始:RAG 对基础查询有效,随着复杂度增加再引入智能体架构
- 多环架构提供结构:澄清→研究→写作的三环为复杂研究提供了清晰的执行框架
- 反思机制不可或缺:数据反思和过程反思双重机制确保输出质量
- Think-Act 循环是关键:长周期任务需要在执行中嵌入显式的推理暂停
- Harness 工程很重要:工具设计、记忆系统和验证机制决定了智能体的可靠性上限
- 上下文管理是瓶颈:上下文焦虑会直接导致推理质量下降,需要精细化的上下文压缩策略
本文是对 InfoQ 文章《Sarang Kulkarni on Lessons from Building Deep Research Agents in Production》的深度解读,更多详情可阅读原文。
文档信息
- 本文作者:王翊仰
- 本文链接:https://www.wangyiyang.cc/2026/05/28/deep-research-agents-production-lessons/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)