深度研究智能体的生产级架构：来自 Thoughtworks 的实战复盘

cover

深度研究智能体的生产级架构：来自 Thoughtworks 的实战复盘

作者: Sarang Kulkarni (Thoughtworks)

来源: InfoQ Arc of AI Conference 2026

背景：为什么深度研究如此困难

一款新药从立项到上市，平均成本 26 亿美元。其中约 50% 的研究是在没有充分证据支撑的情况下开展的——不是没有知识，而是知识分散在无数孤岛中，无法被及时获取和连接。

Sarang Kulkarni 在 Thoughtworks 的团队面临的核心挑战正是这个：如何构建一个系统，让研究人员能够跨内部数据和互联网数据进行发现、连接和推理，同时保证可靠性、透明度和合规性？

这是一个典型的深度研究（Deep Research）场景，也是一个典型的多智能体系统设计难题。

从 RAG Chatbot 到 Agentic RAG++：三阶段演进

Kulkarni 团队没有一开始就上大模型，而是采用了渐进式架构演进：

阶段	形态	适用场景
RAG Chatbot	简单检索增强生成	简单查询，单轮问答
Agentic RAG	带执行规划的检索智能体	复杂问题，多步推理
Agentic RAG++	深度研究专用系统	长周期、跨来源、需合成的任务

这种演进路径值得大多数团队借鉴：不要在第一阶段就设计过度通用的架构，复杂度要随问题复杂度增长。

核心架构：三环系统

深度研究系统的核心是一个三环架构：

┌──────────────────────────────────────────────────────────────┐
│                    深度研究系统                               │
├──────────────────────────────────────────────────────────────┤
│  1. 澄清环（Clarification Loop）                               │
│     → 初始查询细化，理解用户真正想问什么                        │
│                                                              │
│  2. 研究环（Research Loop）                                   │
│     → 思考/规划 → 执行 → 反思（Inspect） → 更新（Update）       │
│                                                              │
│  3. 写作环（Writing Loop）                                    │
│     → 写作 → 反思（补全研究阶段遗漏的内容）                    │
└──────────────────────────────────────────────────────────────┘

研究环的四个步骤

研究环是这个架构最核心的部分，包含四个严格顺序的步骤：

Think & Plan — 研究之前的推理规划
Execute — 执行研究任务（检索、爬取、API调用等）
Inspect — 研究之后的输出验证
Update — 生成最终报告

这里的关键设计是将推理暂停（Think）和反思（Inspect）显式化为独立步骤，而不是让模型在同一个上下文中边想边写。

为什么需要写作环

研究环完成后，写作阶段可能遗漏一些研究阶段已经获取的信息。写作环通过二次反思来补全这个缺口：

“任何在研究中已获取但写作任务没有捕捉到的信息，都会在重新起草步骤中被补充完整。”

这相当于给研究系统加了一个双向验证层：研究结果要经得起写作的检验，写作内容要忠实于研究发现。

工具设计：RAG 和 SQL 的工程细节

RAG 工具的混合检索策略

加权混合搜索（Weighted Hybrid Search）
初始检索 20 个上下文块
通过重排序（Re-ranker）精炼至 7 个最终上下文块

这个”20→7”的压缩比设计很关键：保留足够信息密度，但过滤掉噪声。

text2sql 工具的错误反馈机制

让 LLM 执行 SQL 查询时，最难处理的是错误修正。Kulkarni 团队的方案是将 SQL 执行错误反馈给 LLM，形成一个错误→反思→修正的闭环：

SQL 执行失败 → 错误信息回传给 LLM → LLM 生成修正版 SQL → 重新执行

这类错误反馈机制在所有工具调用场景中都适用，本质上是让模型在”做中学”。

关键挑战与应对策略

挑战	影响	应对
Token 成本上升	费用增加	优化检索策略，减少无关上下文
性能不稳定	可靠性下降	提升上下文质量，强化反思机制
高延迟	用户体验差	优化执行效率，并行化独立任务
上下文焦虑	推理质量下降	谨慎的上下文管理，避免信息过载
数据不完整	自我评估失效	引入数据反思和过程反思双重机制

上下文焦虑（Context Anxiety）

当上下文中信息量过大时，模型的推理质量反而下降——这被 Kulkarni 称为”上下文焦虑”。应对方法是精确的上下文选择和压缩，而不是简单增加上下文窗口大小。

双重反思机制

反思不仅是数据反思（输出的信息是否准确），还包括过程反思（执行过程是否完整，是否还有遗漏步骤）。

Harness 工程：模型之外的另一半

Kulkarni 提出了一个核心观点：

AI 智能体 = 模型 + Harness（驾驭系统）。模型越强，Harness 可以越薄。

Harness 包含：工具设计、记忆系统、验证检查、约束条件和反馈回路。Harness 工程的最终目标是让自主智能体更可靠、更可问责。

这个观点对国内做 AI 应用落地的团队有重要启示：不要把所有精力放在模型选型和 Prompt 调优上，工具和反馈机制的设计往往比模型本身更重要。

关键经验总结

从简单开始：RAG 对基础查询有效，随着复杂度增加再引入智能体架构
多环架构提供结构：澄清→研究→写作的三环为复杂研究提供了清晰的执行框架
反思机制不可或缺：数据反思和过程反思双重机制确保输出质量
Think-Act 循环是关键：长周期任务需要在执行中嵌入显式的推理暂停
Harness 工程很重要：工具设计、记忆系统和验证机制决定了智能体的可靠性上限
上下文管理是瓶颈：上下文焦虑会直接导致推理质量下降，需要精细化的上下文压缩策略

文档信息

本文作者：王翊仰
本文链接：https://www.wangyiyang.cc/2026/05/28/deep-research-agents-production-lessons/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）